顶刊nature再发文盛赞浙大人梁文锋的最新deepseek
2025年12月5日,全球三大顶刊之一的nature发文盛赞浙大人梁文锋的最新版本deepseek。这是nature有关deepseek的第三篇报道,远超其他大模型。
此外,梁文锋也在顶刊上发表过一篇正式论文。
以梁文锋的成就,院士增选本该选他而不是那些国企官员。
原文摘录几段翻译如下:
中国人工智能公司DeepSeek发布了一款能够识别并纠正自身错误的数学推理模型。该模型在全球最负盛名的本科数学竞赛之一中创下了人类最高分。
该模型DeepSeekMath-V2在2024年威廉·洛厄尔·普特南数学竞赛中,在120分中得分118分,打破了人类最高得分90分。该模型还在2025年国际数学奥林匹克(IMO)和2024年中国数学奥林匹克中表现优异。结果详见预印本1发表于arXiv,时间为11月27日。
推理胜于答案
早期训练大型语言模型用于数学推理的方法侧重于最终答案的准确性,预印本作者写道。但正确答案并不保证推理正确。有时,正确的最终答案可能只是幸运错误的结果。此外,专注于最终结果对证明数学定律或公式无益,因为逻辑推理比最终答案更为重要。
DeepSeekMath-V2 首次引入了自我验证的数学推理。该模型由一个经过训练评估数学证明的验证器组成——这些证明基于一系列逐步推理——用以识别逻辑缺陷,并根据证明的严谨程度分配分数。随后,元验证系统检查验证者的批评是否准确,降低幻觉的可能性,提高可信度。这些组件与证明生成器协作,生成解答并评估自身工作,不断优化论证,直到发现更多问题。
设计形成反馈循环:验证器改进生成器,随着生成器产生更具挑战性的证明,这些证明成为新的训练数据以增强验证器。
相比之下,Gemini的Deep Think通过一种名为精益的外部符号语言验证数学推理,其验证过程需要大量专家参与。谢表示,这种方法几乎没有幻觉,但计算量大且资源消耗巨大。
原文:toutiao.com/article/1850680795913216/
声明:该文仅代表作者本人观点