
11月27日晚,DeepSeek暗暗地在Hugging Face 上开源了一个新模子:DeepSeek-Math-V2。这是一个数学方面的模子,亦然现在行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模子。
在同步发布的工夫论文中,DeepSeek示意,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模子在IMO-ProofBench基准以及近期数学竞赛上的推崇。

具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模子,达到了近99%的高分,而排在第二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。
在这篇名为《DeepSeek Math-V2:迈向可自考据的数学推理》的论文中,DeepSeek指出,大谈话模子仍是在数学推理方面取得了要紧进展,这是东谈主工智能的蹙迫考试台,若是进一步鼓励,可能会对科学磋磨产生影响。

但刻下的AI在数学推理方面有着磋磨局限:以正确的最终谜底四肢奖励,正确的谜底却弗成保证正确的推理。好多数学任务,如定理泄漏,需要严格的分步推导,而不是数字谜底,这使得最终谜底奖励不适用。
为了坎坷深度推理的极限,DeepSeek以为有必要考据数学推理的全面性和严谨性。团队提议,自我考据关于推广测试时期经营尤为蹙迫,终点是关于那些莫得已知科罚决议的洞开问题。
这次DeepSeek推出的Math-V2就从服从导向转向了流程导向,展示了强大的定理证理智商。这一模子不依赖无数的数学题谜底数据,而是通过教学AI若何像数学家同样严谨地审查泄漏流程,从而在莫得东谈主类干扰的情况下,也能不休擢升科罚高难度数学泄漏题的智商 。
论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级得益,在Putnam 2024上通过推广测试经营达成了接近满分的得益(118/120)。
DeepSeek以为,固然仍有好多职责要作念,但这些服从标明,可自我考据的数学推理是一个可行的磋磨地点,可能有助于开发更强大的数学AI系统。
关于DeepSeek这次的动作,国外的反馈是“鲸鱼终于回来了”。有网友感叹,DeepSeek以10个百分点的上风打败了谷歌的IMO Gold 获奖模子DeepThink,这不在猜度边界内。“思象一下,当他们公布编程模子时会发生什么,我打赌他们统统有编程模子。”
现在,行业头部厂商的模子仍是又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不外,更受外界关心的仍然是,DeepSeek的旗舰模子到底什么时候更新,行业期待“鲸鱼”的下一个动作。
举报 第一财经告白互助,请点击这里此骨子为第一财经原创,文章权归第一财经所有。未经第一财经籍面授权,不得以任何形式加以使用,包括转载、摘编、复制或斥地镜像。第一财经保留讲究侵权者法律连累的权益。如需取得授权请磋磨第一财经版权部:banquan@yicai.com 文章作家
刘晓洁
关系阅读
丘成桐:AI的坎坷仍需追想数学,改日5到10年中国将成为数学强国改日AI若思坎坷能耗与算力的天花板,必须追想数学。
175 昨天 17:45
AI进化速递丨DeepSeek提议mHC新架构DeepSeek发布新论文,提议mHC(流形拘谨超流通)新架构。
151 01-01 20:20
2025:25个要害词里的中国与寰宇回看2025年,一财记者用25个要害词总结中国和寰宇。
277 2025-12-30 21:20
AI被灌入垃圾营销信息:榜单排行成重灾地,低至几千元可转变AI回话业内东谈主士称,AI需要斥地一套可交叉考据的信源体系,使援用的骨子经得起反复查对。
311 2025-12-17 16:26
102分!AI首战中学奥赛拿下金牌,离高出东谈主类仍是不远?“AI在奥赛中高出东谈主类是改日一定会发生的事天元证券官网-线上配资注册_正规配资平台网站。”
9 344 2025-12-12 20:38 一财最热 点击关闭天元证券官网-线上配资注册_正规配资平台网站提示:本文来自互联网,不代表本网站观点。