字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
创始人
2025-12-25 14:28:17
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。

Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。

这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题的部分证明,达到银牌成绩。

同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。

模型尚未开源,但技术报告已经公开。

值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题率。

即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。

草稿引导的高效形式化证明

具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同,230B总参数,23B激活。

主要创新有两点:

Agentic Prover

相较于通用模型用自然语言解答数学问题的方式,数学推理专用模型采用的是形式化数学推理,也就是用Lean等形式语言,构建可在公理系统中机械验证的证明,以确保结果更加可靠。

其难点在于,形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则,一行普通的数学推导,通常需要扩展成4到10行复杂的代码。

这要求模型不仅懂数学,还要精通编程和类型论,而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。

以往的研究中,形式化证明器通常分为两类:

Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构:

模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。

这样一来,模型既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又能够与Lean环境及多种工具进行交互,随时调用工具来验证猜想。

就是说,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整个证明,也无需每一步都做交互验证。

官方技术报告中还提到,Seed Prover 1.5进行了大规模的Agentic RL。

实验证明,随着强化学习训练步数的增加,模型在训练集上的证明通过率从初始的50%升至接近90%。

Agentic RL还带来了大幅的效率提升。在对比测试中,Seed Prover 1.5仅需少量的计算资源,就能在Putnam和Fate等高难度数据集上,击败消耗大量算力的上一代Seed Prover模型。

Sketch Model

为了让模型能更好地“打草稿”,研究人员还专门训练了Sketch Model,来模拟人类数学家解决问题的方式:

数学家在证明一个复杂定理时,通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿,列出关键的中间步骤、引理和大致思路。

Sketch Model同样不纠结于具体的语法细节,而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理,并暂时跳过具体证明,仅保留整体的逻辑骨架。

这就将原本不可解的复杂命题,转化成了难度更低的子目标。

研究人员采用混合奖励信号的强化学习策略,来训练这一模型:

当草稿在形式验证、数学正确性和整体评分上均满足要求时,才会获得正向奖励。

测试时工作流

以上创新最终构成了一个分层级的多智能体协作系统:

如果某个引理太难证明,系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题,更提升了推理的并行度和成功率。

研究人员还验证了这一工作流的测试时Scaling特性。

如上图所示,投入更多的计算资源,Seed Prover 1.5对问题的解决率会呈对数线性增长。

这项研究来自字节Seed AI4Math团队。

量子位捕捉到了其中几位作者的踪迹。

Zheng Yuan,清华统计学博士。今年6月刚刚加入字节,此前在阿里Qwen团队负责对齐和推理方向工作。

Hanwen Zhu,本科毕业于牛津大学数学与计算机科学专业,目前在CMU读研,即将加入字节Seed。

郑泽宇,CMU在读博士,字节Seed实习生,专业方向同样是数学与计算机科学联合方向。

论文链接:

https://arxiv.org/pdf/2512.17260

参考链接:

[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2

[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

相关内容

软通动力涨0.71%,成交...
12月25日,软通动力涨0.71%,成交额4.91亿元,换手率1....
2025-12-25 15:50:02
粤万年青涨0.30%,成交...
12月25日,粤万年青涨0.30%,成交额1.74亿元,换手率5....
2025-12-25 15:49:59
航宇科技涨2.10%,成交...
12月25日,航宇科技涨2.10%,成交额5.99亿元,换手率4....
2025-12-25 15:49:54
新相微跌0.16%,成交额...
12月25日,新相微跌0.16%,成交额1.23亿元,换手率1.9...
2025-12-25 15:49:50
格灵深瞳涨0.20%,成交...
12月25日,格灵深瞳涨0.20%,成交额4871.83万元,换手...
2025-12-25 15:49:45
家联科技涨1.33%,成交...
12月25日,家联科技涨1.33%,成交额1.09亿元,换手率3....
2025-12-25 15:49:41
致远新能涨3.54%,成交...
12月25日,致远新能涨3.54%,成交额5442.64万元,换手...
2025-12-25 15:49:36
维远股份涨0.67%,成交...
12月25日,维远股份涨0.67%,成交额4721.87万元,换手...
2025-12-25 15:49:30
富乐德跌1.51%,成交额...
12月25日,富乐德跌1.51%,成交额2.15亿元,换手率4.1...
2025-12-25 15:49:19

热门资讯

软通动力涨0.71%,成交额4... 12月25日,软通动力涨0.71%,成交额4.91亿元,换手率1.35%,总市值445.12亿元。异...
粤万年青涨0.30%,成交额1... 12月25日,粤万年青涨0.30%,成交额1.74亿元,换手率5.48%,总市值31.94亿元。异动...
航宇科技涨2.10%,成交额5... 12月25日,航宇科技涨2.10%,成交额5.99亿元,换手率4.97%,总市值120.29亿元。异...
新相微跌0.16%,成交额1.... 12月25日,新相微跌0.16%,成交额1.23亿元,换手率1.99%,总市值87.91亿元。异动分...
格灵深瞳涨0.20%,成交额4... 12月25日,格灵深瞳涨0.20%,成交额4871.83万元,换手率1.24%,总市值39.29亿元...
家联科技涨1.33%,成交额1... 12月25日,家联科技涨1.33%,成交额1.09亿元,换手率3.49%,总市值44.64亿元。异动...
致远新能涨3.54%,成交额5... 12月25日,致远新能涨3.54%,成交额5442.64万元,换手率1.57%,总市值34.88亿元...
维远股份涨0.67%,成交额4... 12月25日,维远股份涨0.67%,成交额4721.87万元,换手率0.57%,总市值83.05亿元...
富乐德跌1.51%,成交额2.... 12月25日,富乐德跌1.51%,成交额2.15亿元,换手率4.19%,总市值271.93亿元。异动...
康冠科技涨0.29%,成交额2... 12月25日,康冠科技涨0.29%,成交额2977.48万元,换手率0.29%,总市值146.53亿...