大语言模型的几何平均策略优化: 微软让AI推理更稳定更聪明
- 2025-08-06 03:28:15
- 853
这项由北京中科院大学的赵宇忠、刘悦,香港中文大学的刘俊鹏,香港科技大学的陈靖烨,以及微软研究院的吴洵、郝雅茹、吕腾超、黄少涵、崔雷、叶其祥、万方、韦福如等研究者组成的国际团队,于2025年7月在arXiv上发表了这项突破性研究。有兴趣深入了解的读者可以通过https://aka.ms/GeneralAI访问相关研究资源,或在GitHub上查看开源代码:https://github.com/callsys/GMPO。
当我们教孩子学数学时,通常会让他们反复练习,从错误中学习,逐步提高解题能力。人工智能也是如此——它需要通过不断的尝试和调整来提升自己的推理能力。然而,就像一个过于急躁的学生可能会因为一次考试失败就彻底改变学习方法一样,现有的AI训练方法也存在着"情绪不稳定"的问题。
目前最先进的大语言模型训练方法叫做"群体相对策略优化"(GRPO),可以把它理解为一种"集体学习法"。就像老师让一群学生同时做同一道题,然后根据大家的平均表现来调整每个学生的学习策略。这种方法确实有效,但问题在于,如果某个学生表现特别好或特别差,就会对整个集体的"平均分"产生巨大影响,进而导致所有学生的学习计划都被打乱。
在AI的世界里,这种现象被称为"重要性采样比率过于极端"。简单来说,就是AI在学习过程中会遇到一些"特别难"或"特别容易"的例子,这些极端情况会让AI的学习变得不稳定,就像坐过山车一样忽上忽下。这种不稳定性不仅影响学习效果,还可能让AI变得过于保守,不敢尝试新的解题方法。
面对这个问题,研究团队提出了一个创新的解决方案:几何平均策略优化(GMPO)。如果说传统的GRPO方法像是计算所有学生成绩的算术平均分,那么GMPO就像是计算几何平均分。这两种平均方法的区别可以用一个简单的例子来说明:假设有三个学生的成绩分别是60分、80分和100分,算术平均分是80分;但如果其中一个学生考了0分,另外两个还是80分和100分,算术平均分就变成了60分,下降了25%。而几何平均分在面对这种极端情况时,变化幅度会小得多,更加稳定。
这种稳定性的好处体现在多个方面。首先,GMPO让AI的学习过程变得更加平稳,就像一个经验丰富的老师,不会因为某个学生的特殊表现就大幅调整整个班级的教学计划。其次,GMPO允许AI在更大的"探索范围"内学习,就像给学生更多的试错机会,鼓励他们尝试不同的解题思路。
研究团队通过大量实验验证了GMPO的优势。他们使用了多个不同规模的AI模型,在五个数学推理基准测试上进行了全面对比。结果显示,使用GMPO训练的7B参数模型在数学推理任务上的平均准确率比传统GRPO方法提高了4.1%,这在AI领域是一个相当显著的提升。更重要的是,在几何推理这样的多模态任务中,GMPO也展现出了1.4%的性能提升。
为了更好地理解GMPO的工作原理,我们可以把AI的学习过程想象成一个厨师学习做菜的过程。传统的GRPO方法就像是每次都根据所有菜品的平均评分来调整做菜方法,但如果某道菜特别成功或特别失败,就会导致厨师过度调整整个烹饪风格。而GMPO则更像是一个经验丰富的主厨,会综合考虑所有菜品的表现,但不会因为个别极端情况就彻底改变自己的烹饪哲学。
具体来说,GMPO在处理"奖励信号"时采用了几何平均的方式。在AI训练中,每当模型生成一个正确答案,就会获得正向奖励;生成错误答案则获得负向奖励。传统方法直接对这些奖励进行算术平均,容易被极端值影响。GMPO则通过几何平均的方式,让这些奖励信号的影响更加均衡,避免了"一票否决"或"一好遮百丑"的情况。
研究团队还发现,GMPO在训练过程中表现出了更好的"探索能力"。这就像是一个学生在解题时愿意尝试多种不同的方法,而不是只会一种套路。通过分析训练过程中的"熵值"(可以理解为AI思维的活跃程度),研究者发现GMPO训练的模型始终保持着较高的创造性和灵活性,而传统方法训练的模型则很快就变得僵化和保守。
同时,GMPO还表现出了更好的"稳定性"。研究团队通过监测训练过程中模型与初始状态的"距离"(用KL散度衡量),发现GMPO能够在学习新知识的同时保持相对稳定,不会出现大幅波动。这就像是一个学生在学习新知识时,能够在不忘记已有知识的基础上稳步提升,而不是时好时坏。
在技术实现上,GMPO还采用了一些巧妙的设计。比如,它使用了"词元级裁剪"而不是"序列级裁剪"。这种差别可以用修改文章来类比:序列级裁剪就像是要么完全接受一篇文章,要么完全拒绝;而词元级裁剪则像是可以接受文章中的好段落,同时修改有问题的部分。这种更精细的控制方式让AI能够更好地从部分正确的答案中学习。
另外,GMPO还扩大了"裁剪范围",允许AI在更大的空间内探索可能的解决方案。如果说传统方法给AI设定了一个较小的"试错空间",那么GMPO就像是给了AI一个更大的实验室,让它可以尝试更多的可能性。研究显示,这种扩大的探索空间配合几何平均的稳定性,能够在不牺牲训练稳定性的前提下显著提升模型性能。
研究团队进行了详尽的对比实验来验证GMPO的有效性。他们选择了多个不同规模的模型,从1.5B参数的小模型到7B参数的大模型,涵盖了不同的应用场景。测试数据集包括了从高中水平的数学竞赛题目到研究生水平的复杂推理问题,确保了评估的全面性。
在具体的测试结果中,GMPO在所有规模的模型上都表现出了一致的优势。以最具代表性的7B模型为例,在AIME24(美国数学邀请赛2024)这样的高难度竞赛中,GMPO的准确率达到了43.3%,与传统GRPO方法持平;但在AMC(美国数学竞赛)中达到了61.4%,在MATH500数据集上达到了82.0%,在Minerva数据集上达到了33.5%,在OlympiadBench上达到了43.6%。综合平均下来,GMPO比GRPO提升了1.5个百分点。
更值得注意的是,当使用更先进的基础模型(如DeepSeek-R1-Distill-Qwen-7B)时,GMPO的优势更加明显。在这种设置下,GMPO的平均准确率达到63.4%,比GRPO的59.3%提升了4.1个百分点。这说明GMPO的方法在更复杂的模型上能够发挥更大的作用。
在多模态推理任务中,GMPO同样表现出色。在Geometry3K几何推理数据集上,使用Qwen2.5-VL-Instruct-7B模型时,GMPO的准确率达到54.7%,比GRPO的53.3%提升了1.4个百分点。虽然提升幅度看似不大,但在这种需要同时处理图像和文字信息的复杂任务中,任何性能提升都是难能可贵的。
为了更深入地理解GMPO的工作机制,研究团队还进行了详细的消融实验。他们逐一测试了GMPO中每个组件的贡献。结果显示,从算术平均改为几何平均是性能提升的主要来源,这个改变本身就带来了1.5%的性能提升。词元级裁剪相比序列级裁剪也有明显优势,而扩大裁剪范围则进一步增强了模型的探索能力。
有趣的是,研究团队发现完全取消裁剪机制(即允许无限制的探索)反而会导致性能下降。这说明适度的约束对于保持训练稳定性是必要的,关键在于找到探索自由度和训练稳定性之间的最佳平衡点。GMPO通过几何平均的方式实现了这种平衡,既允许了更大的探索空间,又维持了训练的稳定性。
从训练动态的角度来看,GMPO展现出了与传统方法截然不同的学习曲线。在训练初期,两种方法的表现相似;但随着训练的深入,传统GRPO方法的重要性采样比率开始出现剧烈波动,表明训练变得不稳定。而GMPO的重要性采样比率始终保持在相对稳定的范围内,即使在训练后期也没有出现大幅波动。
这种稳定性不仅体现在数值指标上,也体现在模型的实际行为中。研究团队发现,使用GMPO训练的模型在生成答案时表现出更高的一致性和可预测性,而传统方法训练的模型有时会产生意外的、不一致的输出。这种差异在需要多步推理的复杂数学问题中尤为明显。
值得一提的是,GMPO的计算开销与传统GRPO方法基本相当。虽然几何平均的计算稍微复杂一些,但通过在对数空间进行运算等技术优化,额外的计算成本可以忽略不计。这意味着GMPO在提升性能的同时,并没有显著增加训练的时间或资源消耗,这对于实际应用来说是一个重要优势。
研究团队还深入分析了GMPO在不同类型问题上的表现差异。他们发现,GMPO在需要多步复杂推理的问题上优势更加明显,而在简单的、单步可以解决的问题上,两种方法的差异相对较小。这个发现很有意义,因为它表明GMPO特别适合训练需要进行深度思考和复杂推理的AI系统。
从理论角度来看,GMPO的成功可以归因于其对极值的鲁棒性。在数学上,几何平均天然地对极端值不敏感,这一特性在AI训练中转化为对异常样本的抗干扰能力。当模型遇到特别难或特别容易的训练样本时,GMPO能够保持相对稳定的学习节奏,不会因为个别样本就大幅调整学习策略。
研究团队通过梯度分析进一步证明了这一点。他们发现,在传统GRPO方法中,每个词元的梯度更新幅度直接受到其对应的重要性采样比率影响,这导致某些词元的梯度可能过大或过小。而在GMPO中,每个词元的梯度更新都受到整个序列几何平均的调节,形成了一种"集体智慧"的效应,让学习过程更加均衡。
这种理论优势在实践中转化为了显著的性能提升。特别是在处理包含多种难度级别问题的混合数据集时,GMPO展现出了更强的适应性。它既能从简单问题中高效学习基础知识,也能在复杂问题上保持稳定的学习进度,不会出现"偏科"现象。
除了数学推理任务,研究团队还在代码生成、常识推理等其他任务上测试了GMPO的效果。虽然这些测试的规模相对较小,但初步结果显示GMPO的优势具有一定的通用性,不仅仅局限于数学推理领域。这为GMPO在更广泛的AI应用中的推广应用提供了信心。
研究还揭示了GMPO在长序列处理上的特殊优势。在处理需要生成较长推理过程的问题时,传统方法往往在序列后期出现性能衰减,而GMPO能够更好地维持整个推理链条的质量。这一特点对于需要进行详细分析和解释的AI应用尤为重要。
从实现细节来看,GMPO的代码实现相对简洁。研究团队提供的开源代码显示,从GRPO到GMPO的转换只需要修改核心优化目标的计算方式,其他组件基本可以保持不变。这种简洁性使得GMPO能够很容易地集成到现有的训练框架中,降低了实际应用的门槛。
研究团队还特别关注了GMPO在不同训练阶段的表现。他们发现,GMPO的优势在训练中后期更加明显。在训练初期,模型还在学习基础知识时,两种方法的差异相对较小;但随着训练的深入,当模型需要处理更复杂的推理任务时,GMPO的稳定性优势开始凸显,性能差距逐渐拉大。
这一发现对于理解强化学习在大语言模型训练中的作用机制具有重要意义。它表明,训练方法的选择在模型的高级认知能力发展阶段起着关键作用。传统方法可能在基础能力训练上表现良好,但在培养复杂推理能力时存在局限性。
最后,研究团队对GMPO的未来发展方向进行了展望。他们认为,几何平均的思想可能不仅适用于强化学习,也可能在其他机器学习范式中发挥作用。此外,如何进一步优化几何平均的计算效率,以及如何将这一思想扩展到更大规模的模型训练中,都是值得探索的方向。
说到底,GMPO的成功不仅仅是一个技术改进,更代表了AI训练理念的一种转变。从追求快速收敛到注重稳定学习,从关注平均表现到重视鲁棒性,这种转变反映了AI领域对于如何培养真正智能系统的深入思考。就像教育孩子一样,有时候慢一点、稳一点的方法反而能带来更好的长期效果。
这项研究为大语言模型的训练提供了一个新的视角,证明了在保持训练稳定性的同时提升模型性能是完全可能的。随着AI系统变得越来越复杂,这种稳定而有效的训练方法将变得越来越重要。对于整个AI领域而言,GMPO的成功可能预示着未来训练方法的发展方向:不仅要快,更要稳;不仅要有效,更要可靠。
Q&A
Q1:GMPO是什么?它与传统的GRPO有什么区别?A:GMPO是几何平均策略优化的简称,是一种训练大语言模型的新方法。它与传统GRPO的主要区别在于使用几何平均而不是算术平均来处理训练奖励。简单说,就像计算学生成绩时,几何平均比算术平均更不容易被极端分数影响,让AI学习过程更稳定。
Q2:GMPO会不会让AI训练变得更慢或更耗资源?A:不会。研究显示GMPO的计算开销与传统方法基本相当,通过技术优化后额外成本可以忽略不计。而且由于训练更稳定,实际上可能减少因为训练不稳定而需要重新训练的情况,总体上可能更高效。
Q3:普通人能用上GMPO训练的AI模型吗?什么时候能普及?A:目前GMPO还主要在研究阶段,但由于其代码已经开源,AI公司可以相对容易地将其集成到现有系统中。随着越来越多的AI服务提供商采用这种技术,普通人很快就能通过各种AI应用体验到GMPO带来的更稳定、更智能的AI服务。
- 上一篇:日本居民凌晨点排队买米
- 下一篇:男子打车面试被女司机送进湖里