您现在的位置是:首页 > 文章详情

软件所提出基于信息论的大模型强化学习微调框架

日期:2025-10-23点击:10

中国科学院软件研究所天基综合信息系统全国重点实验室研究团队聚焦大语言模型(LLMs)在复杂推理任务中的优化问题,提出了一种基于信息论的强化微调框架Learning to Think (L2T),旨在平衡模型的推理效果和效率,为大语言模型在实际应用中的推理优化提供新的技术路径。

近日,相关成果论文 Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs 在人工智能领域顶级会议NeurIPS 2025上发表,第一作者为博士生王婧瑶、副研究员强文文、博士生宋泽恩。

随着LLMs能力的不断提升,其应用场景已从基础自然语言处理任务扩展到需要多步逻辑推理的复杂问题。研究团队分析发现,对于复杂推理任务,现有LLMs大多依赖推理计算的最终结果作为奖励信号,缺乏对中间推理步骤的及时反馈,这会导致模型产生冗余计算,造成资源浪费,甚至可能降低推理效果。

针对上述问题,L2T框架首先进行了问题重构,将推理过程建模为多回合层次化对话,同时引入一种基于信息论的稠密过程奖励机制。该机制通过评估每一推理回合带来的信息增益,并采用改进的GRPO算法策略对大语言模型进行优化,鼓励有理推理步骤、抑制冗余生成,从而实现对推理路径的精细化调控,提升推理质量和效率。

通过AIME、AMC和HumanEval等推理基准测试,L2T在不同规模的基础模型(包括DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B等)上均表现出稳定的性能提升。结果显示,与基于结果奖励的方法相比,L2T在准确率上提升超过3.2%,同时token效率翻倍;与基于过程奖励的基线相比,L2T 在准确率上仍有约2%的提升,效率提升约1.2倍。此外,在多任务评估中,L2T在不同难度任务上实现了平均近3%的确率提升,并在不同token预算下均保持稳定的性能优势。

原文链接:https://www.oschina.net/news/379072
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章