软件所提出基于信息论的大模型强化学习微调框架
中国科学院软件研究所天基综合信息系统全国重点实验室研究团队聚焦大语言模型(LLMs)在复杂推理任务中的优化问题,提出了一种基于信息论的强化微调框架Learning to Think (L2T),旨在平衡模型的推理效果和效率,为大语言模型在实际应用中的推理优化提供新的技术路径。
近日,相关成果论文 Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs 在人工智能领域顶级会议NeurIPS 2025上发表,第一作者为博士生王婧瑶、副研究员强文文、博士生宋泽恩。
随着LLMs能力的不断提升,其应用场景已从基础自然语言处理任务扩展到需要多步逻辑推理的复杂问题。研究团队分析发现,对于复杂推理任务,现有LLMs大多依赖推理计算的最终结果作为奖励信号,缺乏对中间推理步骤的及时反馈,这会导致模型产生冗余计算,造成资源浪费,甚至可能降低推理效果。
针对上述问题,L2T框架首先进行了问题重构,将推理过程建模为多回合层次化对话,同时引入一种基于信息论的稠密过程奖励机制。该机制通过评估每一推理回合带来的信息增益,并采用改进的GRPO算法策略对大语言模型进行优化,鼓励有理推理步骤、抑制冗余生成,从而实现对推理路径的精细化调控,提升推理质量和效率。
通过AIME、AMC和HumanEval等推理基准测试,L2T在不同规模的基础模型(包括DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B等)上均表现出稳定的性能提升。结果显示,与基于结果奖励的方法相比,L2T在准确率上提升超过3.2%,同时token效率翻倍;与基于过程奖励的基线相比,L2T 在准确率上仍有约2%的提升,效率提升约1.2倍。此外,在多任务评估中,L2T在不同难度任务上实现了平均近3%的确率提升,并在不同token预算下均保持稳定的性能优势。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AI 没有降低软件开发成本
独立开发者 Vincent Schmalbach 近日撰文指出,尽管人工智能工具显著提高了软件开发效率,但行业价格并未因此下降——AI 并没有让软件开发更便宜。 Schmalbach 以自身经验为例表示,使用 AI 后,一些任务的开发时间能从 4 小时缩短到 2 小时,但客户的预算与报价标准并未因此改变。市场定价仍由“惯例”和“期望”主导,而非开发者的实际工作效率。 他认为,AI 的真正影响体现在工作内容和期望的转变:同样的预算下,客户希望开发者能实现更多功能、更高质量。AI 并未减少项目量,反而扩大了项目范围。 也就是说,虽然成本没变,但在同一个预算之下,开发者/团队实际上在“能做的事情”上投入更多了。即原本预算可能只包含特性 A、B、C;而现在在同样预算下可能连 D、E、F 特性也能涵盖。换言之,客户对“能开发什么”期望变高了。 此外,AI 正在拉大开发者之间的差距。在 AI 时代,对有经验、懂得如何与 AI 工具协作的开发者来说,他们的效率/产出比以前提升很多。 Schmalbach 估计从“优秀 vs 弱”开发者之间的差距大约 5 倍,扩大到约 20 倍。而对经验较少、或尚未掌...
-
下一篇
IEEE P3366.1 点云压缩标准正式发布
IEEE P3366.1 点云压缩标准正式发布,是面向体积数据压缩的IEEE 3366系列国际标准的第一个完成标准。IEEE 3366系列标准致力于实现各类体积数据的高效压缩,吸引了众多体积数据压缩领域的专家参与,为良好的技术交流提供了平台。腾讯多媒体实验室作为主要牵头方和重要技术贡献者,全程参与和领导了该标准的制定。 来源: https://cn.ieee.org/2025/10/16/ieee-p3366-1-%e7%82%b9%e4%ba%91%e5%8e%8b%e7%bc%a9%e6%a0%87%e5%87%86/ https://www.computer.org/publications/tech-news/trends/point-cloud-compression-standards IEEE P3366.1点云压缩标准旨在实现真实3D点云压缩技术的标准化。点云压缩标准化工作具备现实需求,海量的复杂属性点云数据的传输和存储对用户设备及网络环境的要求较高。高效点云压缩对于在虚拟现实/增强现实 (VR/AR)、数字文化遗产、工业制造和自动驾驶等多种应用至关重要,保证了数据重建...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- MySQL数据库中FOR UPDATE的使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程


微信收款码
支付宝收款码