软件所提出基于信息论的大模型强化学习微调框架-低调大师

软件所提出基于信息论的大模型强化学习微调框架

2025-10-23 32

中国科学院软件研究所天基综合信息系统全国重点实验室研究团队聚焦大语言模型（LLMs）在复杂推理任务中的优化问题，提出了一种基于信息论的强化微调框架Learning to Think (L2T)，旨在平衡模型的推理效果和效率，为大语言模型在实际应用中的推理优化提供新的技术路径。

近日，相关成果论文 Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs 在人工智能领域顶级会议NeurIPS 2025上发表，第一作者为博士生王婧瑶、副研究员强文文、博士生宋泽恩。

随着LLMs能力的不断提升，其应用场景已从基础自然语言处理任务扩展到需要多步逻辑推理的复杂问题。研究团队分析发现，对于复杂推理任务，现有LLMs大多依赖推理计算的最终结果作为奖励信号，缺乏对中间推理步骤的及时反馈，这会导致模型产生冗余计算，造成资源浪费，甚至可能降低推理效果。

针对上述问题，L2T框架首先进行了问题重构，将推理过程建模为多回合层次化对话，同时引入一种基于信息论的稠密过程奖励机制。该机制通过评估每一推理回合带来的信息增益，并采用改进的GRPO算法策略对大语言模型进行优化，鼓励有理推理步骤、抑制冗余生成，从而实现对推理路径的精细化调控，提升推理质量和效率。

通过AIME、AMC和HumanEval等推理基准测试，L2T在不同规模的基础模型（包括DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B等）上均表现出稳定的性能提升。结果显示，与基于结果奖励的方法相比，L2T在准确率上提升超过3.2%，同时token效率翻倍；与基于过程奖励的基线相比，L2T 在准确率上仍有约2%的提升，效率提升约1.2倍。此外，在多任务评估中，L2T在不同难度任务上实现了平均近3%的确率提升，并在不同token预算下均保持稳定的性能优势。

微信关注我们

原文链接：https://www.oschina.net/news/379072

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI 没有降低软件开发成本

独立开发者 Vincent Schmalbach 近日撰文指出，尽管人工智能工具显著提高了软件开发效率，但行业价格并未因此下降——AI 并没有让软件开发更便宜。 Schmalbach 以自身经验为例表示，使用 AI 后，一些任务的开发时间能从 4 小时缩短到 2 小时，但客户的预算与报价标准并未因此改变。市场定价仍由“惯例”和“期望”主导，而非开发者的实际工作效率。他认为，AI 的真正影响体现在工作内容和期望的转变：同样的预算下，客户希望开发者能实现更多功能、更高质量。AI 并未减少项目量，反而扩大了项目范围。也就是说，虽然成本没变，但在同一个预算之下，开发者／团队实际上在“能做的事情”上投入更多了。即原本预算可能只包含特性 A、B、C；而现在在同样预算下可能连 D、E、F 特性也能涵盖。换言之，客户对“能开发什么”期望变高了。此外，AI 正在拉大开发者之间的差距。在 AI 时代，对有经验、懂得如何与 AI 工具协作的开发者来说，他们的效率／产出比以前提升很多。 Schmalbach 估计从“优秀 vs 弱”开发者之间的差距大约 5 倍，扩大到约 20 倍。而对经验较少、或尚未掌...

2025-10-23

33

IEEE P3366.1 点云压缩标准正式发布，是面向体积数据压缩的IEEE 3366系列国际标准的第一个完成标准。IEEE 3366系列标准致力于实现各类体积数据的高效压缩，吸引了众多体积数据压缩领域的专家参与，为良好的技术交流提供了平台。腾讯多媒体实验室作为主要牵头方和重要技术贡献者，全程参与和领导了该标准的制定。来源： https://cn.ieee.org/2025/10/16/ieee-p3366-1-%e7%82%b9%e4%ba%91%e5%8e%8b%e7%bc%a9%e6%a0%87%e5%87%86/ https://www.computer.org/publications/tech-news/trends/point-cloud-compression-standards IEEE P3366.1点云压缩标准旨在实现真实3D点云压缩技术的标准化。点云压缩标准化工作具备现实需求，海量的复杂属性点云数据的传输和存储对用户设备及网络环境的要求较高。高效点云压缩对于在虚拟现实/增强现实 (VR/AR)、数字文化遗产、工业制造和自动驾驶等多种应用至关重要，保证了数据重建...

2025-10-23

41

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。