腾讯提出无训练优化方法:120 元成本实现传统 7 万元微调效果
腾讯AI实验室近期发布了一种名为"无训练组相对策略优化"(Training-Free GRPO)的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调,在大幅降低训练成本的同时,实现了与昂贵微调方案相当的性能提升。 该技术的核心创新在于将经验知识转化为token级别的先验信息,使大模型在参数完全冻结的状态下完成性能优化。腾讯研究团队在DeepSeek-V3.1-Terminus模型上进行的实验显示,这种方法在数学推理和网络搜索等任务中均取得了显著效果。 从技术实现角度看,传统大语言模型在处理需要外部工具调用的复杂任务时常常表现欠佳。而Training-Free GRPO通过保持模型主体参数不变,仅动态维护一个外部经验知识库的方式来提升能力。这种设计不仅大幅削减了计算资源消耗,还增强了模型的跨领域泛化能力。 实验数据具体体现了这一方法的有效性。在数学竞赛级测试AIME24和AIME25中,经过Training-Free GRPO优化的DeepSeek-V3.1-Terminus模型准确率分别从80%和67.9%提升至82.7%和73.3%。更关键的是,这一提升仅使用了100个跨域...
