您现在的位置是:首页 > 文章详情

快手发布 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造

日期:2025-08-21点击:25

快手 Klear 语言大模型团队推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平,并完整公开了训练细节与全流程 pipeline。

据介绍,Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基准测试中,不仅全面超越同规模的强力开源模型(包括 DeepSeek 蒸馏版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的惊人成绩,直接登顶 8B 模型榜首。

Klear-Reasoner 模型的核心创新是GPPO(Gradient-Preserving Clipping Policy Optimization)算法,通过stop-gradient将裁剪与梯度回传解耦,保留了高熵token与负样本的梯度,兼顾了稳定性和探索力。

训练流程的洞察显示:SFT阶段强调高质量少量数据优于海量低质数据;RL阶段代码任务使用软奖励(通过率)优于硬奖励,并过滤了测试用例中的缺陷数据以消除假阴性。

论文、模型与代码均已公开,团队称该技术路线可复现、可推广,为社区提供了RLVR任务的新范式。

  • 论文标题:Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
  • 论文链接:https://arxiv.org/pdf/2508.07629
  • Hugging Face地址:https://huggingface.co/Suu/Klear-Reasoner-8B
  • GitHub地址:https://github.com/suu990901/KlearReasoner/tree/main
原文链接:https://www.oschina.net/news/367555
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章