快手发布 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造
快手 Klear 语言大模型团队推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平,并完整公开了训练细节与全流程 pipeline。
据介绍,Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基准测试中,不仅全面超越同规模的强力开源模型(包括 DeepSeek 蒸馏版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的惊人成绩,直接登顶 8B 模型榜首。
Klear-Reasoner 模型的核心创新是GPPO(Gradient-Preserving Clipping Policy Optimization)算法,通过stop-gradient将裁剪与梯度回传解耦,保留了高熵token与负样本的梯度,兼顾了稳定性和探索力。
训练流程的洞察显示:SFT阶段强调高质量少量数据优于海量低质数据;RL阶段代码任务使用软奖励(通过率)优于硬奖励,并过滤了测试用例中的缺陷数据以消除假阴性。
论文、模型与代码均已公开,团队称该技术路线可复现、可推广,为社区提供了RLVR任务的新范式。
- 论文标题:Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
- 论文链接:https://arxiv.org/pdf/2508.07629
- Hugging Face地址:https://huggingface.co/Suu/Klear-Reasoner-8B
- GitHub地址:https://github.com/suu990901/KlearReasoner/tree/main

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《GPT-5 家族 SQL 能力评测报告》发布
一、本期导览与核心看点 2025 年 8 月,我们迎来了 AI 发展史上的又一个里程碑 ------ GPT-5 家族的正式发布。 当整个科技界都在讨论其通用能力的飞跃时,SCALE 平台将目光聚焦于 SQL 能力:GPT-5 在 SQL 处理上的表现究竟如何? 本期评测为针对 GPT-5 家族的评测特别版,旨在对其 SQL 相关能力进行一次全面的基准测试。 本期核心看点 旗舰模型表现分析 :gpt-5-chat 的评测结果显示其能力存在特定短板,而 mini 版本在本次测试的综合表现中更为均衡。 全方位的能力评估 :通过多维度多指标的用例评估,分析了 GPT-5 在不同场景下的实际性能,揭示了其理论能力与实践应用的差异。 数据驱动的模型选型 :评测数据表明,不同版本的模型在处理 SQL 能力 上各有千秋。本报告将基于数据,探讨如何进行场景化选型。 二、评测基准说明 为确保本次特别评测的公正性与深度,我们沿用了成熟的三维评测体系。 SQL 理解:考察模型是否精准解析复杂查询逻辑与用户意图。 SQL 优化:考察模型提升查询效率与性能的意识。 方言转换:考察模型在主流数据库之间进行语法迁移...
- 下一篇
字节跳动辟谣:与芯原股份并无 AI 芯片相关合作
近日,业内消息传字节跳动正与芯原股份联手设计一款先进的AI算力芯片。对此,字节跳动相关负责人回复称:字节跳动与芯原股份并无AI芯片相关合作。 这并不是字节跳动第一次传出与其他厂商联手设计 AI 芯片(处理器)。去年上半年,曾有外媒报道称字节跳动与博通公司合作开发 AI 处理器,以确保有足够多的高端芯片。这款 AI 处理器制程为 5nm,将由台积电制造。虽然设计工作进展顺利,但标志着设计阶段结束和制造开始的“流片”尚未开始。字节跳动后续否认了“与博通合作开发 AI 芯片”相关传闻。 去年 9 月,针对媒体报道的字节跳动计划与台积电就 AI 芯片开展合作,字节方面回应表示,报道不实。字节跳动称公司在芯片领域确实有一些探索,但还处于初期阶段,主要是围绕推荐、广告等业务的成本优化,所有项目也完全符合相关的贸易管制规定。
相关文章
文章评论
共有0条评论来说两句吧...