快手发布 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造
快手 Klear 语言大模型团队推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平,并完整公开了训练细节与全流程 pipeline。
据介绍,Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基准测试中,不仅全面超越同规模的强力开源模型(包括 DeepSeek 蒸馏版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的惊人成绩,直接登顶 8B 模型榜首。
Klear-Reasoner 模型的核心创新是GPPO(Gradient-Preserving Clipping Policy Optimization)算法,通过stop-gradient将裁剪与梯度回传解耦,保留了高熵token与负样本的梯度,兼顾了稳定性和探索力。
训练流程的洞察显示:SFT阶段强调高质量少量数据优于海量低质数据;RL阶段代码任务使用软奖励(通过率)优于硬奖励,并过滤了测试用例中的缺陷数据以消除假阴性。
论文、模型与代码均已公开,团队称该技术路线可复现、可推广,为社区提供了RLVR任务的新范式。
- 论文标题:Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
- 论文链接:https://arxiv.org/pdf/2508.07629
- Hugging Face地址:https://huggingface.co/Suu/Klear-Reasoner-8B
- GitHub地址:https://github.com/suu990901/KlearReasoner/tree/main

