快手发布 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造-低调大师

快手发布 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造

2025-08-21 163

快手 Klear 语言大模型团队推出了全新的 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造，在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平，并完整公开了训练细节与全流程 pipeline。

据介绍，Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基准测试中，不仅全面超越同规模的强力开源模型（包括 DeepSeek 蒸馏版 DeepSeek-R1-0528-8B），更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的惊人成绩，直接登顶 8B 模型榜首。

Klear-Reasoner 模型的核心创新是GPPO（Gradient-Preserving Clipping Policy Optimization）算法，通过stop-gradient将裁剪与梯度回传解耦，保留了高熵token与负样本的梯度，兼顾了稳定性和探索力。

训练流程的洞察显示：SFT阶段强调高质量少量数据优于海量低质数据；RL阶段代码任务使用软奖励（通过率）优于硬奖励，并过滤了测试用例中的缺陷数据以消除假阴性。

论文、模型与代码均已公开，团队称该技术路线可复现、可推广，为社区提供了RLVR任务的新范式。

论文标题：Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
论文链接：https://arxiv.org/pdf/2508.07629
Hugging Face地址：https://huggingface.co/Suu/Klear-Reasoner-8B
GitHub地址：https://github.com/suu990901/KlearReasoner/tree/main

微信关注我们

原文链接：https://www.oschina.net/news/367555

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《GPT-5 家族 SQL 能力评测报告》发布

一、本期导览与核心看点 2025 年 8 月，我们迎来了 AI 发展史上的又一个里程碑 ------ GPT-5 家族的正式发布。当整个科技界都在讨论其通用能力的飞跃时，SCALE 平台将目光聚焦于 SQL 能力：GPT-5 在 SQL 处理上的表现究竟如何？本期评测为针对 GPT-5 家族的评测特别版，旨在对其 SQL 相关能力进行一次全面的基准测试。本期核心看点旗舰模型表现分析：gpt-5-chat 的评测结果显示其能力存在特定短板，而 mini 版本在本次测试的综合表现中更为均衡。全方位的能力评估：通过多维度多指标的用例评估，分析了 GPT-5 在不同场景下的实际性能，揭示了其理论能力与实践应用的差异。数据驱动的模型选型：评测数据表明，不同版本的模型在处理 SQL 能力上各有千秋。本报告将基于数据，探讨如何进行场景化选型。二、评测基准说明为确保本次特别评测的公正性与深度，我们沿用了成熟的三维评测体系。 SQL 理解：考察模型是否精准解析复杂查询逻辑与用户意图。 SQL 优化：考察模型提升查询效率与性能的意识。方言转换：考察模型在主流数据库之间进行语法迁移...

2025-08-21

114

近日，业内消息传字节跳动正与芯原股份联手设计一款先进的AI算力芯片。对此，字节跳动相关负责人回复称：字节跳动与芯原股份并无AI芯片相关合作。这并不是字节跳动第一次传出与其他厂商联手设计 AI 芯片（处理器）。去年上半年，曾有外媒报道称字节跳动与博通公司合作开发 AI 处理器，以确保有足够多的高端芯片。这款 AI 处理器制程为 5nm，将由台积电制造。虽然设计工作进展顺利，但标志着设计阶段结束和制造开始的“流片”尚未开始。字节跳动后续否认了“与博通合作开发 AI 芯片”相关传闻。去年 9 月，针对媒体报道的字节跳动计划与台积电就 AI 芯片开展合作，字节方面回应表示，报道不实。字节跳动称公司在芯片领域确实有一些探索，但还处于初期阶段，主要是围绕推荐、广告等业务的成本优化，所有项目也完全符合相关的贸易管制规定。

2025-08-21

154

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。