首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/377709

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Anthropic 发布 Claude Haiku 4.5,速度更快、价格更便宜

Anthropic 发布了新模型 Claude Haiku 4.5。官方表示该模型以极低的成本提供了接近前沿模型的强大性能,目标成为实时、低延迟任务(如聊天助手和客户服务)的理想选择。 Claude 家族有三个不同参数量级的模型:Claude Opus(大杯)、Sonnet(中杯)和 Haiku(小杯)。 这次更新最大的看点是,小杯 Claude Haiku 4.5 在模型性能保持高水准的同时,速度更快、价格更便宜了。 在应用场景方面,Anthropic 表示,Haiku 4.5 能够完美结合高智能与惊人的处理速度,满足用户对即时反馈的需求,专门针对实时聊天助手、在线客户服务代理以及辅助编程工具等需要高响应速度的应用场景设计。 在性能方面,Claude Haiku 4.5 编码性能与 Sonnet 4 基本持平,但在成本上仅为后者的三分之一,处理速度则提升了超过两倍。据介绍,在衡量编程能力的权威基准测试 SWE-bench Verified 中,Haiku 4.5 取得了 73.3% 的高分,略微领先于 Sonnet 4 的 72.7%。 价格方面,Haiku 4.5 定价为:每百万输...

可验证过程奖励在提升大模型推理效率中的探索与实践

美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。 1 背景 以 DeepSeek-R1 为代表的大规模推理模型,通过简单有效的强化学习后训练方法,培养了强大的推理能力,但却导致模型倾向于生成冗余的回复。这使得模型在为每个输入请求生成响应时,需要花费更多的时间以及计算资源,最终消磨用户的耐心。 针对这一缺陷,来自业务研发搜推平台部的算法团队提出可验证的过程奖励机制(VSRM),鼓励 CoT 中的"有效步骤",惩戒"无效步骤",最大限度保持性能的同时,实现高效推理。 论文下载地址 :PDF 通过在数学任务上的实验显示,在多个常用 Benchmark 上,VSRM 加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。 2 过度思考问题的本质 此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Eclipse

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。