红杉中国发布测评大模型工具 xbench
红杉中国宣布推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
“在评估和推动AI系统提升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破。”
根据介绍,xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:
- 评估AI系统的能力上限与技术边界;
- 量化AI系统在真实场景的效用价值(Utility Value)。
其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。
首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。
同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测结果和方法论可通过 xbench.org 网站实时查看。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
ChatGPT 助力中小学生学习成效提升近 87%
《Nature》子刊的研究表明,利用 ChatGPT 等大型语言模型可以显著提升 K12阶段(即中小学生)的学习成绩,整体学习效果提升达86.7%。这项研究汇总了59项相关研究,揭示了 AI 在教育中的巨大潜力。 研究团队经过严谨的筛选和分析,最终选定51项相关研究进行元分析,这些研究都采用了随机双盲实验方法,并公开了实验数据,以确保结论的科学性和可靠性。研究范围涵盖了语言学习、STEM(科学、技术、工程和数学)等多个学科,结果显示,学生在使用 ChatGPT 后,不仅学习成绩得到了显著提升,而且高阶思维能力也有了明显改善。 具体而言,研究发现,使用 ChatGPT 的学生在学习成绩上,平均提升了0.867个标准差,涵盖了不同学科的学习。此外,学生的高阶思维能力也有了0.457个标准差的提升,这意味着他们在推理、总结及创新应用知识方面的能力得到了增强。 令人欣慰的是,ChatGPT 不仅能够提高学生的学业成绩,还能减轻他们的精神负担,提升学习积极性。研究指出,特别是在技能相关课程中,ChatGPT 的即时反馈和针对性指导尤为显著,帮助学生更快掌握复杂知识。同时,尽管长期使用效果相对短期...
- 下一篇
360 浏览器全面升级为 AI 浏览器
360近日宣布旗下全系浏览器产品全面升级为AI浏览器,4亿用户由此迈入AI智能协作新时代。这一变革意味着用户在同一窗口即可调用大模型能力,实现搜索、阅读、写作等一体化操作,浏览器角色由“信息入口”转型为“智能助手”。 此次升级,360AI浏览器围绕搜索、阅读与助手三大核心场景,推出多项原生智能功能。AI搜索系统支持语音、图片及自然语言模糊输入,自动理解意图、跨平台检索,并结构化呈现精准答案,实现“找东西一步到位”。 同时,浏览器右上角新增常驻智能助手“问问纳米”,用户无需跳转页面即可实时提问、调用AI能力处理网页内容。 在内容理解方面,AI阅读功能可对网页、PDF、视频与音频实现一键总结、要点提炼、逻辑梳理与双语摘要,显著提升用户的学习与理解效率。写作方面,浏览器内置多场景模板,助力用户高效完成会议纪要、读书笔记、角色创作等任务,并配合翻译、润色与格式转换功能,提升内容输出流畅度。 360表示,此次AI化升级既是产品功能的革新,也是其在“搜索+浏览”双入口推动AI落地的重要布局。作为核心组成,智能助手“纳米AI”未来将承载更多能力,接入智能硬件系统底座,迈向个人智能操作系统形态。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路