红杉中国发布测评大模型工具 xbench-低调大师

红杉中国发布测评大模型工具 xbench

2025-05-26 450

红杉中国宣布推出一款全新的AI基准测试工具xbench，并发布论文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

“在评估和推动AI系统提升能力上限与技术边界的同时，xbench会重点量化AI系统在真实场景的效用价值，并采用长青评估的机制，去捕捉Agent产品的关键突破。”

根据介绍，xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：

评估AI系统的能力上限与技术边界；
量化AI系统在真实场景的效用价值（Utility Value）。

其中，后者需要动态对齐现实世界的应用需求，基于实际工作流程和具体社会角色，为各垂直领域构建具有明确业务价值的测评标准。

首期发布包含两个核心评估集：科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对该领域主要产品进行了综合排名。

同期提出了垂直领域智能体的评测方法论，并构建了面向招聘（Recruitment）和营销（Marketing）领域的垂类Agent评测框架。评测结果和方法论可通过 xbench.org 网站实时查看。

论文地址：https://xbench.org/files/xbench_profession_v2.4.pdf

微信关注我们

原文链接：https://www.oschina.net/news/351934

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ChatGPT 助力中小学生学习成效提升近 87%

《Nature》子刊的研究表明，利用 ChatGPT 等大型语言模型可以显著提升 K12阶段（即中小学生）的学习成绩，整体学习效果提升达86.7%。这项研究汇总了59项相关研究，揭示了 AI 在教育中的巨大潜力。研究团队经过严谨的筛选和分析，最终选定51项相关研究进行元分析，这些研究都采用了随机双盲实验方法，并公开了实验数据，以确保结论的科学性和可靠性。研究范围涵盖了语言学习、STEM（科学、技术、工程和数学）等多个学科，结果显示，学生在使用 ChatGPT 后，不仅学习成绩得到了显著提升，而且高阶思维能力也有了明显改善。具体而言，研究发现，使用 ChatGPT 的学生在学习成绩上，平均提升了0.867个标准差，涵盖了不同学科的学习。此外，学生的高阶思维能力也有了0.457个标准差的提升，这意味着他们在推理、总结及创新应用知识方面的能力得到了增强。令人欣慰的是，ChatGPT 不仅能够提高学生的学业成绩，还能减轻他们的精神负担，提升学习积极性。研究指出，特别是在技能相关课程中，ChatGPT 的即时反馈和针对性指导尤为显著，帮助学生更快掌握复杂知识。同时，尽管长期使用效果相对短期...

2025-05-26

278

360近日宣布旗下全系浏览器产品全面升级为AI浏览器，4亿用户由此迈入AI智能协作新时代。这一变革意味着用户在同一窗口即可调用大模型能力，实现搜索、阅读、写作等一体化操作，浏览器角色由“信息入口”转型为“智能助手”。此次升级，360AI浏览器围绕搜索、阅读与助手三大核心场景，推出多项原生智能功能。AI搜索系统支持语音、图片及自然语言模糊输入，自动理解意图、跨平台检索，并结构化呈现精准答案，实现“找东西一步到位”。同时，浏览器右上角新增常驻智能助手“问问纳米”，用户无需跳转页面即可实时提问、调用AI能力处理网页内容。在内容理解方面，AI阅读功能可对网页、PDF、视频与音频实现一键总结、要点提炼、逻辑梳理与双语摘要，显著提升用户的学习与理解效率。写作方面，浏览器内置多场景模板，助力用户高效完成会议纪要、读书笔记、角色创作等任务，并配合翻译、润色与格式转换功能，提升内容输出流畅度。 360表示，此次AI化升级既是产品功能的革新，也是其在“搜索+浏览”双入口推动AI落地的重要布局。作为核心组成，智能助手“纳米AI”未来将承载更多能力，接入智能硬件系统底座，迈向个人智能操作系统形态。

2025-05-26

366

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。