三星推出评估 AI 模型生产力的平台 TrueBench-低调大师

三星推出评估 AI 模型生产力的平台 TrueBench

2025-09-25 227

三星电子宣布推出 TRUEBench（可信真实世界使用评估基准），由三星研究院开发的用于评估 AI 生产力的专有基准。

“TRUEBench 的设计旨在通过不仅考虑答案的准确性，还考虑满足用户隐性需求的具体条件，从而实现切合实际的评估。”

公告称，TRUEBench 提供了一套全面的指标，用于衡量大语言模型 (LLM) 在实际工作效率应用中的表现。为了确保评估的真实性，它融合了多种对话场景和多语言条件。

TRUEBench 借鉴三星内部 AI 的生产力应用，评估 10 个类别和 46 个子类别中常用的企业任务，例如内容生成、数据分析、摘要和翻译。该基准测试基于由人类和人工智能共同设计和完善的标准，通过人工智能驱动的自动评估，确保评分的可靠性。

该公司表示，近年来随着企业采用 AI 来完成任务，衡量 LLM 生产力的需求越来越大。然而，现有的基准主要衡量整体表现，大多以英语为中心，仅限于单轮问答结构。

为了解决这些限制，TRUEBench 共包含 2,485 个测试集，涵盖 10 个类别和 12 种语言（包括韩语、英语、日语等），同时还支持跨语言场景。这些测试集检验了 AI 模型的实际解决问题能力，三星研究院使用的测试集长度范围从最短 8 个字符到超过 20,000 个字符，涵盖了从简单请求到冗长文档摘要的各种任务。

三星研究院通过人机协作验证评估项目。首先，人工注释员创建评估标准，然后人工智能对其进行审核，以检查是否存在错误、矛盾或不必要的约束。之后，人工注释员再次完善标准，并重复此过程以应用越来越精确的评估标准。基于这些交叉验证的标准，对人工智能模型进行自动评估，最大限度地减少主观偏见并确保一致性。此外，每次测试都必须满足所有条件，模型才能通过。这使得跨任务的评分更加详细和精确。

微信关注我们

原文链接：https://www.oschina.net/news/374323

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

谷歌发布开源 AI 项目 Androidify，可生成个性化“安卓人”

谷歌日前正式上线全新 AI 应用 Androidify，用户可通过上传自拍或输入提示词，借助 AI 技术生成专属的 Android 机器人形象。该应用现已在网页端及 Google Play 商店同步开放下载。据介绍，Androidify 集成了 Gemini 与 Firebase AI Logic SDK，支持图像验证、自动生成描述以及个性化机器人生成等功能。应用会先利用 Gemini 2.5 Flash 对用户上传的照片进行检测，确保画面清晰且符合安全标准，随后生成详细描述，并调用 Imagen 3 模型生成最终的机器人形象。值得一提的是，最新版本还新增了“背景氛围生成”与“贴纸模式”。前者可通过 Gemini 模型为机器人添加场景背景，后者则利用 ML Kit 分割技术去除背景，生成可在聊天应用中使用的 PNG 贴纸。谷歌表示，Androidify 的目标是让用户在轻松娱乐的同时，体验到 AI 与 Android 技术结合所带来的创造力与个性化。该项目已开源：https://github.com/android/androidify

2025-09-25

282

大家好，很高兴在这里宣布 AtomUI OSS 1.0.0 正式发布，从 2024 年 6 月 19 日写下第一行代码，截至 2025 年 9 月 25 日一共 463 天，1564 次代码提交，一共 60 多个常用控件，覆盖了软件研发领域常见场景。我们在次郑重承诺，为了致敬蚂蚁集团优秀的设计语言 Ant Design，AtomUI OSS 中包含的所有控件永久免费商用。感兴趣的开发者可以关注 AtomUI 的官方库 https://gitee.com/chinware/atomui https://github.com/chinware/atomui 如果对 AtomUI 感兴趣也可以加入我们的微信和 QQ 交流群什么是 AtomUI AtomUI 是基于 .NET 技术的 Ant Design 实现，致力于将 Ant Design 优秀高效的设计语言和体验带到 Avalonia/.NET 跨平台桌面软件研发领域。 AtomUI 解决了什么核心问题在跨平台桌面软件研发领域的痛点：多平台用户体验一致性难保证开发与维护成本高非原生解决方案软件臃肿运行效率低下 A...

2025-09-25

223

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。