三星推出评估 AI 模型生产力的平台 TrueBench
三星电子宣布推出 TRUEBench(可信真实世界使用评估基准),由三星研究院开发的用于评估 AI 生产力的专有基准。
“TRUEBench 的设计旨在通过不仅考虑答案的准确性,还考虑满足用户隐性需求的具体条件,从而实现切合实际的评估。”
公告称,TRUEBench 提供了一套全面的指标,用于衡量大语言模型 (LLM) 在实际工作效率应用中的表现。为了确保评估的真实性,它融合了多种对话场景和多语言条件。
TRUEBench 借鉴三星内部 AI 的生产力应用,评估 10 个类别和 46 个子类别中常用的企业任务,例如内容生成、数据分析、摘要和翻译。该基准测试基于由人类和人工智能共同设计和完善的标准,通过人工智能驱动的自动评估,确保评分的可靠性。
该公司表示,近年来随着企业采用 AI 来完成任务,衡量 LLM 生产力的需求越来越大。然而,现有的基准主要衡量整体表现,大多以英语为中心,仅限于单轮问答结构。
为了解决这些限制,TRUEBench 共包含 2,485 个测试集,涵盖 10 个类别和 12 种语言(包括韩语、英语、日语等),同时还支持跨语言场景。这些测试集检验了 AI 模型的实际解决问题能力,三星研究院使用的测试集长度范围从最短 8 个字符到超过 20,000 个字符,涵盖了从简单请求到冗长文档摘要的各种任务。
三星研究院通过人机协作验证评估项目。首先,人工注释员创建评估标准,然后人工智能对其进行审核,以检查是否存在错误、矛盾或不必要的约束。之后,人工注释员再次完善标准,并重复此过程以应用越来越精确的评估标准。基于这些交叉验证的标准,对人工智能模型进行自动评估,最大限度地减少主观偏见并确保一致性。此外,每次测试都必须满足所有条件,模型才能通过。这使得跨任务的评分更加详细和精确。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
谷歌发布开源 AI 项目 Androidify,可生成个性化“安卓人”
谷歌日前正式上线全新 AI 应用 Androidify,用户可通过上传自拍或输入提示词,借助 AI 技术生成专属的 Android 机器人形象。该应用现已在网页端及 Google Play 商店同步开放下载。 据介绍,Androidify 集成了 Gemini 与 Firebase AI Logic SDK,支持图像验证、自动生成描述以及个性化机器人生成等功能。 应用会先利用 Gemini 2.5 Flash 对用户上传的照片进行检测,确保画面清晰且符合安全标准,随后生成详细描述,并调用 Imagen 3 模型生成最终的机器人形象。 值得一提的是,最新版本还新增了“背景氛围生成”与“贴纸模式”。前者可通过 Gemini 模型为机器人添加场景背景,后者则利用 ML Kit 分割技术去除背景,生成可在聊天应用中使用的 PNG 贴纸。 谷歌表示,Androidify 的目标是让用户在轻松娱乐的同时,体验到 AI 与 Android 技术结合所带来的创造力与个性化。 该项目已开源:https://github.com/android/androidify
-
下一篇
笃行至此,新程初启,AtomUI OSS 1.0 发布
大家好,很高兴在这里宣布 AtomUI OSS 1.0.0 正式发布,从 2024 年 6 月 19 日写下第一行代码,截至 2025 年 9 月 25 日一共 463 天,1564 次代码提交,一共 60 多个常用控件,覆盖了软件研发领域常见场景。 我们在次郑重承诺,为了致敬蚂蚁集团优秀的设计语言 Ant Design,AtomUI OSS 中包含的所有控件永久免费商用。 感兴趣的开发者可以关注 AtomUI 的官方库 https://gitee.com/chinware/atomui https://github.com/chinware/atomui 如果对 AtomUI 感兴趣也可以加入我们的微信和 QQ 交流群 什么是 AtomUI AtomUI 是基于 .NET 技术的 Ant Design 实现,致力于将 Ant Design 优秀高效的设计语言和体验带到 Avalonia/.NET 跨平台桌面软件研发领域。 AtomUI 解决了什么核心问题 在跨平台桌面软件研发领域的痛点: 多平台用户体验一致性难保证 开发与维护成本高 非原生解决方案软件臃肿运行效率低下 A...
相关文章
文章评论
共有0条评论来说两句吧...