谷歌开源 LMEval 框架,面向 AI 大模型的评测工具
谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。
而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。
LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异,确保测试跨平台无缝运行。
LMEval 不仅支持文本评测,还涵盖图像和代码等领域的基准测试,且新输入格式可轻松扩展,框架支持是非题、多选题和自由文本生成等多种评估类型。同时,该框架能识别模型采用的“规避策略”,即故意给出模糊回答以避免生成有风险内容。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
字节跳动内部禁用 Cursor 等 AI 编程工具
5月28日,根据蓝鲸新闻的独家报道,字节跳动安全与风控部门发布邮件称,出于对防范数据泄露风险的考虑,自6月30日起,内部分批次禁用第三方AI开发软件,包括AI编程工具Cursor、Windsurf等,将字节旗下编程助手Trae作为替代方案。 今年3月,字节推出Trae国内版,称是“国内首个AI原生集成开发环境工具(AI IDE)”。此前发布的Trae海外版本周已上线付费方案,Pro版首月收费3美元/月。 截至发稿,字节官方暂未回应。
- 下一篇
151 人贩卖个人信息获利 4300 万被抓获
山东青岛公安网安部门近日侦破一起诱骗高校学生注册网络账号并层层倒卖的侵犯公民个人信息案,并据此发起2次集中收网行动,抓获涉案人员151人,涉案金额4300余万元。 事情的具体经过为:2024年4月,山东青岛公安网安部门工作中发现一重大侵犯公民个人信息案件线索,警方依照线索来到了一间可疑的公寓,此时公寓里正围坐着几个摆弄着手机的年轻人。但他们没有意识到,自己正在参与违法犯罪活动,所谓的“兼职”,实际上是把自己的个人信息给出卖了。 这些招聘“兼职”的团伙成立了所谓的“充场工作室”,承接各种手机软件和社交平台的“拉新”业务。表面看只是充个场面,实际上,涉案团伙哄骗兼职人员使用个人身份信息开展代为注册网络账号、实名手机号等“代实名注册”业务,涉案团伙通过贩卖个人信息获利。 在制定了周密、详实的抓捕方案后,警方最终历经三个多月多批次抓捕,37名涉案人员全部落网。 警方侦破这起案件后,又筛查出200余个“号商中介”“充场工作室”线索,涉案人员遍布全国6个省85个地市。 各地警方密切配合,共打掉网络黑产犯罪团伙21个,抓获违法犯罪嫌疑人114人,缴获电脑、手机等作案工具531台(部),查获各类网络账...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS关闭SELinux安全模块