谷歌 AI 推出 Stax:帮助开发者根据自定义标准评估大语言模型
谷歌 AI 最近发布了一款名为 Stax 的实验性评估工具,旨在帮助开发者更有效地测试和分析大语言模型(LLMs)。
与传统软件测试不同,LLMs 是概率性系统,它们可能会对相同的提示产生不同的响应,这使得评估的一致性和可重复性变得复杂。因此,Stax 为开发者提供了一种结构化的方法,可以根据自定义标准来评估和比较不同的 LLMs。
在进行模型评估时,通常会使用排行榜和通用基准测试,这些方法对于高层次的模型进展跟踪有帮助,但却不能反映特定领域的需求。例如,在开放领域推理任务中表现良好的模型,可能无法处理合规性摘要、法律文本分析或特定企业问题回答等专业用例。Stax 通过允许开发者定义与其用例相关的评估流程,从而解决了这一问题。
Stax 的一个重要功能是 “快速比较”。这个功能使开发者能够并排测试不同模型的多种提示,从而更容易了解提示设计或模型选择对输出结果的影响,减少试错所需的时间。
此外,Stax 还提供了 “项目与数据集” 功能,当需要进行更大规模的测试时,开发者可以创建结构化的测试集,并在多个样本中应用一致的评估标准,这样不仅支持了可重复性,也使得在更现实的条件下评估模型变得更加容易。
Stax 的核心概念是 “自动评估器”。开发者可以构建适合其用例的自定义评估器,或者使用预构建的评估器。内置选项涵盖了常见的评估类别,例如流畅性(语法正确性和可读性)、基础性(与参考材料的事实一致性)以及安全性(确保输出避免有害或不当内容)。这种灵活性使得评估能够与实际需求对接,而不是采用单一的通用指标。
此外,Stax 的分析仪表板可以更方便地解释结果,开发者可以查看性能趋势、比较不同评估器的输出,并分析不同模型在同一数据集上的表现。
整体上,Stax 为开发者提供了一种从临时测试转向结构化评估的工具,帮助团队在生产环境中更好地理解模型在特定条件下的表现,以及跟踪输出是否符合实际应用所需的标准。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
TinyEngine 2.8 正式上线:AI 能力就位、Docker 部署更高效
本文分享自华为云社区《TinyEngine 2.8 正式上线:AI能力就位、Docker部署更高效!》,作者:OpenTiny。 前言 TinyEngine低代码引擎使开发者能够定制低代码平台。它是低代码平台的底座,提供可视化搭建页面等基础能力,既可以通过线上搭配组合,也可以通过cli创建个人工程进行二次开发,实时定制出自己的低代码平台。适用于多场景的低代码平台开发,如:资源编排、服务端渲染、模型驱动、移动端、大屏端、页面编排等。 近期,我们正式推出TinyEngine v2.8 版本,希望能够给大家带来更好的使用体验,能够深度定制化的同时可以更简洁便利地配置。 源码:https://github.com/opentiny/tiny-engine(欢迎 Star ⭐) 官网:https://opentiny.design/tiny-engine#/home 这次版本特性开发和问题修复已经有更多的开发者朋友参与进来,我们在此诚挚感谢 @timtiam @0x7A7A6572 @QxQstar @LLDLLY 积极参加 TinyEngine 的开源共建,同时也邀请大家一起加入开源社区的建设...
-
下一篇
开源 AI 编辑器 Kilo Code 发布 JetBrains 插件
Kilo Code推出了面向JetBrains IDE的Alpha版本插件,并同步发布了扩展更新,带来了超过20项改进。 在扩展更新方面,性能层面,实验性的Inline Assist自动补全功能通过逐块解析显著提升了速度,用户可在Settings → Experimental → Inline Assist中启用。功能层面,Marketplace新增了“已安装”的过滤选项,方便用户管理。 新插件延续了其开源、数据私有、透明计费的承诺。用户可通过Discord频道的#alpha-jetbrains报名参与测试,也可从JetBrains官方插件市场或官方提供的直接链接下载Kilo_Code-4.86.0-Alpha.zip。 https://plugins.jetbrains.com/plugin/28350-kilo-code/versions/stable
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker容器配置,解决镜像无法拉取问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- Red5直播服务器,属于Java语言的直播服务器