谷歌 AI 推出 Stax：帮助开发者根据自定义标准评估大语言模型-低调大师

谷歌 AI 推出 Stax：帮助开发者根据自定义标准评估大语言模型

2025-09-03 125

谷歌 AI 最近发布了一款名为 Stax 的实验性评估工具，旨在帮助开发者更有效地测试和分析大语言模型（LLMs）。

与传统软件测试不同，LLMs 是概率性系统，它们可能会对相同的提示产生不同的响应，这使得评估的一致性和可重复性变得复杂。因此，Stax 为开发者提供了一种结构化的方法，可以根据自定义标准来评估和比较不同的 LLMs。

在进行模型评估时，通常会使用排行榜和通用基准测试，这些方法对于高层次的模型进展跟踪有帮助，但却不能反映特定领域的需求。例如，在开放领域推理任务中表现良好的模型，可能无法处理合规性摘要、法律文本分析或特定企业问题回答等专业用例。Stax 通过允许开发者定义与其用例相关的评估流程，从而解决了这一问题。

Stax 的一个重要功能是 “快速比较”。这个功能使开发者能够并排测试不同模型的多种提示，从而更容易了解提示设计或模型选择对输出结果的影响，减少试错所需的时间。

此外，Stax 还提供了 “项目与数据集” 功能，当需要进行更大规模的测试时，开发者可以创建结构化的测试集，并在多个样本中应用一致的评估标准，这样不仅支持了可重复性，也使得在更现实的条件下评估模型变得更加容易。

Stax 的核心概念是 “自动评估器”。开发者可以构建适合其用例的自定义评估器，或者使用预构建的评估器。内置选项涵盖了常见的评估类别，例如流畅性（语法正确性和可读性）、基础性(与参考材料的事实一致性)以及安全性(确保输出避免有害或不当内容)。这种灵活性使得评估能够与实际需求对接，而不是采用单一的通用指标。

此外，Stax 的分析仪表板可以更方便地解释结果，开发者可以查看性能趋势、比较不同评估器的输出，并分析不同模型在同一数据集上的表现。

整体上，Stax 为开发者提供了一种从临时测试转向结构化评估的工具，帮助团队在生产环境中更好地理解模型在特定条件下的表现，以及跟踪输出是否符合实际应用所需的标准。

微信关注我们

原文链接：https://www.oschina.net/news/370000

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

TinyEngine 2.8 正式上线：AI 能力就位、Docker 部署更高效

本文分享自华为云社区《TinyEngine 2.8 正式上线：AI能力就位、Docker部署更高效！》，作者：OpenTiny。前言 TinyEngine低代码引擎使开发者能够定制低代码平台。它是低代码平台的底座，提供可视化搭建页面等基础能力，既可以通过线上搭配组合，也可以通过cli创建个人工程进行二次开发，实时定制出自己的低代码平台。适用于多场景的低代码平台开发，如：资源编排、服务端渲染、模型驱动、移动端、大屏端、页面编排等。近期，我们正式推出TinyEngine v2.8 版本，希望能够给大家带来更好的使用体验，能够深度定制化的同时可以更简洁便利地配置。源码：https://github.com/opentiny/tiny-engine（欢迎 Star ⭐）官网：https://opentiny.design/tiny-engine#/home 这次版本特性开发和问题修复已经有更多的开发者朋友参与进来，我们在此诚挚感谢 @timtiam @0x7A7A6572 @QxQstar @LLDLLY 积极参加 TinyEngine 的开源共建，同时也邀请大家一起加入开源社区的建设...

2025-09-03

135

Kilo Code推出了面向JetBrains IDE的Alpha版本插件，并同步发布了扩展更新，带来了超过20项改进。在扩展更新方面，性能层面，实验性的Inline Assist自动补全功能通过逐块解析显著提升了速度，用户可在Settings → Experimental → Inline Assist中启用。功能层面，Marketplace新增了“已安装”的过滤选项，方便用户管理。新插件延续了其开源、数据私有、透明计费的承诺。用户可通过Discord频道的#alpha-jetbrains报名参与测试，也可从JetBrains官方插件市场或官方提供的直接链接下载Kilo_Code-4.86.0-Alpha.zip。 https://plugins.jetbrains.com/plugin/28350-kilo-code/versions/stable

2025-09-03

180

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。