Evals —— OpenAI 模型评估框架-低调大师

Evals —— OpenAI 模型评估框架

2023-04-05 858

Evals 是一个评估 OpenAI 模型的框架和一个开源的基准测试注册表，你可以使用 Evals 来创建和运行评估：

使用数据集来生成提示信息
衡量 OpenAI 模型所提供的完成度的质量
比较不同数据集和模型的性能

Evals 的目标是使建立一个评估尽可能简单，同时编写尽可能少的代码。要开始使用，建议你依次按照以下步骤进行：

通读本文档，并遵循下面的设置说明。
了解如何运行现有的评价：run-evals.md
熟悉现有的评估模板：eval-templates.md
了解构建评估的过程：build-eval.md
看一个实现自定义评价逻辑的例子：custom-eval.md。

设置

要运行评估，需要设置并指定您的 OpenAI API 密钥。获取 API 密钥后，使用 OPENAI_API_KEY环境变量指定它。

下载评估

Evals 注册表使用 Git-LFS 存储，下载并安装 LFS 后，可以通过以下方式获取评估：

git lfs fetch --all
git lfs pull

你可能只想为选择的评估获取数据，则可以通过以下方式实现：

git lfs fetch --include=evals/registry/data/${your eval}
git lfs pull

进行评估

如果您要创建评估，建议直接从 GitHub 克隆此仓库并使用以下命令安装要求：

pip install -e .

使用 -e，对 eval 所做的更改将立即反映出来，而无需重新安装。

微信关注我们

原文链接：https://www.oschina.net/p/evals

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

每日一博 | 在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

我们很高兴正式发布 trl 与 peft 的集成，使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调！在这篇文章中，我们解释了为什么这是现有微调方法的有竞争力的替代方案。请注意， peft 是一种通用工具，可以应用于许多 ML 用例，但它对 RLHF 特别有趣，因为这种方法特别需要内存！如果你想直接深入研究代码，请直接在 TRL 的文档页面直接查看示例脚本。介绍 LLMs & RLHF LLM 结合 RLHF (人类反馈强化学习) 似乎是构建非常强大的 AI 系统 (例如 ChatGPT) 的下一个首选方法。使用 RLHF 训练语言模型通常包括以下三个步骤: 在特定领域或指令和人类示范语料库上微调预训练的 LLM; 收集人类标注的数据集，训练一个奖励模型; 使用 RL (例如 PPO)，用此数据集和奖励模型进一步微调步骤 1 中的 LLM。 ChatGPT 的训练协议概述，从数据收集到 RL 部分。资料来源: OpenAI 的 ChatGPT 博文基础 LLM 的选择在这里是至关重要的。在撰写本文时，可以“开箱即用”地用于许多任务的“最佳”开源 ...

2023-04-06

455

ChatGPT 极大地改变了人们的工作方式，不光是普通的个人用户从中受益，一些大型科技公司也同样认可了这些 AI 工具的作用，来帮助其员工提高生产力。虽然 ChatGPT 确实显著提升了用户的工作效率，但如果员工没有得到充分的提醒和培训，不知道哪些信息可以或不可以与 AI 模型共享，就会出现严重的错误，而三星为此交了 “昂贵” 的学费。根据韩国媒体 Economist 的报道，出于担心可能发生的内部机密信息泄露，三星一直阻止其员工在工作场所使用 ChatGPT。不过从 3 月 11 日起，三星向其半导体部门的员工授予了 ChatGPT 的使用权限（其他部门仍被禁止）。可能是员工对于新工具的好奇，以及三星没有详细向员工告知 AI 工具的工作原理，在过去这段时间，三星的员工向 ChatGPT 提出了各种各样的问题，来提升工作效率。只不过，在三星员工使用 ChatGPT 来帮助他们完成工作时，三星的机密数据也不知不觉就泄露了。而且在短短几周时间里，就发生了三起。由于 ChatGPT 保留了用户的输入数据来进一步训练自己，三星的这些商业机密现在实际上掌握在了 OpenAI 手中。根据报...

2023-04-06

417

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。