万事通，专精部分领域的多功能 Transformer 智能体-低调大师

万事通，专精部分领域的多功能 Transformer 智能体

2024-05-13 379

介绍

我们很高兴分享“万事通”(Jack of All Trades，简称 JAT) 项目，该项目旨在朝着通用智能体的方向发展。该项目最初是作为对 Gato (Reed 等，2022 年) 工作的公开复现启动的，Gato 提出训练一种能够执行视觉与语言以及决策任务的 Transformer。于是我们首先构建了 Gato 数据集的开放版本。随后，我们在此基础上训练了多模态 Transformer 模型，并针对处理顺序数据和连续值引入了若干改进。

Gato https://hf.co/papers/2205.06175

总体而言，该项目取得了以下成果:

发布了大量在各种任务上表现优异的 专家 RL 智能体。
发布了 JAT 数据集，这是第一个用于通用智能体训练的数据集。它包含了由专家智能体收集的数十万条专家轨迹。
发布了 JAT 模型，这是一种基于 Transformer 的智能体，能够玩电子游戏、控制机器人执行各种任务、理解并在简单的导航环境中执行命令等！

数据集和专家策略

专家策略

传统的强化学习 (RL) 涉及在单一环境中训练策略。利用这些专家策略是构建多功能智能体的有效方法。我们选择了各种性质和难度不同的环境，包括 Atari、BabyAI、Meta-World 和 MuJoCo。在每个环境中，我们训练一个智能体，直到它达到最先进的性能水平。(对于 BabyAI，我们使用的是 BabyAI bot)。这些训练结果被称为专家智能体，并已在🤗 Hub 上发布。您可以在 JAT 数据集卡中找到所有智能体的列表。

BabyAI bot https://github.com/mila-iqia/babyai
JAT 数据集卡 https://hf.co/datasets/jat-project/jat-dataset

JAT 数据集

我们发布了 JAT 数据集，这是第一个用于通用智能体训练的数据集。JAT 数据集包含由上述专家智能体收集的数十万条专家轨迹。要使用此数据集，只需像从🤗 Hub 加载任何其他数据集一样加载它:

JAT 数据集 https://hf.co/datasets/jat-project/jat-dataset

>>> from datasets import load_dataset
>>> dataset = load_dataset("jat-project/jat-dataset", "metaworld-assembly")
>>> first_episode = dataset["train"][0]
>>> first_episode.keys()
dict_keys(['continuous_observations', 'continuous_actions', 'rewards'])
>>> len(first_episode["rewards"])
500
>>> first_episode["continuous_actions"][0]
[6.459120273590088, 2.2422609329223633, -5.914587020874023, -19.799840927124023]

除了强化学习 (RL) 数据，我们还包含了文本数据集，以为用户提供独特的界面。因此，您还会发现 Wikipedia、Oscar、OK-VQA 和 Conceptual-Captions 的子集。

Wikipedia https://hf.co/datasets/wikipedia
Oscar https://hf.co/datasets/oscar
OK-VQA https://okvqa.allenai.org/
Conceptual-Captions https://hf.co/datasets/conceptual_captions

JAT 智能体架构

JAT 的架构基于 Transformer，使用了 EleutherAI 的 GPT-Neo 实现。JAT 的特别之处在于其嵌入机制，该机制专门用于内在地处理顺序决策任务。我们将观测嵌入与动作嵌入交错排列，并结合相应的奖励。

EleutherAI 的 GPT-Neo 实现 https://hf.co/docs/transformers/model_doc/gpt_neo

JAT 网络的架构。在顺序决策任务中，一方面将观测和奖励编码，另一方面将动作编码并交错排列。模型使用因果掩码自回归地生成下一个嵌入，并根据预期的模态进行解码。

每个嵌入因此对应于一个观测 (与奖励相关联) 或一个动作。那么 JAT 是如何编码这些信息的呢？这取决于数据的类型。如果数据 (观测或动作) 是图像 (如在 Atari 中的情况)，那么 JAT 使用 CNN。如果是连续向量，则 JAT 使用线性层。最后，如果是离散值，JAT 使用线性投影层。同样的原理也用于模型输出，具体取决于要预测的数据类型。预测是因果的，将观测值移位一个时间步长。通过这种方式，智能体必须根据所有先前的观测和动作来预测下一个动作。

此外，我们认为让我们的智能体执行 NLP 和 CV 任务会很有趣。为此，我们还让编码器可以选择将文本和图像数据作为输入。对于文本数据，我们使用 GPT-2 的标记化策略，对于图像，我们使用 ViT 类型的编码器。

ViT https://hf.co/docs/transformers/model_doc/vit

考虑到数据的模态可能因环境而异，JAT 如何计算损失呢？它分别计算每种模态的损失。对于图像和连续值，它使用 MSE 损失。对于离散值，它使用交叉熵损失。最终损失是序列中每个元素损失的平均值。等等，这是否意味着我们对预测动作和观测赋予了相等的权重？实际上并不是这样，但我们将在下文中详细讨论。

下文 https://chatgpt.com/g/g-5bNPpaVZy-translate-gpt/c/1b2d0139-5625-418c-9bbe-1fb201b4084d#the-surprising-benefits-of-predicting-observations

实验与结果

我们在所有 157 个训练任务上评估 JAT。我们收集了 10 个回合的数据并记录总奖励。为了便于阅读，我们按领域汇总结果。

每个 RL 领域的汇总专家标准化得分及其 95%置信区间 (CI)，作为学习步数的函数。

如果要用一个数字来总结这些结果，那就是 65.8%，这是在 4 个领域中相对于 JAT 专家的平均表现。这表明 JAT 能够在各种任务中模仿专家的表现。让我们更详细地看看:

对于 Atari 57，智能体达到了专家得分的 14.1%，相当于人类表现的 37.6%。在 21 个游戏中超过了人类表现。
对于 BabyAI，智能体达到了专家得分的 99.0%，仅在 1 个任务上未能超过专家得分的 50%。
对于 Meta-World，智能体达到了专家得分的 65.5%。
对于 MuJoCo，智能体达到了专家得分的 84.8%。

JAT 智能体在 Atari 57 基准测试中的人类标准化得分。

最令人印象深刻的是，JAT 在所有领域中使用 单一网络 实现了这一性能。为了衡量这一性能，让我们来看看 JAT 在一些任务中的渲染效果:

想试试吗？你可以的！JAT 模型已在 🤗 Hub 上提供！

JAT 模型 https://hf.co/jat-project/jat

我们的模型显示了初步的文本任务处理能力，详情请参阅论文。

论文链接 https://hf.co/papers/2402.09844

预测观测值的惊人好处

在训练 RL 智能体时，主要目标是最大化未来奖励。但是，如果我们还要求智能体预测它将来会观测到的内容，这个额外的任务会帮助还是妨碍学习过程呢？

对于这个问题有两种对立的观点。一方面，学习预测观测值可以提供对环境更深入的理解，从而导致更好更快的学习。另一方面，这可能会使智能体偏离其主要目标，导致在观测和动作预测方面的表现平平。

为了解决这一争论，我们进行了一个实验，使用了一个结合观测损失和动作损失的损失函数，并用一个加权参数来平衡这两个目标。

对于所选任务的观测预测学习影响研究的汇总度量及 95%置信区间 (CI)。结果覆盖所选的值范围，并基于每个任务 100 次评估。选择最佳的值可以显著提高智能体的性能。

结果非常显著。当值过高 (0.5) 时，预测观测的额外目标似乎阻碍了学习过程。但是，当值较低时，对学习的影响可以忽略不计，智能体的表现与不将预测观测作为目标时相似。

然而，我们发现左右是一个最佳点，此时学习预测观测实际上提高了智能体的学习效率。我们的研究表明，只要平衡得当，将预测观测添加到学习过程中是有益的。这一发现对这类智能体的设计有重要意义，强调了辅助目标在提高学习效率方面的潜在价值。

所以，下次训练 RL 智能体时，可以考虑让它预测将来会观测到的内容。这可能会带来更好的表现和更快的学习速度！

结论

在这项工作中，我们介绍了 JAT，一个能够掌握各种顺序决策任务并在 NLP 和 CV 任务中表现出初步能力的多用途 Transformer 智能体。对于所有这些任务，JAT 都使用单一网络。我们的贡献包括发布专家级 RL 智能体、JAT 数据集和 JAT 模型。我们希望这项工作能够激发未来在通用智能体领域的研究，并有助于开发更多功能和更强大的 AI 系统。

下一步是什么？研究请求

我们相信，JAT 项目为通用智能体领域的研究开辟了新的方向，而我们只是刚刚开始。以下是一些未来工作的想法:

改进数据: 尽管具有开创性，JAT 数据集仍处于初期阶段。专家轨迹仅来自每个环境中的一个专家智能体，这可能会导致一些偏差。尽管我们尽力达到了最先进的性能，但有些环境仍然具有挑战性。我们相信，收集更多的数据和训练更多的专家智能体将会 大有帮助。
使用离线 RL: JAT 智能体是使用基本的行为克隆训练的。这意味着两件事: (1) 我们无法利用次优轨迹，(2) JAT 智能体不能超过专家的表现。我们选择这种方法是为了简单，但我们相信使用离线 RL 可以 大大提高 智能体的性能，同时实现起来也不会太复杂。
释放更聪明的多任务采样策略的全部潜力: 目前，JAT 智能体从所有任务中均匀采样数据，但这种方法可能会限制其表现。通过动态调整采样率以集中于最具挑战性的任务，我们可以加速智能体的学习过程并释放 显著的性能提升。

引文

@article{gallouedec2024jack,
    title = {{Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent}},
    author = {Gallouédec, Quentin and Beeching, Edward and Romac, Clément and Dellandréa, Emmanuel},
    journal = {arXiv preprint arXiv:2402.09844},
    year = {2024},
    url = {https://arxiv.org/abs/2402.09844}
}

英文原文: https://hf.co/blog/jat

原文作者: Quentin Gallouédec, Edward Beeching, Clément ROMAC, Thomas Wolf

译者: xiaodouzi

本文分享自微信公众号 - Hugging Face（gh_504339124f0f）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/HuggingFace/blog/11126610

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hugging Face 与 Wiz Research 合作提高人工智能安全性

我们很高兴地宣布，我们正在与 Wiz 合作，目标是提高我们平台和整个 AI/ML 生态系统的安全性。 Wiz 研究人员与 Hugging Face 就我们平台的安全性进行合作并分享了他们的发现。Wiz 是一家云安全公司，帮助客户以安全的方式构建和维护软件。随着这项研究的发布，我们将借此机会重点介绍一些相关的 Hugging Face 安全改进。 Wiz 与 Hugging Face 合作的更多信息 https://www.wiz.io/blog/wiz-and-hugging-face-address-risks-to-ai-infrastruct Hugging Face 最近集成了 Wiz 进行漏洞管理，这是一个持续主动的流程，可确保我们的平台免受安全漏洞的影响。此外，我们还使用 Wiz 进行云安全态势管理 (CSPM)，它使我们能够安全地配置云环境并进行监控以确保其安全。我们最喜欢的 Wiz 功能之一是从存储到计算再到网络的漏洞的整体视图。我们运行多个 Kubernetes (k8s) 集群，并拥有跨多个区域和云提供商的资源，因此在单个位置拥有包含每个漏洞的完整上下文图的中央...

2024-05-14

344

本文分享自华为云社区《MySQL怎样处理排序⭐️如何优化需要排序的查询？》，作者：菜菜的后端私房菜。前言在MySQL的查询中常常会用到order by和group by这两个关键字它们的相同点是都会对字段进行排序，那查询语句中的排序是如何实现的呢？当使用的查询语句需要进行排序时有两种处理情况：当前记录本来就是有序的，不需要进行排序当前记录未保持顺序，需要排序使用索引保证有序对于第一种情况，常常是使用二级索引中索引列的有序来保证结果集有序，从而不需要进行排序对于表a，为a2建立二级索引，那么在二级索引上a2就是有序的 CREATE TABLE `a` ( `a1` int(11) NOT NULL AUTO_INCREMENT, `a2` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL, `a3` varchar(255) DEFAULT NULL, PRIMARY KEY (`a1`), KEY `idx_a2` (`a2`) ) ENGINE=InnoDB AUTO_INCREMENT=76 DEFAULT...

2024-05-16

396

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。