AI 大战 AI，一个深度强化学习多智能体竞赛系统

2023-03-08 484

小伙伴们快看过来！这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体竞赛系统。

这个工具托管在 Space 上，允许我们创建多智能体竞赛。它包含三个元素:

一个带匹配算法的 Space，使用后台任务运行模型战斗。
一个包含结果的 Dataset。
一个获取匹配历史结果和显示模型 LEO 的 Leaderboard。

然后，当用户将一个训练好的模型推到 Hub 时，它会获取评估和排名。得益于此，我们可以在多智能体环境中对你的智能体与其他智能体进行评估。

除了作为一个托管多智能体竞赛的有用工具，我们认为这个工具在多智能体设置中可以成为一个 健壮的评估技术。通过与许多策略对抗，你的智能体将根据广泛的行为进行评估。这应该能让你很好地了解你的策略的质量。

让我们看看它在我们的第一个竞赛托管: SoccerTwos Challenge 上是如何工作的。

AI vs. AI是怎么工作的？

AI vs. AI 是一个在 Hugging Face 上开发的开源工具，对多智能体环境下强化学习模型的强度进行排名。

其思想是通过让模型之间持续比赛，并使用比赛结果来评估它们与所有其他模型相比的表现，从而在不需要经典指标的情况下了解它们的策略质量，从而获得 对技能的相对衡量，而不是客观衡量。

对于一个给定的任务或环境，提交的智能体越多，评分就越有代表性。

为了在一个竞争的环境里基于比赛结果获得评分，我们决定根据 ELO 评分系统进行排名。

游戏的核心理念是，在比赛结束后，双方玩家的评分都会根据比赛结果和他们在比赛前的评分进行更新。当一个拥有高评分的用户打败一个拥有低排名的用户时，他们便不会获得太多分数。同样，在这种情况下，输家也不会损失很多分。

相反地，如果一个低评级的玩家击败了一个高评级的玩家，这将对他们的评级产生更显著的影响。

在我们的环境中，我们尽量保持系统的简单性，不根据玩家的初始评分来改变获得或失去的数量。因此，收益和损失总是完全相反的 (例如+10 / -10)，平均 ELO 评分将保持在初始评分不变。选择一个1200 ELO 评分启动完全是任意的。

如果你想了解更多关于 ELO 的信息并且查看一些计算示例，我们在深度强化学习课程里写了一个解释。

使用此评级，可以 自动在具有可对比强度的模型之间进行匹配。你可以有多种方法来创建匹配系统，但在这里我们决定保持它相当简单，同时保证比赛的多样性最小，并保持大多数比赛的对手评分相当接近。

以下是该算法的工作原理:

从 Hub 上收集所有可用的模型。新模型获得初始 1200 的评分，其他的模型保持在以前比赛中得到或失去的评分。
从所有这些模型创建一个队列。
从队列中弹出第一个元素 (模型)，然后从 n 个模型中随机抽取另一个与第一个模型评级最接近的模型。
通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模拟这个比赛，并收集结果。对于这个实现，我们将结果发送到 Hub上的 Hug Face Dataset。
根据收到的结果和 ELO 公式计算两个模型的新评分。
继续两个两个地弹出模型并模拟比赛，直到队列中只有一个或零个模型。
保存结果评分，回到步骤 1。

为了持续运行这个配对过程，我们使用 免费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务持续运行这个配对过程。

Space 还用于获取每个以及比赛过的模型的 ELO 评分，并显示一个排行榜，每个人都可以检查模型的进度。

该过程通常使用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分)。

因为这个过程也保存了比赛的历史，因此可以精确地看到任意给定模型的结果。例如，这可以让你检查为什么你的模型与另一个模型搏斗，最显著的是使用另一个演示 Space 来可视化匹配，就像这个。

目前，这个实验是在 MLAgent 环境 SoccerTwos 下进行的，用于 Hugging Face 深度强化学习课程，然而，这个过程和实现通常是 环境无关的，可以用来免费评估广泛的对抗性多智能体设置。

当然，需要再次提醒的是，此评估是提交的智能体实力之间的相对评分，评分本身 与其他指标相比没有客观意义。它只表示一个模型与模型池中其他模型相对的好坏。尽管如此，如果有足够大且多样化的模型池 (以及足够多的比赛)，这种评估将成为表示模型一般性能的可靠方法。

我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽

这个挑战是我们免费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日，计划于 4 月 30 日结束。

如果你感兴趣，你不必参加课程就可以加入这个比赛。你可以在这里开始

在这个单元，读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的基础。

用到的环境是 Unity ML-Agents 团队制作的。这个比赛的目标是简单的: 你的队伍需要进一个球。要做到这一点，他们需要击败对手的团队，并与队友合作。

除了排行榜，我们创建了一个 Space 演示，人们可以选择两个队伍并可视化它们的比赛。

这个实验进展顺利，因为我们已经在排行榜上有 48 个模型了。

我们也创造了一个叫做 ai-vs-ai-competition 的 discord 频道，人们可以与他人交流并分享建议。

结论，以及下一步

因为我们开发的这个工具是 环境无关的，在未来我们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛，不要犹豫，与我们联系。

在未来，我们将用我们创造的工具和环境来举办多个多智能体比赛，例如 SnowballFight。

除了称为一个举办多智能体比赛的有用工具，我们考虑这个工具也可以在多智能体设置中成为 一项健壮的评估技术: 通过与许多策略对抗，你的智能体将根据广泛的行为进行评估，并且你将很好地了解你的策略的质量。

保持联系的最佳方式是加入我们的 Discord与我们和社区进行交流。

引用

引用: 如果你发现这对你的学术工作是有用的，请考虑引用我们的工作:

Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.

BibTeX 引用:

@article{cochet-simonini2023,
  author = {Cochet, Carl and Simonini, Thomas},
  title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
  journal = {Hugging Face Blog},
  year = {2023},
  note = {https://huggingface.co/blog/aivsai},
}

英文原文: https://huggingface.co/blog/aivsai

作者: Carl Cochet、Thomas Simonini

译者: AIboy1993 (李旭东)

审校、排版: zhongdongy (阿东)

微信关注我们

原文链接：https://my.oschina.net/HuggingFace/blog/8511029

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

服役 8 年，Google 删除 Chrome 清理工具

在 2015 年，Google 为了防止恶意软件篡改 Chrome 浏览器，影响用户正常上网、修改搜索结果、重定向到其他页面，或者在用户访问的页面中注入额外的广告（非网站自身的广告），推出了一个清理工具 —— Chrome Cleanup Tool（Chrome 清理工具），该工具可以帮助用户寻找和删除系统中可能影响浏览体验的软件。如今在推出 Chrome Cleanup Tool 八年后，Google 表示该工具已经达到了它的目的，Google 现已从 Chrome 中删除了该工具。该功能最初是以一个独立的应用程序推出，当时的名字还是叫做 Software removal tool，后来被重新命名为 Chrome Cleanup Tool 并直接集成到了 Windows 版本的 Chrome 中（macOS 没有对应的工具）。虽然对日常系统维护很有用，但 Chrome Cleanup Tool 从未打算成为一个全面的防病毒解决方案，而且 Google 已经通过 Safe Browsing 和浏览器内置的病毒保护功能带来了更好的安全保障，而随着新的网络钓鱼和恶意软件的不断出现，G...

2023-03-10

425

摘要：本文将详细讲解两种非线性滤波方法中值滤波和双边滤波。本文分享自华为云社区《[Python从零到壹] 五十六.图像增强及运算篇之图像平滑（中值滤波、双边滤波）》，作者： eastmount 。一.中值滤波前面讲述的都是线性平滑滤波，它们的中间像素值都是由邻域像素值线性加权得到的，接下来将讲解一种非线性平滑滤波——中值滤波。中值滤波通过计算每一个像素点某邻域范围内所有像素点灰度值的中值，来替换该像素点的灰度值，从而让周围的像素值更接近真实情况，消除孤立的噪声。中值滤波对脉冲噪声有良好的滤除作用，特别是在滤除噪声的同时，能够保护图像的边缘和细节，使之不被模糊处理，这些优良特性是线性滤波方法所不具有的，从而使其常常被应用于消除图像中的椒盐噪声[1-2]。中值滤波算法的计算过程如图1所示。选择含有五个点的窗口，依次扫描该窗口中的像素，每个像素点所对应的灰度值按照升序或降序排列，然后获取最中间的值来替换该点的灰度值。上图展示的是矩形窗口，常用的窗口还包括正方形、十字形、环形和圆形等，不同形状的窗口会带来不同的过滤效果，其中正方形和圆形窗口适合于外轮廓边缘较长的图像，十字形窗口适合...

2023-03-09

442

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。