AI 大战 AI,一个深度强化学习多智能体竞赛系统
小伙伴们快看过来!这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体竞赛系统。
这个工具托管在 Space 上,允许我们创建多智能体竞赛。它包含三个元素:
- 一个带匹配算法的 Space,使用后台任务运行模型战斗。
- 一个包含结果的 Dataset。
- 一个获取匹配历史结果和显示模型 LEO 的 Leaderboard。
然后,当用户将一个训练好的模型推到 Hub 时,它会获取评估和排名。得益于此,我们可以在多智能体环境中对你的智能体与其他智能体进行评估。
除了作为一个托管多智能体竞赛的有用工具,我们认为这个工具在多智能体设置中可以成为一个 健壮的评估技术。通过与许多策略对抗,你的智能体将根据广泛的行为进行评估。这应该能让你很好地了解你的策略的质量。
让我们看看它在我们的第一个竞赛托管: SoccerTwos Challenge 上是如何工作的。
AI vs. AI是怎么工作的?
AI vs. AI 是一个在 Hugging Face 上开发的开源工具,对多智能体环境下强化学习模型的强度进行排名。
其思想是通过让模型之间持续比赛,并使用比赛结果来评估它们与所有其他模型相比的表现,从而在不需要经典指标的情况下了解它们的策略质量,从而获得 对技能的相对衡量,而不是客观衡量。
对于一个给定的任务或环境,提交的智能体越多,评分就越有代表性。
为了在一个竞争的环境里基于比赛结果获得评分,我们决定根据 ELO 评分系统进行排名。
游戏的核心理念是,在比赛结束后,双方玩家的评分都会根据比赛结果和他们在比赛前的评分进行更新。当一个拥有高评分的用户打败一个拥有低排名的用户时,他们便不会获得太多分数。同样,在这种情况下,输家也不会损失很多分。
相反地,如果一个低评级的玩家击败了一个高评级的玩家,这将对他们的评级产生更显著的影响。
在我们的环境中,我们尽量保持系统的简单性,不根据玩家的初始评分来改变获得或失去的数量。因此,收益和损失总是完全相反的 (例如+10 / -10),平均 ELO 评分将保持在初始评分不变。选择一个1200 ELO 评分启动完全是任意的。
如果你想了解更多关于 ELO 的信息并且查看一些计算示例,我们在 深度强化学习课程 里写了一个解释。
使用此评级,可以 自动在具有可对比强度的模型之间进行匹配。你可以有多种方法来创建匹配系统,但在这里我们决定保持它相当简单,同时保证比赛的多样性最小,并保持大多数比赛的对手评分相当接近。
以下是该算法的工作原理:
- 从 Hub 上收集所有可用的模型。新模型获得初始 1200 的评分,其他的模型保持在以前比赛中得到或失去的评分。
- 从所有这些模型创建一个队列。
- 从队列中弹出第一个元素 (模型),然后从 n 个模型中随机抽取另一个与第一个模型评级最接近的模型。
- 通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模拟这个比赛,并收集结果。对于这个实现,我们将结果发送到 Hub上的 Hug Face Dataset。
- 根据收到的结果和 ELO 公式计算两个模型的新评分。
- 继续两个两个地弹出模型并模拟比赛,直到队列中只有一个或零个模型。
- 保存结果评分,回到步骤 1。
为了持续运行这个配对过程,我们使用 免费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务持续运行这个配对过程。
Space 还用于获取每个以及比赛过的模型的 ELO 评分,并显示一个排行榜,每个人都可以检查模型的进度。
该过程通常使用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分)。
因为这个过程也保存了比赛的历史,因此可以精确地看到任意给定模型的结果。例如,这可以让你检查为什么你的模型与另一个模型搏斗,最显著的是使用另一个演示 Space 来可视化匹配,就像 这个。
目前,这个实验是在 MLAgent 环境 SoccerTwos 下进行的,用于 Hugging Face 深度强化学习课程,然而,这个过程和实现通常是 环境无关的,可以用来免费评估广泛的对抗性多智能体设置。
当然,需要再次提醒的是,此评估是提交的智能体实力之间的相对评分,评分本身 与其他指标相比没有客观意义。它只表示一个模型与模型池中其他模型相对的好坏。尽管如此,如果有足够大且多样化的模型池 (以及足够多的比赛),这种评估将成为表示模型一般性能的可靠方法。
我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽
这个挑战是我们免费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日,计划于 4 月 30 日结束。
如果你感兴趣,你不必参加课程就可以加入这个比赛。你可以在 这里 开始
在这个单元,读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的基础。
用到的环境是 Unity ML-Agents 团队制作的。这个比赛的目标是简单的: 你的队伍需要进一个球。要做到这一点,他们需要击败对手的团队,并与队友合作。
除了排行榜,我们创建了一个 Space 演示,人们可以 选择两个队伍并可视化它们的比赛。
这个实验进展顺利,因为我们已经在 排行榜 上有 48 个模型了。
我们也创造了一个叫做 ai-vs-ai-competition 的 discord 频道,人们可以与他人交流并分享建议。
结论,以及下一步
因为我们开发的这个工具是 环境无关的,在未来我们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛,不要犹豫,与我们联系。
在未来,我们将用我们创造的工具和环境来举办多个多智能体比赛,例如 SnowballFight。
除了称为一个举办多智能体比赛的有用工具,我们考虑这个工具也可以在多智能体设置中成为 一项健壮的评估技术: 通过与许多策略对抗,你的智能体将根据广泛的行为进行评估,并且你将很好地了解你的策略的质量。
保持联系的最佳方式是加入我们的 Discord与我们和社区进行交流。
引用
引用: 如果你发现这对你的学术工作是有用的,请考虑引用我们的工作:
Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.
BibTeX 引用:
@article{cochet-simonini2023, author = {Cochet, Carl and Simonini, Thomas}, title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system}, journal = {Hugging Face Blog}, year = {2023}, note = {https://huggingface.co/blog/aivsai}, }
英文原文: https://huggingface.co/blog/aivsai
作者: Carl Cochet、Thomas Simonini
译者: AIboy1993 (李旭东)
审校、排版: zhongdongy (阿东)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
服役 8 年,Google 删除 Chrome 清理工具
在 2015 年,Google 为了防止恶意软件篡改 Chrome 浏览器,影响用户正常上网、修改搜索结果、重定向到其他页面,或者在用户访问的页面中注入额外的广告(非网站自身的广告),推出了一个清理工具 —— Chrome Cleanup Tool(Chrome 清理工具),该工具可以帮助用户寻找和删除系统中可能影响浏览体验的软件。 如今在推出 Chrome Cleanup Tool 八年后,Google 表示该工具已经达到了它的目的,Google 现已从 Chrome 中删除了该工具。 该功能最初是以一个独立的应用程序推出,当时的名字还是叫做 Software removal tool,后来被重新命名为 Chrome Cleanup Tool 并直接集成到了 Windows 版本的 Chrome 中(macOS 没有对应的工具)。 虽然对日常系统维护很有用,但 Chrome Cleanup Tool 从未打算成为一个全面的防病毒解决方案,而且 Google 已经通过 Safe Browsing 和浏览器内置的病毒保护功能带来了更好的安全保障,而随着新的网络钓鱼和恶意软件的不断出现,G...
- 下一篇
Python从零到壹丨详解图像平滑的两种非线性滤波方法
摘要:本文将详细讲解两种非线性滤波方法中值滤波和双边滤波。 本文分享自华为云社区《[Python从零到壹] 五十六.图像增强及运算篇之图像平滑(中值滤波、双边滤波)》,作者: eastmount 。 一.中值滤波 前面讲述的都是线性平滑滤波,它们的中间像素值都是由邻域像素值线性加权得到的,接下来将讲解一种非线性平滑滤波——中值滤波。中值滤波通过计算每一个像素点某邻域范围内所有像素点灰度值的中值,来替换该像素点的灰度值,从而让周围的像素值更接近真实情况,消除孤立的噪声。 中值滤波对脉冲噪声有良好的滤除作用,特别是在滤除噪声的同时,能够保护图像的边缘和细节,使之不被模糊处理,这些优良特性是线性滤波方法所不具有的,从而使其常常被应用于消除图像中的椒盐噪声[1-2]。 中值滤波算法的计算过程如图1所示。选择含有五个点的窗口,依次扫描该窗口中的像素,每个像素点所对应的灰度值按照升序或降序排列,然后获取最中间的值来替换该点的灰度值。 上图展示的是矩形窗口,常用的窗口还包括正方形、十字形、环形和圆形等,不同形状的窗口会带来不同的过滤效果,其中正方形和圆形窗口适合于外轮廓边缘较长的图像,十字形窗口适合...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Linux系统CentOS6、CentOS7手动修改IP地址
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境