如何评估大语言模型
大家可以使用 Hugging Face Space 上的 Evaluation on the Hub 应用在零样本分类任务上评估大语言模型啦!
零样本评估是研究人员衡量大语言模型性能的一种流行方法。因为大语言模型已经在训练过程中 显示 出了对无标注数据的学习能力。反向缩放奖 是近期社区的一项工作,通过在各种尺寸和结构的模型上进行大规模零样本评估,以发现哪些大模型的表现比小模型还差。
在 Hub 上零样本评估语言模型
Evaluation on the Hub 无需编写代码即可帮助你评估 Hub 上的任何模型,这个能力是由 AutoTrain 赋予的。现在,Hub 上的任何因果语言模型都可以以零样本的方式进行评估。零样本评估会度量训得的模型生成一组特定补全词的可能性,且不需要任何标注训练数据,这使得研究人员可以跳过昂贵的标注工作。
我们已经为该项目升级了 AutoTrain 基础设施,使之可以免费评估大模型🤯!用户弄清楚如何自己编写可用于 GPU 执行的评估再运行该代码去评估大模型既昂贵又耗时。例如,一个具有 660 亿参数的语言模型可能仅加载和编译就需要 35 分钟,这使得大模型的评估只有那些拥有昂贵的基础设施和丰富的技术经验的人才能进行。通过升级 AutoTrain 基础设施,在具有 2000 个句子的零样本分类任务中评估一个 660 亿参数的模型需要 3.5 小时,社区中的任何人都可以完成。 Evaluation on the Hub 目前支持评估的最大模型尺寸为 660 亿参数,后面会支持更大的模型。
零样本文本分类任务采用包含一组提示和及其候选补全的数据集。在工作时,会将补全与提示连接起来,并对每个补全的对数概率求和,然后进行归一化并与正确的补全进行比较以最终输出任务的准确性。
在本文中,我们将在 WinoBias 数据集上来评估各种 OPT 模型在零样本文本分类任务上的表现,该任务是一个度量职业上的性别偏见的共指任务。 WinoBias 度量一个模型是否更有可能选择一个带有刻板印象的代词来填充一个提到职业的句子。我们通过观察结果发现,在此任务上模型效果与模型大小存在 反向缩放,即模型越大越容易产生带有刻板印象的填充代词。
案例研究: WinoBias 任务的零样本评估
WinoBias 数据集已被我们转换成适合零样本任务所需的格式,其任务就是视不同的补全为不同的类 (下图中的 classes
列),并进行预测。每个补全句的区别在于代词不同,而标签 (下图中的 target
列) 就是对应职业的反刻板化补全 (例如,“开发人员”通常是男性主导的职业,因此“她”就是反刻板化代词)。有关示例,请参见 参考链接。
接下来,我们可以在 Evaluation on the Hub
界面上将任务设置为 text_zero_shot_classification
,并选择 winobias 数据集 (见下图),然后选择我们想要评估的模型,最后提交评估任务!评估完成后,你将收到电子邮件通知, autoevaluator
机器人会在模型的 Hub 库中新建一个 PR,并把结果放在这个 PR 里。
下图是 WinoBias 任务的结果,我们发现较小的模型更有可能生成反刻板化的补全,而较大的模型更有可能学到文本中性别和职业之间的刻板化关联。这与其他基准 (例如 BIG-Bench) 的结果一致,这些基准也表明更大、更强的模型更有可能在性别、种族、民族、和国籍问题上形成偏见。另外,之前的工作 也表明较大的模型更有可能产生有毒文本。
为每个人提供更好的研究工具
开放科学在社区驱动的工具开发方面取得了长足进步,例如 EleutherAI 的 语言模型评估工具 和 BIG-bench 项目,这使得研究人员可以直观了解最先进模型的行为。
Evaluation on the Hub
是一种低代码工具,让研究人员可以很容易地按照某个维度 (例如 FLOPS 或模型大小) 比较一组模型的零样本性能,或者比较在同一语料库上训出来的一组不同的模型的性能。零样本文本分类任务非常灵活 —— 任何可以转换成 Winograd 格式的数据集 (该格式中要比较的句子间仅有几个单词不同),都可以用于此任务,并可以同时评估多个模型。我们的目标是让研究人员能够很容易地上传新数据集,并能轻松地在其上对许多模型进行基准测试。
一个可以用该工具解决的研究问题的例子是反向缩放问题: 虽然较大的模型通常在大多数语言任务上表现更强,但在某些任务中较大的模型表现反而较差。反向缩放奖 作为一个比赛,旨在鼓励研究人员去构建一些任务,在这些任务上大模型比小模型表现更差。我们鼓励你在自己的任务上尝试对各种尺寸的模型进行零样本评估!如果你发现你的任务效果与模型尺寸的相对关系比较有趣,我们可以聊一聊。
向我们提交反馈!
在 Hugging Face,我们很高兴能通过我们的持续工作,让人人都能访问到最先进的机器学习模型,包括开发工具,并让每个人都能轻松评估和探究这些模型的行为。我们之前已经 强调过 可保证评估结果一致性和可重复性的标准化模型评估方法以及使评估工具人人可访问的重要性。Evaluation on the Hub 的未来计划包括支持对其他语言任务的零样本评估,这些任务可能不适合使用“提示 + 补全”的数据格式,同时我们还会增加对更大模型的支持。
作为社区的一部分,向我们提交反馈十分有助于我们的工作!我们很乐意听取你关于模型评估的首要任务是什么的意见。通过 Hub 社区 或 论坛 告诉我们吧 !
英文原文: https://hf.co/blog/zero-shot-eval-on-the-hub
原文作者: Mathemakitten Helen,Tristan Thrush,Abhishek Thakur,Lewis Tunstall,Douwe Kiela
译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。
审校、排版: zhongdongy (阿东)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
zookeeper的Leader选举源码解析
作者:京东物流梁吉超 zookeeper是一个分布式服务框架,主要解决分布式应用中常见的多种数据问题,例如集群管理,状态同步等。为解决这些问题zookeeper需要Leader选举进行保障数据的强一致性机制和稳定性。本文通过集群的配置,对leader选举源进行解析,让读者们了解如何利用BIO通信机制,多线程多层队列实现高性能架构。 01Leader选举机制 Leader选举机制采用半数选举算法。 每一个zookeeper服务端称之为一个节点,每 个节点都有投票权,把其选票投向每一个有选举权的节点,当其中一个节点选举出票数过半,这个节点就会成为Leader,其它节点成为Follower。 02Leader选举集群配置 重命名zoo_sample.cfg文件为zoo1.cfg ,zoo2.cfg,zoo3.cfg,zoo4.cfg 修改zoo.cfg文件,修改值如下: 【plain】 zoo1.cfg文件内容: dataDir=/export/data/zookeeper-1 clientPort=2181 server.1=127.0.0.1:2001:3001 serve...
- 下一篇
保姆级教程!集成声网 SDK 实现 iOS 平台音视频通话和虚拟背景功能
前言 大家好,我是声网 RTE 开发者社区作者 @小曾同学。 如果你想实现 iOS 平台的音视频通话,想在音视频通话中添加虚拟背景,那这篇文章完全可以借鉴。使用 swift 语言,集成声网 SDK 实现音视频通话,并调用 enableVirtualBackground 接口添加虚拟背景,小伙伴们赶快跟着小曾实践起来吧。 本篇文章主要是集成声网 iOS 端 SDK,实现简易音视频 Demo,并在 Demo 中实现虚拟背景功能。其中也会包含导入虚拟背景图片时遇到的一些问题,以及相关 API 的调用姿势。跟着一步一步做,你一定可以实现自己的音视频 Demo,如果有任何问题,也可评论或者私信留言。 01 前期准备 在实现 iOS 平台音视频 Demo 之前,你需要有以下准备: • Xcode • 注册声网账号,申请声网 APPID、临时Token ,详见开始使用声网平台 如果你还没有声网账号,可以通过文末的链接免费注册,每个账户每月都有 10000 分钟免费额度。 如果是个人学习/调试,时长完全够用。 注意临时Token,主要用途是在客户端加入频道时对用户鉴权,有效期为24小时。 小曾个人开发...
相关文章
文章评论
共有0条评论来说两句吧...