模型精度再被提升,统一跨任务小样本学习算法 UPT 给出解法!
近日,阿里云机器学习平台PAI与华东师范大学高明教授团队、达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表统一多NLP任务的预训练增强小样本学习算法UPT(Unified Prompt Tuning)。这是一种面向多种NLP任务的小样本学习算法,致力于利用多任务学习和预训练增强技术,在仅需要标注极少训练数据的情况下,提升大规模预训练语言模型在多种场景下的模型精度。
论文:
Jianing Wang, Chengyu Wang, Fuli Luo, Chuanqi Tan, Minghui Qiu, Fei Yang, Qiuhui Shi, Songfang Huang, Ming Gao. Towards Unified Prompt Tuning for Few-shot Text Classification. EMNLP (Findings) 2022
背景
随着预训练语言模型的规模逐步地扩大,千亿、万亿甚至更大规模的预训练语言模型的分布式训练和优化工作不断涌现。预训练语言模型规模的扩大,带来这一类模型在自然语言理解等相关任务效果的不断提升。然而,这些模型的参数空间比较大,如果在下游任务上直接对这些模型进行微调,为了达到较好的模型泛化性,需要较多的训练数据。在实际业务场景中,特别是垂直领域、特定行业中,训练样本数量不足的问题广泛存在,极大地影响这些模型在下游任务的准确度。基于提示微调(Prompt Tuning)的小样本学习技术能充分利用预训练过程中模型获得的知识,在给定小训练集上训练得到精度较高的模型。然而,在小样本学习场景下,训练数据的有限性仍然对模型的准确度造成一定的制约。因此,如果可以在小样本学习阶段,有效利用其它跨任务的数据集,可以进一步提升模型的精度。
算法架构
跨任务小样本学习算法UPT(Unified Prompt Tuning)是对已有小样本学习算法的学习机理进行的一种深度扩展。UPT是一种统一的学习范式,可以将各种下游任务和预训练任务统一成POV(Prompt-Options-Verbalizer)的形式,使得模型可以学习利用Prompt解决各种NLP任务的通用方法。在我们的工作中,UPT的任务构造形式如下所示:
由此可见,无论是单句分类任务,还有双句匹配任务,亦或是预训练阶段的自监督学习任务,UPT可以将他们转化成一种统一的范式进行学习。这种学习方式兼顾了经典的小样本学习算法的优势,又在学习过程中引入了“元学习”(Meta Learning)的思想,大大提升了模型对下游任务的泛化性,缓解了其在小样本学习阶段遇到的过拟合问题。当我们训练得到这一Meta Learner之后,我们可以复用先前的算法,对Meta Learner进行Few-shot Fine-tuning。
统一的Prompting范式
具体地,预训练模型在不同的下游任务上进行Prompt-Tuning时,需要为特定任务设计固定的Prompt模式(PVP,即Prompt-Verbalizer-Pair),模型很难同时利用这些Task共有的信息,我们把各种NLP任务统一成如下格式:
- P(Prompt):表示任务相关的Prompt,至少包含一个[MASK]token;
- O(Option):通过提问的形式列出Verbalizer中的候选项;
- V(Verbalizer):定义的label word与标签的映射关系。
对于监督学习的任务,我们给出以下两个例子,分别对应单句文本分类和双句文本匹配:
- 评论分类:“[X]. Is great or bad? It was [MASK].”;
- 论文连贯性预测:“[X1]. Is this paragraph the same as the next: [X2]?It was [MASK].”
融入自监督任务
对于自监督任务,在Pre-training阶段,我们没有见过现有的这种模式,以至于在Prompt-Tuning时很难让模型快速学习到Prompt的信息,因此本部分旨在改进原始的自监督任务Masked Language Modeling(MLM),并拓展到Prompt中。需要注意的是,我们并不重新训练语言模型,而是将Prompt-MLM作为一个辅助任务。
原始的MLM是给定一个句子,随机挑选一个或多个位置并替换为[MASK],并让模型通过MLM head预测每个[MASK]位置的Word(或sub-word)。例如给定一个句子“Disney movies are so wonderful that I insist on watching two every week.”,随机Mask一个Word:“Disney movies are so [MASK] that I insist on watching two every week.”,然后让模型预测该位置可能的词。
我们提出的Prompt-MLM的主要流程如下图所示:
我们首先从预训练语料中检测出高频的形容词,并且进行词义相似度聚类。对于一句输入的句子,我们对该文本进行词性标注,选出该文本形容词所在的位置,作为Mask的位置。之后选出与该形容词最不相似的Cluster中的某个形容词,作为另一个选项,构建出Options。最后,我们将MLM任务转化为基于Prompt的二分类任务,同时无需进行任何数据标注。
算法精度评测
为了验证上述算法的有效性,我们对经典和自研的小样本学习算法进行了精度评测。在实验中,我们使用Roberta-large作为预训练语言模型,对每个下游任务,在训练过程中我们只抽取每个类别的16个样本进行学习,在所有测试集上进行评测。在下表中,我们列出了标准Fine-tuning,经典小样本学习算法LM-BFF、PET、P-tuning、PPT等的在9个公开数据集上的实验效果,使用准确度(Accuracy,%)作为模型效果评测指标:
由上述结果可见,我们提出的自研算法UPT在多个数据集上具有明显精度提升。我们也在多个SuperGLUE的数据集上验证了UPT的实验效果。结果如下所示:
此外,PAI团队也荣获FewCLUE中文小样本学习公开评测榜单第一名的成绩(看这里),成绩超越腾讯、百度、平安等资深厂商。为了更好地服务开源社区,UPT算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。
EasyNLP开源框架:https://github.com/alibaba/EasyNLP
参考文献
- Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022 (accepted)
- Tianyu Gao, Adam Fisch, Danqi Chen. Making Pre-trained Language Models Better Few-shot Learners. ACL/IJCNLP 2021: 3816-3830
- Timo Schick, Hinrich Schütze. Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference. EACL 2021: 255-269
- Timo Schick, Hinrich Schütze. It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners. NAACL-HLT 2021: 2339-2352
- Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang. GPT Understands, Too. CoRR abs/2103.10385 (2021)
- Chengyu Wang, Jianing Wang, Minghui Qiu, Jun Huang, Ming Gao. TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification. EMNLP 2021: 2792-2802
论文信息
论文名字:Towards Unified Prompt Tuning for Few-shot Text Classification
论文作者:王嘉宁、汪诚愚、罗福莉、谭传奇、邱明辉、杨非、石秋慧、黄松芳、高明
论文pdf链接:https://arxiv.org/abs/2205.05313

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Debian 12 主题壁纸公开,出自 “官方御用” 设计师
在一个大版本发布前,Debian 项目通常会举行壁纸作品评选活动,让各位艺术家为其新版本操作系统设计壁纸主题,然后通过投票最终选出一款作品。不过对于预计在 2023 年夏天正式发布的 Debian GNU/Linux 12 "Bookworm",他们并没有开展这样的评选活动,而是直接决定再次采用 Juliette Taka 创作的作品。 可能大家对于 Juliette Taka 并不是很熟悉,但她之前已经多次为 Debian GNU/Linux 创作过壁纸作品了。最近的一次就是上一个大版本 —— Debian 11 “Bullseye” 的 “Homeworld” 壁纸,往前追溯你还会发现,Debian 8 和 9 的壁纸也都是出自她之手,再加上这次直接钦定 Debian 12 的壁纸设计,Juliette Taka 已经快成为 Debian “御用” 设计师了(中间断档的 Debian 10 壁纸由 Alex Makas 设计)。 Juliette Taka 为 Debian 12 设计的这个作品名为 "Emerald",将成为 Debian 12 的默认主题。这个作品会出现在主屏壁...
- 下一篇
基于人眼视觉模型,实现码率、质量、成本的最优均衡
将编码器的优化目标从经典的保真度最高,调整为「主观体验最好」。 视觉是具有 「掩蔽效应」 的。 通俗地说,人眼作为图像信息的接收端,并不能精准捕捉到图像画面的所有变化。 例如,人眼对于画面中亮度的变化、静止的图像、画面整体结构比较敏感;而对于色度的变化、运动的图像以及画面内部细节相对不敏感。 面对人们追求更高清、极致的视频体验趋势,视频编解码技术是重中之重,其核心目标是:在可用的、有限的计算资源内,追求尽可能更高的视频「重建质量」和尽可能高的压缩比,即更低的带宽,以及更高清的画面体验。 「窄带高清」便可以利用人眼视觉的掩蔽效应,从人眼视觉模型出发,将编码器的优化目标从经典的“保真度最高”调整为“主观体验最好”,从而实现码率、质量、成本的最优均衡。 窄带高清技术全景 窄带高清转码主要经过解码、重建提升视频质量、再编码三个过程,这便对应产生了三个问题:如何定义视频质量?如何实现质量提升?如何在编码环节巩固提升视频质量? 如何定义视频质量?在视频编码的标准制定过程当中,客观质量(PSNR,SSIM)的衡量占比相对较高。但在实际应用中,对于视频质量的评价更偏向主观。因此,依靠主观体验建模,提取...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19