带你熟悉NLP预训练模型:BERT
本文分享自华为云社区《【昇思技术公开课笔记-大模型】Bert理论知识》,作者: JeffDing。
NLP中的预训练模型
语言模型演变经历的几个阶段
- word2vec/Glove将离散的文本数据转换为固定长度的静态词向量,后根据下游任务训练不同的语言模型
- ELMo预训练模型将文本数据结合上下文信息,转换为动态词向量,后根据下游任务训练不同的语言模型
- BERT同样将文本数据转换为动态词向量,能够更好地捕捉句子级别的信息与语境信息,后续只需对BERT参数进行微调,仅重新训练最后的输出层即可适配下游任务
- GPT等预训练语言模型主要用于文本生成类任务,需要通过prompt方法来应用于下游任务,指导模型生成特定的输出。
BERT模型本质上是结合了ELMo模型与GPT模型的优势。
- 相比于ELMo,BERT仅需改动最后的输出层,而非模型架构,便可以在下游任务中达到很好的效果;
- 相比于GPT,BERT在处理词元表示时考虑到了双向上下文的信息;
Bert介绍
2018年Google发布了BERT(来自Transformer的双向自编码器)预训练模型,旨在通过联合左侧和右侧的上下文,从未标记文本中预训练出一个深度双向表示模型。因此,BERT可以通过增加一个额外的输出层来进行微调,就可以达到为广泛的任务创建State-of-the-arts 模型的效果,比如QA、语言推理任务。
当时将预训练模应用于下游任务的策略通常有两种:基于特征的(feature-based)和基于微调(fine-tuning);前者比如ELMo,后者比如OpenAI GPT;
这两种策略在预训练期间具有相同的目标函数,在预训练期间,它们使用单向语言模型来学习一般的语言表示。但当前对预训练方法的限制(尤其是对基于微调的方法)是标准语言模型是单向(unidirectional)的,所以限制了在预训练阶段可选的模型结构体系。
比如GPT是从左到右的,每个token只能关注到前一个token的self-attention layers。这种局限对于句子级任务(sentence-level tasks)来说还不是很打紧,但是对于token-level tasks(比如QA)就很致命,所以结合两个方向的上下文信息至关重要。
Bert Input
第一步:Tokenization, 输入的句子经过分词后,首尾添加[CLS]与[SEP]特殊字符,后转换为数字id
第二步:Embedding, 输入到BERT模型的信息由三部分内容组成:
表示内容的token ids
表示位置的position ids
用于区分不同句子的token type ids
将三种信息分别输入Embedding层
如果出现输入是句子对的情况呢?
BERT Architecture
BERT由Encoder Layer堆叠而成,Encoder Layer的组成与Transformer的Encoder Layer一致:
自注意力层 + 前馈神经网络,中间通过residual connection和LayerNorm连接
BERT(Bidirectional Encoder Representation from Transformers)是由Transformer的Encoder层堆叠而成,BERT的模型大小有如下两种:
BERT BASE:与Transformer参数量齐平,用于比较模型效果(110M parameters)
BERT LARGE:在BERT BASE基础上扩大参数量,达到了当时各任务最好的结果(340M parameters)
BERT Output
BERT会针对每一个位置输出大小为hidden size的向量,在下游任务中,会根据任务内容的不同,选取不同的向量放入输出层
pooler output
例如,在诈骗邮件分类任务中,我们会将表示句子级别信息的[CLS]
token所对应的向量,经过Bert Pooler放入classfier中,得到对spam/not spam分类的预测。
我们一般称[CLS]经过线性层+激活函数tanh的输出为pooler output,用于句子级别的分类/回归任务
sequence output
例如,在词性标注任务(POS Tagging)中,我们需要获得每一个token所对应的类别,因此需要将[CLS]和[SEP]中有实际意义的token输出,分别输入对应的classifier中。
我们一般称BERT输出的每个位置对应的vector为sequence output
BERT的不同下游任务
BERT预训练
BERT预训练任务有两种:Masked Language Modelling(MLM) 和 Next Sentence Prediction (NSP)。
MLM:随机遮盖输入句子中的一些词语,并预测被遮盖的词语是什么(完形填空)
NSP:预测两个句子是不是上下文的关系
Masked Language Model(MLM)
Masked Language Modelling(MLM) 捕捉词语级别的信息
在输入中随机遮盖15%的token(即将token替换为[MASK])
将[MASK]位置对应的BERT输出放入输出层中,预测被遮盖的token
在将[MASK]位置所对应的BERT输出放入输出层后,本质上是在进行一个多分类任务
为了使得预训练任务和推理任务尽可能接近,BERT在随机遮盖的15%的tokens中又进行了进一步的处理:
80%的概率替换为[MASK]
10%的概率替换为文本中的随机词
10%的概率不进行替换,保持原有的词元
Next Sentence Prediction(NSP)
Next Sentence Prediction (NSP) 捕捉句子级别信息,简单来说是一个针对句子对的分类问题,判断一组句子中,句子B是否为句子A的下一句(IsNext or NotNext)
Bert微调
在下游任务中,我们使用少量的标注数据(labelled data)对预训练Transformer编码器的所有参数进行微调,额外的输出层将从头开始训练。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Kmesh v0.1.0 版本发布
本文分享自华为云社区《Kmesh v0.1.0 版本发布!打造极致性能的流量治理体验》,作者:云容器大未来。 Kmesh是业内首个内核级云原生流量治理引擎,通过基础软件创新帮助用户构筑云原生场景下高性能的通信基础设施。Kmesh第一个版本v0.1.0 [1]现已正式发布,用户可以在服务网格环境中使用yaml一键部署,无缝对接Istiod,通过流量治理下沉OS,实现相比 Istio Sidecar 方案转发时延降低50%+,为应用提供极致的转发性能体验。 Kmesh 介绍 Kmesh 基于 eBPF + 可编程内核技术,将流量治理下沉 OS,数据路径上无需经过代理层,实现了一个内核级 sidecarless 网格数据面。 Kmesh 关键能力: 高性能:内核中原生支持 L4~L7 流量治理功能,治理过程无需经过实体代理组件,网格内服务通信路径从代理架构下的三跳变为一跳,大幅提升网格数据面的转发性能; 低开销:Pod 中无需部署 Sidecar 程序,大幅降低网格基础设施的资源开销; 安全隔离:基于 eBPF 的运行时安全,并支持 cgroup 级治理隔离; 平滑兼容:支持与 Istiod...
- 下一篇
云小课|HSS对近期Cactus勒索病毒的分析
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:HSS针对Cactus勒索病毒的解析与防护建议。 本文分享自华为云开发者社区 《【云小课】| 安全第15课 HSS对近期Cactus勒索病毒的分析》,原文作者:阅识风云 近期热点勒索事件 2023年首次发现的勒索病毒Cactus已迅速在数字领域蔓延,利用漏洞(尤其是VPN的漏洞)获得未经授权的访问并在受损的基础设施中建立据点,采用动态加密方法并利用许多工具和技术来确保其恶意负载有效且隐蔽地传递,攻击领域多种多样,主要针对从事制造和专业服务业务的组织,并已经攻击达到9个国家。 Cactus勒索病毒自2023年3月份开始活动以来一直很活跃,主要针对大型商业实体进行大量勒索。它采用双重勒索策略,在加密前窃取敏感数据,并在其网站威胁公开数据。Cactus勒索病毒利用Fortinet VPN漏洞、Qlik Sense公开暴露的安装漏洞和恶意广告传播的Danabot恶意软件,以获取初始访问权限,然后使用批处理脚本解压7...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2配置默认Tomcat设置,开启更多高级功能