带你熟悉NLP预训练模型：BERT-低调大师

带你熟悉NLP预训练模型：BERT

2024-01-22 427

本文分享自华为云社区《【昇思技术公开课笔记-大模型】Bert理论知识》，作者： JeffDing。

NLP中的预训练模型

语言模型演变经历的几个阶段

word2vec/Glove将离散的文本数据转换为固定长度的静态词向量，后根据下游任务训练不同的语言模型
ELMo预训练模型将文本数据结合上下文信息，转换为动态词向量，后根据下游任务训练不同的语言模型
BERT同样将文本数据转换为动态词向量，能够更好地捕捉句子级别的信息与语境信息，后续只需对BERT参数进行微调，仅重新训练最后的输出层即可适配下游任务
GPT等预训练语言模型主要用于文本生成类任务，需要通过prompt方法来应用于下游任务，指导模型生成特定的输出。

BERT模型本质上是结合了ELMo模型与GPT模型的优势。

相比于ELMo，BERT仅需改动最后的输出层，而非模型架构，便可以在下游任务中达到很好的效果；
相比于GPT，BERT在处理词元表示时考虑到了双向上下文的信息；

Bert介绍

2018年Google发布了BERT（来自Transformer的双向自编码器）预训练模型，旨在通过联合左侧和右侧的上下文，从未标记文本中预训练出一个深度双向表示模型。因此，BERT可以通过增加一个额外的输出层来进行微调，就可以达到为广泛的任务创建State-of-the-arts 模型的效果，比如QA、语言推理任务。

当时将预训练模应用于下游任务的策略通常有两种：基于特征的（feature-based）和基于微调（fine-tuning）；前者比如ELMo，后者比如OpenAI GPT;

这两种策略在预训练期间具有相同的目标函数，在预训练期间，它们使用单向语言模型来学习一般的语言表示。但当前对预训练方法的限制（尤其是对基于微调的方法）是标准语言模型是单向(unidirectional）的，所以限制了在预训练阶段可选的模型结构体系。

比如GPT是从左到右的，每个token只能关注到前一个token的self-attention layers。这种局限对于句子级任务(sentence-level tasks)来说还不是很打紧，但是对于token-level tasks（比如QA）就很致命，所以结合两个方向的上下文信息至关重要。

Bert Input

第一步：Tokenization，输入的句子经过分词后，首尾添加[CLS]与[SEP]特殊字符，后转换为数字id

第二步：Embedding，输入到BERT模型的信息由三部分内容组成：

表示内容的token ids

表示位置的position ids

用于区分不同句子的token type ids

将三种信息分别输入Embedding层

如果出现输入是句子对的情况呢？

BERT Architecture

BERT由Encoder Layer堆叠而成，Encoder Layer的组成与Transformer的Encoder Layer一致：

自注意力层 + 前馈神经网络，中间通过residual connection和LayerNorm连接

BERT（Bidirectional Encoder Representation from Transformers）是由Transformer的Encoder层堆叠而成，BERT的模型大小有如下两种：

BERT BASE：与Transformer参数量齐平，用于比较模型效果（110M parameters）

BERT LARGE：在BERT BASE基础上扩大参数量，达到了当时各任务最好的结果（340M parameters）

BERT Output

BERT会针对每一个位置输出大小为hidden size的向量，在下游任务中，会根据任务内容的不同，选取不同的向量放入输出层

pooler output

例如，在诈骗邮件分类任务中，我们会将表示句子级别信息的[CLS] token所对应的向量，经过Bert Pooler放入classfier中，得到对spam/not spam分类的预测。

我们一般称[CLS]经过线性层+激活函数tanh的输出为pooler output，用于句子级别的分类/回归任务

sequence output

例如，在词性标注任务（POS Tagging）中，我们需要获得每一个token所对应的类别，因此需要将[CLS]和[SEP]中有实际意义的token输出，分别输入对应的classifier中。

我们一般称BERT输出的每个位置对应的vector为sequence output

BERT的不同下游任务

BERT预训练

BERT预训练任务有两种：Masked Language Modelling（MLM）和 Next Sentence Prediction （NSP）。

MLM：随机遮盖输入句子中的一些词语，并预测被遮盖的词语是什么（完形填空）

NSP：预测两个句子是不是上下文的关系

Masked Language Model（MLM）

Masked Language Modelling（MLM）捕捉词语级别的信息

在输入中随机遮盖15%的token（即将token替换为[MASK]）

将[MASK]位置对应的BERT输出放入输出层中，预测被遮盖的token

在将[MASK]位置所对应的BERT输出放入输出层后，本质上是在进行一个多分类任务

为了使得预训练任务和推理任务尽可能接近，BERT在随机遮盖的15%的tokens中又进行了进一步的处理：

80%的概率替换为[MASK]

10%的概率替换为文本中的随机词

10%的概率不进行替换，保持原有的词元

Next Sentence Prediction（NSP）

Next Sentence Prediction (NSP) 捕捉句子级别信息，简单来说是一个针对句子对的分类问题，判断一组句子中，句子B是否为句子A的下一句（IsNext or NotNext）

Bert微调

在下游任务中，我们使用少量的标注数据（labelled data）对预训练Transformer编码器的所有参数进行微调，额外的输出层将从头开始训练。

点击关注，第一时间了解华为云新鲜技术~

微信关注我们

原文链接：https://my.oschina.net/u/4526289/blog/10920708

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Kmesh v0.1.0 版本发布

本文分享自华为云社区《Kmesh v0.1.0 版本发布！打造极致性能的流量治理体验》，作者：云容器大未来。 Kmesh是业内首个内核级云原生流量治理引擎，通过基础软件创新帮助用户构筑云原生场景下高性能的通信基础设施。Kmesh第一个版本v0.1.0 [1]现已正式发布，用户可以在服务网格环境中使用yaml一键部署，无缝对接Istiod，通过流量治理下沉OS，实现相比 Istio Sidecar 方案转发时延降低50%+，为应用提供极致的转发性能体验。 Kmesh 介绍 Kmesh 基于 eBPF + 可编程内核技术，将流量治理下沉 OS，数据路径上无需经过代理层，实现了一个内核级 sidecarless 网格数据面。 Kmesh 关键能力：高性能：内核中原生支持 L4~L7 流量治理功能，治理过程无需经过实体代理组件，网格内服务通信路径从代理架构下的三跳变为一跳，大幅提升网格数据面的转发性能；低开销：Pod 中无需部署 Sidecar 程序，大幅降低网格基础设施的资源开销；安全隔离：基于 eBPF 的运行时安全，并支持 cgroup 级治理隔离；平滑兼容：支持与 Istiod...

2024-01-22

411

阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要：HSS针对Cactus勒索病毒的解析与防护建议。本文分享自华为云开发者社区《【云小课】| 安全第15课 HSS对近期Cactus勒索病毒的分析》，原文作者：阅识风云近期热点勒索事件 2023年首次发现的勒索病毒Cactus已迅速在数字领域蔓延，利用漏洞(尤其是VPN的漏洞)获得未经授权的访问并在受损的基础设施中建立据点，采用动态加密方法并利用许多工具和技术来确保其恶意负载有效且隐蔽地传递，攻击领域多种多样，主要针对从事制造和专业服务业务的组织，并已经攻击达到9个国家。 Cactus勒索病毒自2023年3月份开始活动以来一直很活跃，主要针对大型商业实体进行大量勒索。它采用双重勒索策略，在加密前窃取敏感数据，并在其网站威胁公开数据。Cactus勒索病毒利用Fortinet VPN漏洞、Qlik Sense公开暴露的安装漏洞和恶意广告传播的Danabot恶意软件，以获取初始访问权限，然后使用批处理脚本解压7...

2024-01-22

432

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。