基于知识迁移的跨语言机器阅读理解算法-低调大师

基于知识迁移的跨语言机器阅读理解算法

2023-12-07 413

近日，阿里云人工智能平台PAI与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议EMNLP2023上发表基于机器翻译增加的跨语言机器阅读理解算法X-STA。通过利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间，从而进行深度级别的辅助以增强跨语言传输能力。同时，提出了一种改进的交叉注意力块，称为梯度解缠知识共享技术。此外，通过多个层次学习语义对齐，并利用教师指导来校准模型输出，增强跨语言传输性能。实验结果显示，我们的方法在三个多语言MRC数据集上表现出色，优于现有的最先进方法。

论文：
Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu. Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension. EMNLP 2023 (Findings)

背景

大规模预训练语言模型的广泛应用，促进了NLP各个下游任务准确度大幅提升，然而，传统的自然语言理解任务通常需要大量的标注数据来微调预训练语言模型。但低资源语言缺乏标注数据集，难以获取。大部分现有的MRC数据集都是英文的，这对于其他语言来说是一个困难。其次，不同语言之间存在语言和文化的差异，表现为不同的句子结构、词序和形态特征。例如，日语、中文、印地语和阿拉伯语等语言具有不同的文字系统和更复杂的语法系统，这使得MRC模型难以理解这些语言的文本。

为了解决这些挑战，现有文献中通常采用基于机器翻译的数据增强方法，将源语言的数据集翻译成目标语言进行模型训练。然而，在MRC任务中，由于翻译导致的答案跨度偏移，无法直接使用源语言的输出分布来教导目标语言。

因此，本文提出了一种名为X-STA的跨语言MRC方法，遵循三个原则：共享、教导和对齐。共享方面，提出了梯度分解的知识共享技术，通过使用平行语言对作为模型输入，从源语言中提取知识，增强对目标语言的理解，同时避免源语言表示的退化。教导方面，本方法利用注意机制，在目标语言的上下文中寻找与源语言输出答案语义相似的答案跨度，用于校准输出答案。对齐方面，多层次的对齐被利用来进一步增强MRC模型的跨语言传递能力。通过知识共享、教导和多层次对齐，本方法可以增强模型对不同语言的语言理解能力。

算法概述

X-STA模型框架图如下所示：

具体流程如下：

先将源语言的目标数据翻译到各个目标语言，目标语言的测试数据也翻译回源语言。
每项数据包含问题Q和上下文段落C。
构建并行语言对={源语言训练数据，目标语言训练数据}送入模型并使用反向传播进行模型训练。
将并行语言对={源语言测试数据，目标语言测试数据}送入模型获取答案的预测。

算法精度评测

为了验证X-STA算法的有效性，我们在三个跨语言MRC数据集上进行了测试，效果证明X-STA对精度提升明显：

我们也对算法的模块进行了详细有效性分析，我们可以发现各模块均对模型有一定贡献。

为了更好地服务开源社区，这一算法的源代码即将贡献在自然语言处理算法框架EasyNLP中，欢迎NLP从业人员和研究者使用。

EasyNLP开源框架：https://github.com/alibaba/EasyNLP

参考文献

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
Rajpurkar, Pranav, et al. "SQuAD: 100,000+ Questions for Machine Comprehension of Text." Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

论文信息

论文标题：Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension

论文作者：曹庭锋、汪诚愚、谭传奇、黄俊、朱金辉

论文pdf链接：https://arxiv.org/abs/2311.06758

原文链接

本文为阿里云原创内容，未经允许不得转载。

微信关注我们

原文链接：https://my.oschina.net/yunqi/blog/10319964

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于大语言模型的复杂任务认知推理算法 CogTree

近日，阿里云人工智能平台PAI与华东师范大学张伟教授团队合作在自然语言处理顶级会议EMNLP2023上发表了基于认知理论所衍生的CogTree认知树生成式语言模型。通过两个系统：直觉系统和反思系统来模仿人类产生认知的过程。直觉系统负责产生原始问题的多个分解假设，反思系统对直觉系统产生的假设进行验证，并选择更有可能的假设进行后续生成，直到达到最终结果。通过上述双系统的迭代式生成，可以提升大模型的解题准确度。论文： Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang, Wei Zhang. From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models. EMNLP 2023 (Findings) 背景随着深度学习在自然语言处理、机器翻译等任务上的不断发展，人们对如何将深度学习应用到自然语言处理中越来越感兴趣，由此出现了大语言模型（例如GPT-3.5），并已在文本生成、情感分析、对话系统...

2023-12-07

430

AIGC 时代，企业流程中是否整合人工智能（AI）对于的企业竞争力至关重要。然而，随着 AI 不断发展演进，企业也在此过程中面临数据安全管理、访问权限、数据隐私等方面的挑战。为了更好地解决上述问题，Credal.AI（以下简称 “Credal”）提供的解决方案使组织能够在释放生成式人工智能（GenAI）潜力的同时降低其风险。Credal 解决方案的核心向量数据库 Milvus，在 Milvus 的加持下，Credal 能够更好地实现其企业愿景——【打造安全且实用的 AI】。 01.Credal：GenAI 与企业数据安全间的桥梁 Credal 的目标是使企业能安全且方便地使用 GenAI。为此，Credal 提供了强大的数据集成和治理功能，能从 Microsoft Office、Google Workspace 以及 Slack 等多种平台中拉取数据。他们推出了类似于“Okta 的 AI 版本”，从而严格管理访问和权限，以便为开发者和终端用户提供一个流畅且安全的接口。因此，Credal 成为一个端到端的解决方案，支持安全、企业级的 GenAI 部署。从用户的角度来看，他们无需精...

2023-12-07

440

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。