一份不可多得的自然语言处理资源清单-低调大师

一份不可多得的自然语言处理资源清单

2018-09-19 767

自然语言处理（Natural Langauge Processing，NLP）是计算机系统理解人类语言的一种能力，它也是人工智能（AI）的子集。NLP在很多商业场景中都有所应用，比如推荐系统、对话机器人等。NLP相关的岗位薪资和前景在机器学习算法岗中也是具有很大的吸引力，很多人转行从事这方面的研究，大多数人是通过自学来提升自己的能力。目前，网络上也有很多多免费资源可以帮助自学者发展NLP方面的专业知识，但资源多且杂，没有很好的一条线将其串起来，那么在本文中，我们列出了针对初学者和中级学习者的学习资源。

针对初学者的NLP资源

对于初学者而言，可以采用两种方法，即传统的机器学习和深度学习来学习使用NLP，这两种方法差别很大的，这里讲述了两者之间的区别。

传统的机器学习

传统的机器学习算法一般比较复杂，通常不易被人理解。以下是一些资源，可以帮助读者开始使用机器学习学习NLP：

Jurafsky和Martin的语音和语言处理是传统自然语言处理领域中广受好评的圣经；
更实用的方法是可以尝试使用 Natural Language Toolkit；

深度学习

深度学习是机器学习领域中的一个子领域，由于人工神经网络的引入，其性能一般远远优于传统的机器学习方法。初学者可以从以下资源开始：

CS 224n：这是斯坦福大学的公开课，也是开始使用深度学习进行NLP的最佳课程；
Yoav Golberg出版的免费和付费书籍也是开始深度学习NLP的重要资源；
所有算法的非常全面的报道都可以在Jacob Einsenstein的NLP课程笔记中找到，该课程几乎涉及所有NLP方法。

针对从业者的NLP资源

如果你是一名数据科学家，那么将需要以下三种类型的资源：
1.快速入门指南/了解热门和新的知识；
2.特定问题的方法调查；
3.定期关注博客；

快速入门指南/了解热门和新的知识

可以从Otter等人的深度学习NLP综述开始；
Young等人的综述，试图总结基于深度学习的NLP中的所有内容，并建议从业者开始使用NLP。
可以参考这篇文章来了解LSTM和RNN的基础知识，它们在NLP中经常被使用。LSTMs的另一个更知名的总结可以在此阅读，这是一篇有趣的论文，用于了解RNN隐藏状态的工作原理，同时推荐以下两篇有趣的博文：
1.http://colah.github.io/posts/2015-08-Understanding-LSTMs

2.https://distill.pub/2016/augmented-rnns/

卷积神经网络（Convnets）可用于理解自然语言，通过阅读此文可以帮助你想象在Convnets中处理NLP；
Convnets和RNNs之间的相互比较已经在此文中总结出，二者实现的pytorch代码也公开在此；

特定问题的方法调查

从业者需要的另一类资源是对特定问题的回答：“我必须训练一个算法来完成某一项任务X，此时我能使用的最有利（也很容易获得）的东西是什么呢？”。
以下是你需要的内容：

文本分类

人们解决NLP的第一个问题是什么呢，主要是文本分类。文本分类可以将文本分类为不同的类别或检测文本中的情感。

ParallelDots 博客中描述了关于情感分析的不同调查，虽然该调查是针对情感分析技术的，但可以将其扩展到大多数文本分类问题中。
另一项关于情感分析算法的调查（由Linked大学和UIUC的人员进行）可以通过在此阅读。
迁移学习在深入学习中变得非常热门，尤其是在图像处理任务中，只需要针对具体的分类任务进行模型微调就可以获得比较好的性能，同理，在维基百科上训练用于语言建模的NLP模型也可以在相对较少量的数据上迁移学习文本分类。以下是来自相关的资源链接：
1.https://arxiv.org/abs/1801.06146

2.https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Fast.ai上有一个关于NLP的学习文档可供使用，链接在此。
如果你正在学习两个不同的任务，而没有使用迁移学习的话，在此处提到了使用Convnet的技巧。
我们还发布了关于Zero Shot Text分类的工作，该工作在没有任何数据集培训的情况下获得了良好的准确性，并且正在开发下一代。我们构建了自定义文本分类API，读者可以在其中定义自己的类别。

序列标记

序列标记是一种标记具有不同属性的单词的任务，这些任务包括词性标注、命名实体识别、关键字标记等，我们在这里为这些任务写了一个有趣的方法调查。
今年COLING的研究论文为这些问题提供了一个很好的资源，它为训练序列标记算法提供了最佳指导。

机器翻译

最近，NLP最大的进步之一就是发现了可以将文本从一种语言翻译成另一种语言的算法。谷歌的系统采用的是一个复杂的16层LSTM，并提供最先进的翻译结果。
此外，部分媒体专家吹嘘炒作不成比例，一些夸张的报道声称“Facebook必须关闭发明自己语言的人工智能”：
1.https://gadgets.ndtv.com/social-networking/news/facebook-shuts-ai-system-after-bots-create-own-language-1731309

2.https://www.forbes.com/sites/tonybradley/2017/07/31/facebook-ai-creates-its-own-language-in-creepy-preview-of-our-potential-future/#1d1ca041292c

关于机器翻译的教程，请参阅菲利浦科恩的研究论文。使用深度学习机器翻译的具体评论在此。
以下是本人最喜欢的几篇论文：
谷歌的这篇论文告诉我们如何在有大量资金和数据的情况下端到端地解决问题；
Facebook的 Convolutional NMT系统及其代码在此处作为库发布；
https://marian-nmt.github.io/是一个用C ++快速翻译的框架;
http://www.aclweb.org/anthology/P18-4020；
http://opennmt.net/使每个人都能够训练他们的NMT系统；

问答系统

市面上有许多不同类型的问答任务，比如从选项中选择、从段落或知识图表中选择答案并根据图像回答问题，并且有不同的数据集可以了解最新技术方法。
* SQuAD数据集是一个问答数据集，它测试算法阅读理解和回答问题的能力。微软在今年早些时候发表的一篇论文中声称，他们已经达到了人类级别的精度。另一个重要的算法是Allen AI的BIDAF及其改进版；

另一个重要的算法是Visual Question Answering，它可以回答有关图像的问题。Teney等人的论文是一个很好的入门资源，可以在Github上找到实现代码；
在现实生活中，提取问答对大型文件应答可使用迁移学习来完成，相关的论文可以在此访问；

改述、句子相似或推理

NLP有三个不同的任务：句子相似性，释义检测和自然语言推理（NLI），每个都需要比上一个更多的语义理解。 MultiNLI及其子集Stanford NLI是NLI最有名的基准数据集，并且最近成为了研究的焦点；此外，还有MS复述语料库和Quora语料库用于释义检测，以及用于STS的SemEval数据集（语义文本相似性），可在这里找到此领域中对相关模型的调查综述。在临床领域应用NLI是非常重要的，比如了解正确的医疗程序、副作用和药物的交叉影响等，此教程是医学领域中应用NLI的一个好资源。
下面是这个领域推荐的论文列表：

交互空间的自然语言推理——它采用了一种非常聪明的方法，使用DenseNet表示句子，你可以在这里阅读该论文；
这篇来自Omar Levy小组的研究论文表明，即使是简单的算法也能完成任务；
BiMPM是预测释义的一个好模型，可以在这里访问；
我们还有一项关于释义检测的新工作，它将关系网络应用于句子表示之上，并已在今年的AINL会议上被接受。

其他领域

以下是一些更详细的综述性文章，阅读这些文章可以帮助你，获取在制作NLP系统时可能遇到的其他任务的研究信息。

语言建模（LM）——语言建模是学习一个无监督语言表示的任务，这是通过给定前N个单词的句子来预测第（n + 1）个单词。这些模型具有两个重要的实际用途，即自动完成并用作文本分类的转移学习的基础模型。详细的综述文章在此，如果有兴趣了解如何根据搜索历史自动完成手机/搜索引擎中的LSTM工作，可以阅读这篇论文；
关系提取——关系提取是提取句子中存在的实体之间关系的任务，给定的句子“A像r一样与B相关”，那么得到三元组（A,r,B）。详细的综述文章在此，它使用BIDAF进行零射击关系提取；
对话系统—— 随着聊天机器人革命的开始，对话系统现在也风靡一时。许多人将对话系统看作成意图检测、关键字检测、问答等模型的组合，而其他人则尝试端到端地对其进行建模。详细的综述文章在此，在这里提下Facebook AI的Parl.ai框架；
文本摘要——文本摘要用于从文档中获取精简文本（段落/新闻文章等）。有两种方法可以做到这一点：提取和抽象总结。虽然抽取摘要从文章中提供了具有最高信息内容的句子，但抽象概括的目的是像人类一样编写摘要。来自爱因斯坦AI的演示将抽象概括带入了主流研究中，详细的综述文章在此；
自然语言生成（NLG）—— 自然语言生成是计算机旨在像人类一样写作的研究，可能是写故事、诗歌、图像标题等。目前，在生成图像标题上已经做得很好了，其中将LSTM和注意机制相结合，使得输出可用于现实生活中，详细的综述文章在此；

关注博客

以下是推荐关注的博客列表，对于NLP感兴趣的读者可以时常浏览：

爱因斯坦AI ： https://einstein.ai/research
Google AI：https://ai.googleblog.com/
WildML： http://www.wildml.com/
DistillPub： https://distill.pub/
Sebastian Ruder： http://ruder.io/

作者信息

Muktabh Mayank，数据科学家、企业家、社会学家
个人主页：https://twitter.com/muktabh
文章原标题《Free resources to learn Natural Language Processing》，译者：Uncle_LLD。
文章为简译，更为详细的内容，请查看原文。

微信关注我们

原文链接：https://yq.aliyun.com/articles/642694

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

01 面向就业的人工智能学习概述

相信很多人对于AI的作用以及将来工作的方式存在很多疑问，这里简单得和大家分享一下我的一些心得。实际上在之前Python-科学计算库当中涉及到的模块，比如numpy基础建模、pandas数据处理、matplotlib统计绘图，都是为机器学习打基础的。让大家初步得了解了一下机器学习或人工智能领域中需要接触到的知识。除了对于编程工具的熟练运用，在进入人工智能领域时还需具备一定的数学基础。这两个基础一定要打得牢固。很多人学习人工智能前首先会想方设法得对爬虫知识进行恶补，但个人觉得如果希望能够尽快完成对人工智能行业的转型，目前的研究方向可以仅对爬虫的知识点到为止。爬虫很多情况下在工作中不会用到，数据会由企业进行提供。 === 深度学习和机器学习的区别 === 首先帮助大家对深度学习和机器学习的区别进行扫盲。很多人说深度学习是从机器学习发展而来的，这没错。但是就目前它们涉及到领域而言还是有所不同的。机器学习偏向于对数据的处理，只要有数据，机器学习中相关的算法都可以运用进去。深度学习则偏向于图像检测、自然语言处理等，深度学习更专精于某个领域一些。如果机器学习和深度学习各会一点，而没有专精...

2018-09-19

636

2018杭州·云栖大会，阿里云宣布开启新一轮核心产品降价，再次用科技普惠广大开发者和用户，加速产业升级。本次降价涉及近20款产品，产品包括智能语音交互、图像识别、性能测试PTS、云数据库RDS等，其中事务消息降价90%，不断刷新低价优惠。更新的基础设施更高的产品性价比在杭州云栖大会上，阿里云发布多款产品并宣布免费试用。链路追踪为开发者提供完整调用链路还原，提高微服务时代下的开发诊断效率。应用高可用服务可专注于提高应用高可用能力的SaaS产品，提供应用架构自动探测等功能，快速提升应用可用性。除此之外，对于阿里云用户来说还有一大利好，阿里云推出的Cloud Toolkit开发者工具可供免费下载试用，帮助开发者在Eclipse中轻松将应用程序部署到阿里云的云环境中去。开发者在本地运行、调试并测试应用程序，完成开发后，通过在 Eclip

2018-09-20

725

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。