用于自然语言处理的数据集集锦
在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程。
最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型。此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展。
本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用。
概述
本文分为7个部分,包括:
- 文本分类
- 语言建模
- 图像字幕
- 机器翻译
- 问题回答
- 语音识别
- 文档摘要
我提供了不少的数据集,它们在学术论文中的使用非常广泛。几乎所有的数据集都可以免费下载。
让我们开始吧。
用于自然语言处理的数据集
1. 文本分类
文本分类是指对语句或者文档打标签,例如电子邮件分类和情感分析。
下面是一些不错的的初级文本分类数据集。
- 路透社Newswire主题分类(路透社21578)。 1987年在路透社出现的一系列新闻文档,按类
