资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/ 博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm 亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食

