您现在的位置是:首页 > 文章详情

资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

日期:2018-05-01点击:419

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!

数据集

  • Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

    http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

  • 博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

    http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

  • 亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食

原文链接:https://yq.aliyun.com/articles/586839
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章