资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!
数据集
Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里携手中科大,2017年云栖大会将有“量子技术”重磅发布!
今天,在2017年云栖大会上,阿里巴巴集团正式宣布成立承载“NASA计划”的实体组织——“达摩院”,进行基础科学和颠覆式技术创新研究。“达摩院”首批公布的研究领域包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、下一代人机交互、芯片技术、传感器技术、嵌入式系统等,涵盖机器智能、智联网、金融科技等多个产业领域。 马云还表示,如果阿里巴巴没了,希望留下三样东西给世界: 第一,要有一个研究院,把技术留下来; 第二,建立湖畔大学,把商业智慧留下来; 第三,保留公益基金会,把社会责任留下来。 从云栖大会官网上公布的议程上可以看出,马云激情演讲之后,将还有三场重磅信息发布会,其中中国科学院院士、中国科技大学常务副校长潘建伟会做一场主题为《从“量”变到“智”变》的演讲。 在重构基础设施分论坛上,中科大教授朱晓波、阿里首席通信科学家谢崇进
- 下一篇
AI语音正终结“耳聋工厂” 千万中国工人将受益
“这里吵不吵啊?”“啊?” “我是问这里吵不吵?”“吵!我们都习惯了! 这是近日,浙江省金华某工业园探访中的一幕。 噪声,是很多工厂工人摆脱不掉的困扰,“职业性噪声聋”已成包括浙江省在内的全国第二大职业病。 近日,阿里巴巴机器智能技术实验室消息,其正研发在高工业噪声环境下的语音识别及传输技术,以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字,让彼此心领神会。 阿里巴巴工程师正在调试AI语音识别系统 很多工厂车间 说话基本靠吼 厂房林立的浙江省金华某工业园内,12台编织机正轰鸣着织出白色编织袋布。 “分贝仪”显示,该车间噪声在“95分贝”上下。 根据《职业性噪声聋诊断标准》等相关标准,噪声大于等于85分贝便可认定为噪声作业环境,工人需有所防护。但在该车间,工人并未佩戴防护耳罩。 在97分贝环境中作业的编织厂工人 阿里巴巴AI语音工程
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路