NLP自然语言处理中英文分词工具集锦与基本使用介绍
一、中文分词工具
(1)Jieba
(2
)snowNLP分词工具
(
3)thulac分词工具
(
4)pynlpir 分词工具
(5)StanfordCoreNLP分词工具
1.from stanfordcorenlp import StanfordCoreNLP
2.with StanfordCoreNLP(r'E:UsersEternal SunPycharmProjects1venvLibstanford-corenlp-full-2018-10-05', lang='zh') as nlp:
- print("stanfordcorenlp分词:n",nlp.word_tokenize(Chinese))
(6)Hanlp分词工具
分词结果如下:
二、英文分词工具
- NLTK:
二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下:
- SpaCy:
- StanfordCoreNLP:
分词结果
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
语音识别(ASR)基础介绍第三篇——经典做法及术语概念
上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D 传统方法也可以按 声学模型 和 语言学模型 的方式来划分。 声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结果了。 本章介绍的,其实是下图左侧的部分。 一、术语定义 介绍一个概念前,首先要把它依赖的术语说明白,其实asr领域的术语定义并不复杂,反而非常符合直观感觉。换句话说,定义基本是一眼就明白意思并且觉得没有毛病的样子。 上图右侧是传统模型的大致处理流程。里面用到的术语基本都在左侧介绍了。架构解释了整体的处理逻辑: 已知一句话中的一系列单词W ,在MFCC发
- 下一篇
论道AI安全与伦理:我们能达到电影里的智能吗?最可能实现的AI场景是什么?如何看待AI自主性?
雷锋网 AI 科技评论按:由清华大学 AI 研究院张钹院士和清华大学唐杰教授联合发起的「AI Time」science debate 第一期,于 5 月 31 日圆满落幕。出席嘉宾还包括中国人民大学高瓴人工智能学院院长文继荣和搜狐网产品技术总监杨田等人,就主题「AI 安全与伦理」展开了激烈的辩论。近来,由 AI 人脸合成技术带来的一系列问题已引起了社会的广泛关注,而 AI 究竟应该如何发展?AI 革命应做出怎样的贡献?对于这些问题进行深入探讨,刻不容缓。 图 1 「AI Time」science debate 现场 Topic 1:影片《Her》中女主角那样的智能我们能做到吗? 本次活动由电影《Her》开场。影片讲述了男主角西奥多(作家)在结束了一段令他心碎的爱情长跑之后,与电脑操作系统里有着性感嗓音且风趣幽默、善解人
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Mario游戏-低调大师作品
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Hadoop3单机部署,实现最简伪集群
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题