中文分词工具比较
五款中文分词工具的比较,尝试的有jieba,SnowNLP,thulac(清华大学自然语言处理与社会人文计算实验室),StanfordCoreNLP,pyltp(哈工大语言云),环境是Win10,anaconda3.7
1. 安装
Jieba: pip install jieba SnowNLP: pip install snownlp thulac: pip install thulac StanfordCoreNLP: pip install stanfordcorenlp
下载 CoreNLP 并解压,将中文包下载并解压至 CoreNLP 文件夹 pyltp:
pip install pyltp,安装失败提示c++14 missing,手动编译失败,换成centos安装依然失败
2. 运行
a = 'Jimmy你怎么看'
import jieba.posseg as pseg ws = pseg.cut(a) for i in ws: print(i) import thulac thu1 = thulac.thulac() text = thu1.cut(a) print(text) from stanfordcorenlp import StanfordCoreNLP nlp = StanfordCoreNLP(r'./stanford-corenlp-full-2018-10-05/', lang='zh') print(nlp.pos_tag(a)) from snownlp import SnowNLP s = SnowNLP(a) t = s.tags for i in t: print(i)
3. 结果
只有Thulac的结果比较特别,StanfordCoreNLP的运行占用大量内存和CPU,尝试另一句话‘这本书很不错’,jieba无法分出‘本’,其他都可以完整分词,不过StanfordCoreNLP依然占用大量内存和CPU。
Jieba: Jimmy/eng 你/r 怎么/r 看/v Thulac: Model loaded succeed [['Jimmy你怎', 'x'], ['么', 'u'], ['看', 'v']] SnowNLP: [('Jimmy', 'NR'), ('你', 'PN'), ('怎么', 'AD'), ('看', 'VV')] StanfordCoreNLP: ('Jimmy', 'p') ('你', 'r') ('怎么', 'r') ('看', 'v')

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大快HanLP自然语言处理技术介绍
大快HanLP自然语言处理技术介绍这段时间一直在接触学习hadoop方面的知识,所以说对自然语言处理技术也是做了一些了解。网络上关于自然语言处理技术的分享文章很多,今天就给大家分享一下HanLP方面的内容。自然语言处理技术其实是所有与自然语言的计算机处理相关联的技术的统称,自然语言处理技术应用的目的是为了能够让计算机理解和接收我们用自然语言输入的指令,实现从将我们人类的语言翻译成计算机能够理解的并且不会产生歧义的一种语言。接合目前的大数据以及人工智能,自然语言处理技术的快速发展能够很好的助力人工智能的发展。 (大快DKhadoop技术架构图)这里要分享的HanLP是我在学习使用大快DKhadoop大数据一体化平台时使用到的自然语言处理技术,使用这个组建可以很高效的进行自然语言的处理工作,比如进行文章摘要,语义判别以及提高内容检索的精确度和有效性等。本想找个通俗的案例来介绍一下HanLP,一时间也没想到什么好的案例,索性就从HanLp数据结构HE 分词简单介绍下吧。首先我们来看了解下HanLP的数据结构: 二分tire树:Tire树是一种前缀压缩结构,可以压缩存大量字符串,并提供速度高于...
- 下一篇
新华智云,新闻即数据,数据即新闻
新华智云媒体大脑案例报告 一、背景 说起新华社,大家脑海中首先想到的是中国的国家通讯社,法定的新闻监管机构,同时也是世界级的现代通讯社(在世界各地拥有一百多个分社)。 没错,新华社是中文媒体的主要新闻来源之一,既有传统的文字新闻,也有图片图表新闻、音视频新闻和网络新闻。同时,新华社正在建设全媒体集团,拥有各种新闻发布形式和媒体工具,包括传统通讯社业务、报刊业务、网络业务、经济信息服务、数据库和搜索服务、手机和网络及大屏幕等新媒体等综合性架构。 此外新华社作为中国共产党领导下最早成立的新闻机构(1931年成立),在媒体融合以及新媒体的探索道路中其实也极具创新和开拓意识。其中就包括与互联网的亲密接触----新华智云----2017年6月12日,新华智云正式成立,它是新华社和阿里巴巴的合资公司,它既是互联网技术和行业的合作典范,也是技术赋能媒体
相关文章
文章评论
共有0条评论来说两句吧...