部分常用分词工具使用整理-低调大师

部分常用分词工具使用整理

2019-05-28 598

以下分词工具均能在Python环境中直接调用（排名不分先后）。
1、jieba（结巴分词）免费使用
2、HanLP（汉语言处理包）免费使用
3、SnowNLP（中文的类库）免费使用
4、FoolNLTK（中文处理工具包）免费使用
5、Jiagu（甲骨NLP）免费使用
6、pyltp（哈工大语言云）商用需要付费
7、THULAC（清华中文词法分析工具包）商用需要付费
8、NLPIR（汉语分词系统）付费使用

1、jieba（结巴分词）
“结巴”中文分词：做最好的 Python 中文分词组件。
项目Github地址：jieba
安装：
pip install jieba
使用：
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)

2、HanLP（汉语言处理包）
HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目Github地址：pyhanlp

安装：
pip install pyhanlp
使用：
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP（中文的类库）
SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。
项目Github地址：snownlp
安装：
pip install snownlp
使用：
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)

4、FoolNLTK（中文处理工具包）
可能不是最快的开源中文分词，但很可能是最准的开源中文分词。
项目Github地址：FoolNLTK

安装：
pip install foolnltk
使用：
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)

5、Jiagu（甲骨NLP）
基于BiLSTM模型，使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作，将Jiagu回馈给大家。
项目Github地址：jiagu
安装：
pip3 install jiagu
使用：
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)

6、pyltp（哈工大语言云）
pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。
项目Github地址：pyltp，3.4模型下载链接：网盘
安装：
pip install pyltp
使用：
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)

7、THULAC（清华中文词法分析工具包）
THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。
项目Github地址：THULAC-Python
安装：
pip install thulac
使用：
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)

NLPIR（汉语分词系统）
主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目Github地址：pynlpir
安装：
pip install pynlpir
下载证书覆盖到安装目录，NLPIR.user 例如安装目录：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()

微信关注我们

原文链接：https://yq.aliyun.com/articles/703973

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

为什么一定要给孩子找个程序员爸爸？

近日，一条名为“思维导图式带娃“的视频上了热搜。视频中一位程序员爸爸，花了半年时间陪孩子看动画片，倾尽毕生所学画了一幅《小猪佩奇》思维导图。图中梳理了动画片中儿子爱学的台词，甚至还详细地列出了家庭“陪娃”计划。视频一出立刻引起了网友的极力支持： @兵来将挡12：现在程序员带娃都这么厉害吗，要不要写个程序来通过一个apk来控制一下自己的仔儿啊。 @喵喵爱吃鱼喵：#思维导图式带娃# 同样都是带孩子，程序员老爸怎么这么优秀。 @唐山小姐姐：看来现在没有一点儿技术手段，连父母都不能够当了，这样的思维式带孩子确实是挺不错。同样是带娃，程序员、畅销书《Scratch 3.0少儿游戏趣味编程》作者李强也是给了不同的方式花样带娃，他的儿子李若瑜一直特别喜欢玩游戏，为了避免他一味地玩网络游戏: 一开始，他有意识地引导他看了一些Scratch的入门的书籍。但是在他很快掌握了基本的操作，并且对Scratch也产生了一定的兴趣后，却不知道下一步该做些什么。由此带着孩子去图书大厦把所有Scratch的教材都翻遍了，发现只能找到入门的书籍，找不到应用提高的书籍。李强又不想让孩子放弃，所以自己去网上找一...

2019-05-27

771

前言上文分析了【从入门到放弃-MySQL】数据库连接过程分析。本文我们一起来追一下客户端和服务端建联的过程。这里客户端使用JDBC8.0，在SpringBoot2.1.3下验证。请求流程初始化 SpringBoot2.1.3默认使用的HickriCP连接池应用启动时，会先注册spring.datasource.driver-class-name配置的驱动，这里我们使用com.mysql.cj.jdbc.Driver 启动后，我们直接通过一个查询操作的http请求来验证一次查询操作中，客户端与服务端连接的过程首次请求当使用到Dao请求时，开始建立连接调用堆栈如下： checkErrorMessage:752, NativeProtocol (com.mysql.cj.protocol.a) checkErrorMessage:741, N

2019-05-28

724

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。