部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。
1、jieba(结巴分词) 免费使用
2、HanLP(汉语言处理包) 免费使用
3、SnowNLP(中文的类库) 免费使用
4、FoolNLTK(中文处理工具包) 免费使用
5、Jiagu(甲骨NLP) 免费使用
6、pyltp(哈工大语言云) 商用需要付费
7、THULAC(清华中文词法分析工具包) 商用需要付费
8、NLPIR(汉语分词系统) 付费使用
1、jieba(结巴分词)
“结巴”中文分词:做最好的 Python 中文分词组件。
项目Github地址:jieba
安装:
pip install jieba
使用:
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)
2、HanLP(汉语言处理包)
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目Github地址:pyhanlp
安装:
pip install pyhanlp
使用:
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、SnowNLP(中文的类库)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
项目Github地址:snownlp
安装:
pip install snownlp
使用:
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)
4、FoolNLTK(中文处理工具包)
可能不是最快的开源中文分词,但很可能是最准的开源中文分词。
项目Github地址:FoolNLTK
安装:
pip install foolnltk
使用:
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)
5、Jiagu(甲骨NLP)
基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。
项目Github地址:jiagu
安装:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)
6、pyltp(哈工大语言云)
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
项目Github地址:pyltp,3.4模型下载链接:网盘
安装:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)
7、THULAC(清华中文词法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
项目Github地址:THULAC-Python
安装:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(汉语分词系统)
主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目Github地址:pynlpir
安装:
pip install pynlpir
下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用:
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
为什么一定要给孩子找个程序员爸爸?
近日,一条名为“思维导图式带娃“的视频上了热搜。 视频中一位程序员爸爸,花了半年时间陪孩子看动画片,倾尽毕生所学画了一幅《小猪佩奇》思维导图。 图中梳理了动画片中儿子爱学的台词,甚至还详细地列出了家庭“陪娃”计划。 视频一出立刻引起了网友的极力支持: @兵来将挡12:现在程序员带娃都这么厉害吗,要不要写个程序来通过一个apk来控制一下自己的仔儿啊。 @喵喵爱吃鱼喵:#思维导图式带娃# 同样都是带孩子,程序员老爸怎么这么优秀。 @唐山小姐姐:看来现在没有一点儿技术手段,连父母都不能够当了,这样的思维式带孩子确实是挺不错。 同样是带娃,程序员、畅销书《Scratch 3.0少儿游戏趣味编程》作者李强也是给了不同的方式花样带娃,他的儿子李若瑜一直特别喜欢玩游戏,为了避免他一味地玩网络游戏: 一开始,他有意识地引导他看了一些Scratch的入门的书籍。但是在他很快掌握了基本的操作,并且对Scratch也产生了一定的兴趣后,却不知道下一步该做些什么。 由此带着孩子去图书大厦把所有Scratch的教材都翻遍了,发现只能找到入门的书籍,找不到应用提高的书籍。 李强又不想让孩子放弃,所以自己去网上找一...
- 下一篇
【从入门到放弃-MySQL】数据库连接过程分析-客户端
前言 上文分析了【从入门到放弃-MySQL】数据库连接过程分析。本文我们一起来追一下客户端和服务端建联的过程。这里客户端使用JDBC8.0,在SpringBoot2.1.3下验证。 请求流程 初始化 SpringBoot2.1.3默认使用的HickriCP连接池 应用启动时,会先注册spring.datasource.driver-class-name配置的驱动,这里我们使用com.mysql.cj.jdbc.Driver 启动后,我们直接通过一个查询操作的http请求来验证一次查询操作中,客户端与服务端连接的过程 首次请求 当使用到Dao请求时,开始建立连接调用堆栈如下: checkErrorMessage:752, NativeProtocol (com.mysql.cj.protocol.a) checkErrorMessage:741, N
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器