中文文本相似度计算工具集
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!
一、基本工具集
1.分词工具
a.jieba
结巴中文分词
https://github.com/fxsjy/jieba
b.HanLP
自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/
https://github.com/hankcs/HanLP
c.盘古分词-开源中文分词组件
盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。
d.pullword
Pullword-永久免费的可自定义的中文在线分词API
e.BosonNLP
玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。
f.HIT-SCIR/ltp
Language Technology Platform http://ltp.ai
https://github.com/HIT-SCIR/ltp
2.关键词提取
TF-IDF
技术原理:https://dl.acm.org/citation.cfm?id=866292
gensim
https://radimrehurek.com/gensim/models/tfidfmodel.html
TextRank
技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
TextRank4ZH-从中文文本中自动提取关键词和摘要
https://github.com/letiantian/TextRank4ZH
3.词向量
word2vec-gensim
Topic modelling for humans - Radim Řehůřek
https://radimrehurek.com/gensim/index.html
GloVe
Global Vectors for Word Representation
https://nlp.stanford.edu/projects/glove/
4.距离计算
word2vec-gensim
Topic modelling for humans - Radim Řehůřek
https://radimrehurek.com/gensim/index.html
二、常用算法
1.中文分词+TF-IDF+word2vec+cosine 距离计算
2.doc2vec
原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
3.simhash
原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html
技术实现:https://github.com/yanyiwu/simhash
三、文本相似度计算综述
A Survey of Text Similarity Approaches
https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf
《中文信息处理发展报告(2016)》
http://cips-upload.bj.bcebos.com/cips2016.pdf
以上论文下载地址:
http://www.tensorflownews.com/
本篇文章出自http://www.tensorflownews.com,对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
人工智能实战小程序之准备工作
前言 上次参加了微软大会,在做关于微软智能AI接口的实战中认识到了微软也有推出一系列智能接口, 包括语音识别 语意解析 图像识别等。 这些接口是以restful-api提供的,很容易集成到应用中。 小程序体验上不错也是非常火,前端技术不断在更新,虽然我是偏后端的,也不能掉队嘛。 这篇文章我计划是会每个api系列作为一个小程序的功能来实现。 本篇文章是准备工作的介绍(需要用到哪些资源如何申请创建等) 下篇文章是语音系列实战,用到的api有语音转成文字,语音解析(包括去制作模型,训练,发布,调用等) 希望您学会运用微软推出的这些智能api接口来填满你的脑洞。 大家可以玩一玩看看 注册一个azure账号 登录 https://portal.azure.com (现在注册还有免费200美金的额度直接送到你账户,免费的项目还是可以终身使用的) azure里面添加luis服务 搜索luis然后添加一个luis服务 点击创建完成后会自动跳出如下界面 创建一个Luis app 创建成功 和大家大概解释下 一个luis的模型包含以下: 1 Intents 是语意的意...
- 下一篇
2017年度未来人工智能发展的几大趋势?
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 1、机器人将在商业场景中成为主流 在2017年的特定商业场景中,商业机器人将会发挥巨大的潜力,很多有实力的机器人公司都会开发可用在多个商业领域的通用型机器人,能适应不同的环境,2017年我们会在很多具有一定特点的营业厅中看到专业型机器人的身影。未来,热点会由专业型机器人向通用型机器人转变。 2、AI云服务将成为未来发展趋势 AI是未来已经成为不证自明的事实,人工智能时代的一个特点是,人工智能平台的转换成本高,因此这些IT巨头争相提供AI云服务,甚至不惜将软硬件开源,将AI服务作为特色业务提供给第三方,就是看中了这一点:只要第三方使用自己的平台,就会把数据留在平台上,而这些数据将会是人工智能时代的一座大金矿。而对于应用企业来说,利用大公司提供的AI云服务提升竞争力也是势在必行。所以,无论对于AI服务提供商,还是使用AI服务的企业,这都是一种双赢的合作。 3、辅助驾驶成为AI第一个大规模应用 无人驾驶一直是人...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Hadoop3单机部署,实现最简伪集群
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果