如何在ubuntu使用hanlp
前言
以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:
http://blog.csdn.net/daniel_ustc/article/details/48195287.
随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地不让我做中文分词处理(老报错).无奈之下,我只能使用第三方的分词工具.由于standford的源码是java,我寻找了一个与之对应的分词工具,即hanlp.
HanLP的安装使用
HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客:
http://m.blog.csdn.net/article/details?id=50938796
不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的安装使用.
安装eclipse
在终端输入 sudo get-apt install eclipse-platform实现一键安装,然后在应用程序找到eclipse
下载hanlp
访问hanlp的官方网址:http://hanlp.linrunsoft.com/services.html
分别下载hanlp.jar(程序包), data.zip(词典库),hanlp.properties(配置文件),而后面是说明文档,可以不下载
在下载的data.zip的时候,下载链接有点隐晦,点击蓝色的data-for-1.2.11.zip,就会出现百度云链接啦
导入jar包
导入hanlp到eclipse之中,具体的流程可以参照网址:
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
导入配置文件
将hanlp.propertie复制至项目的bin目录中,修改词典的路径
将root的路径修改至data保存的路径(记得data要解压)
作者:Quincy1994
来源:CSDN
原文:https://blog.csdn.net/qq_30843221/article/details/52326254
版权声明:本文为博主原创文章,转载请附上博文链接!
编程代码示范
运行结果:
文章来源于Quincy1994的博客
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云容器技术专家莫源:乘风踏雪归来,仍是此间少年
我叫刘中巍,花名莫源,是阿里云容器服务团队的技术专家,13年加入阿里云,从零开始参与多款云产品的研发。在1024开发者节之际,来分享下自己的成长故事。 “平凡但不安分”的男孩 我是一个来自北方的孩子,从小到大都是淹没在人群中无法分辨的那种。学习成绩一般,体育项目不擅长,也没有什么特别的才艺,就连升学老师给的评语都是团结同学,热爱劳动。如果非要找出点特别的话,那就是对生活不安分的性格和特立独行的个性。 2010年,怀揣着空空如也的憧憬与茫然来到北京求学,在北航学业如同高中一般繁重,但却提供了自由的时间管理。和很多从事计算行业的前辈相比,我在大学前对于编程一无所知,更提不到兴趣的层面,同学们都在啃教材的时候,而我却拿着一些视频剪辑与特效制作的工具书在研究,当然也通过这些技能赚了很多零用钱,以至于我曾经一度认为这就是未来我要做的工作。 越早的步入社会就会越早发现现实的残酷,这也让我意识到了自己并没有出众的艺术天分,工具是用来表达内心想法的方式,而我却缺乏这其中最重要的部分 - 艺术灵感。在接受这残酷的事实后,我重新回到计算机的世界中,图书馆、实验室占据了我每天大部分的时间。 扛着服务器,跑...
- 下一篇
hanlp源码解读之字符正规化CharTable
概述:字符正规化是指在分词之前把繁体转成简体、大写转成小写等,在自然语言处理中这是必不可以的一个步骤!在hanlp中的实现方法是基于词典的,也就是正规则字符对照表。就是“data/dictionary/other/CharTable.txt” 这个词典,打开后是下面这个样子的!在java程序中如何实现呢,相信大部分人会想用到用HashMap缓存起来不就可以了吗!当然,这个方法是可行的,但是HashMap在数据量比较大时,时间复杂度是接近O(n)的。这也是为什么加载词典用trie树,而不是直接用HashMap的原因了,当然内存也是一个方面,本篇文章不会讨论!下面我们来看下hanlp代码里的具体实现。 在hanlp中,是采用一维数据实现的,下面一步步来看源码的实现!源码位于com.hankcs.hanlp.HanLP包下的CharTable类中,这个类主是要加把CharTable.txt加载到一维数组中。为了方便阅读,下面直接在代码中加入注释! 在分词之前会首化调用正规化接口(在启用正规化的情况下)下面来看下CharTable.normalization(text);这个函数的实现:这个函...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS6,CentOS7官方镜像安装Oracle11G
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作