配置Hanlp自然语言处理进阶
中文分词
中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。
下载jar、property和data文件
下载jar文件,(下载hanlp压缩包)解压之后获得jar和property文件如下:
其中property问配置文件,jar文件为外部引用文件。
然后下载data文件:
【https://】pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)
解压压缩包之后就能获取data目录了。
一切就绪之后下面就是配置了。
配置hanlp
新建一个空项目,包括一个新建的java文件的test.java,
1.package com;
2.import com.hankcs.hanlp.HanLP;
3.public class Test {
4.public static void main(String[] args) {
5. System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));
6. }
7.}
目录结构如下图:
如果是在linux中的话,你可以将property文件放在classpath中,windows中也可以,配置环境变量,将property文件的绝对路径加上就可以了,然后运行一下这个java文件:
你会发现如下错误
1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
2.严重: 没有找到hanlp.properties,可能会导致找不到data
3.========Tips========
4.请将hanlp.properties放在下列目录:
5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes
6.Web项目则请放到下列目录:
7.Webapp/WEB-INF/lib
8.Webapp/WEB-INF/classes
9.Appserver/lib
10.JRE/lib
11.并且编辑root=PARENT/path/to/your/data
然后将property放到相应的目录就可以了,注意property配置只需要修改root的配置就行了。
1.本配置文件中的路径的根目录,根目录+其他路径=绝对路径Windows用户请注意,路径分隔符统一使用/
2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java
就比如我的解压后的data文件夹是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目录下的那我就改这个就可以了,其余的配置不用修改
运行成功如下图:
---------------------
作者:学zaza
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
12月6日云栖精选夜读 | 三张图读懂机器学习 :基本概念、五大流派与九种常见算法
机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续,甚至被认为有可能彻底改变人类文明的发展方向乃至人类自身。 热点热议 三张图读懂机器学习 :基本概念、五大流派与九种常见算法 作者:技术小能手发表在:数据与算法之美 开会=浪费时间?阿里技术团队这样开项目复盘会 作者:技术小能手发表在:阿里技术 阿里云推出全栈IPv6解决方案,加速推进下一代互联网应用 作者:阿里云头条发表在:云栖学习小组 知识整理 基于Golang的网络性能测量工具 作者:技术小能手发表在:Golang语言社区 内存数据集产生的隐性成本 作者:技术小能手发表在:数据蒋堂 go test 测试用例那些事 作者:lpxxn OracleRAC实例创建 作者:流浪的猫666 Oracle Dataguard 下块自动修复技术 作者:笱局长发表在:袋鼠云技术团队 美文回顾 DDoS攻击日益加剧,互联网企业该如何应对? 作者:墨者安全 分布式之REDIS复习精讲 作者:jamesese 09 SVM - 线性不...
- 下一篇
12月7日云栖精选夜读 | 阿里数据库的极致弹性之路
阿里妹导读:数据库从IOE(IBM小机、Oracle商业DB、EMC存储)一路走来,大家都知道数据库是资源重依赖的软件,对服务器的三大件CPU、内存、磁盘几乎都有要求。数据库作为广泛使用的数据存储系统,其SQL请求背后涉及的物理读、逻辑读、排序过滤等消耗了IO和CPU资源,业务SQL不同,执行计划不同,资源消耗就不同,因而不同业务对资源规格的需求也不一样。 热点热议 阿里数据库的极致弹性之路 作者:技术小能手发表在:阿里技术 精细化运营不得不说的那些事儿 作者:技术小能手发表在:数据分析 深度|10分钟读懂阿里巴巴高级专家在Flutter Live2018的分享 作者:闲鱼技术发表在:闲鱼技术 知识整理 DKhadoop环境安装配置步骤详解 作者:大数据资讯 HTTPie的安装及使用 作者:whitechen 关于用户画像那些事,看这一文章就够了 作者:技术小能手发表在:数据分析 Golang 中的并发限制与超时控制 作者:技术小能手发表在:Golang语言社区 技术| Python的从零开始系列连载(三十二) 作者:技术小能手发表在:灯塔大数据 美文回顾 在istio中部署非all-...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS关闭SELinux安全模块