Spark中使用HanLP分词
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:
root=hdfs://localhost:9000/tmp/
2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:
public static class HadoopFileIoAdapter implements IIOAdapter { @Override public InputStream open(String path) throws IOException { Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(path), conf); return fs.open(new Path(path)); } @Override public OutputStream create(String path) throws IOException { Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(path), conf); OutputStream out = fs.create(new Path(path)); return out; } }
3.设置IoAdapter,创建分词器:
private static Segment segment;
static {
HanLP.Config.IOAdapter = new HadoopFileIoAdapter(); segment = new CRFSegment();
}
然后,就可以在Spark的操作中使用segment进行分词了。
文章来源于云聪的博客
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
python七天快速开发优惠券搜索引擎项目实战(第一天)
python七天快速开发优惠券搜索引擎项目实战(第一天) 第一天 基本介绍 1.1 项目演示 项目演示网址:http://www.tbquan.cn (淘宝券-淘宝优惠券搜索引擎,天猫优惠券搜索引擎,淘宝天猫全网内部优惠券,付款前搜一搜,更实惠!) 网站截图 佣金截图 1.2 适合人群 1) 本项目适合0编程基础,有编程基础无项目经验,想学习python开发搜索引擎的同学学习、练习。 1.3 涉及知识介绍 涉及的知识包括:HTML、Python、Flask、Elasticsearch、Redis(虽然这个项目看起来有点行,但是别把她想的太难,核心的后台代码使用python实现的,总共不超过500行!你想都想不到!) 1.4 整体开发流程 a、前端页面(现成的【节约时间】) ——> b、python操作es和redis ——> c、获取优惠券数据 ——> d、在服务器部署(centos6.5+nginx) 【实话来说:简直不能太简单】 1.5 教程目标 目标:熟练python基础知识、学会python操作es和redis、学会分布式爬虫 1.6 未来计划 未来计划:加入...
- 下一篇
一分钟“零代码”生成API,DataWorks数据服务快速上手指南
小王是一名数据开发工程师,某天晚上正要下班,老板火急火燎地把他叫到了一间小黑屋。 老板:小王啊,之前让你分析的数据,处理的怎么样了? 小王:都搞定了,包括数据集成任务、离线任务、流计算任务,并且采用了流批一体化开发模式,数据都在数据库中了。 老板:噢,效率很高啊,很好。这样,现在有个新的Case,你看下要多久,有业务部门的系统想访问我们的结果数据,你看看怎么提供给他们,但我不希望把整个表给他们。 小王:老板,好办,可以开发一个数据API,提供给他们。 老板:开发一个API给他们,大概有多少工作量? 小王:从零开发一个API,需要编写数据库连接代码、编写API查询逻辑代码,编写API鉴权、流控、计量、管理等功能代码及页面,搭建Web服务器,部署服务,满打满算,一两周还是要的,就算先搞个精减版,三五天是至少的。 老板挠头…… 小王:对了,老板,后续还要运维,比如双11还要给他们扩容呢。 老板:这可不行,时间太久了,客户明天早上就要。 小王沉默。 老板:你知道DataWorks的数据服务产品吗,听说可以一分钟生成一个API,还不需要你写一行代码呢! 小王:世间竟有如此神器!!一分钟就能搞出一...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6