spark集群使用hanlp进行分布式分词操作说明-低调大师

spark集群使用hanlp进行分布式分词操作说明

2019-01-20 773

本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作以下为全文：

分两步：

第一步：实现hankcs.hanlp/corpus.io.IIOAdapter

1.Â public class HadoopFileIoAdapter implements IIOAdapter {

2.

3. @Override

4. public InputStream open(String path) throws IOException {

5. Configuration conf = new Configuration();

6. FileSystem fs = FileSystem.get(URI.create(path), conf);

7. return fs.open(new Path(path));

8. }

9.

10. @Override

11. public OutputStream create(String path) throws IOException {

12. Configuration conf = new Configuration();

13. FileSystem fs = FileSystem.get(URI.create(path), conf);

14. OutputStream out = fs.create(new Path(path));

15. return out;

16. }

17. }

第二步：修改配置文件。root为hdfs上的数据包，把IOAdapter改为咱们上面实现的类

ok，这样你就能在分布式集群上使用hanlp进行分词了。

整个步骤比较简单，欢迎各位大神交流探讨！

微信关注我们

原文链接：https://yq.aliyun.com/articles/688264

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch实例磁盘占用率高排查及解决

开源 ES 实例健康状态首先，先介绍下开源 Elasticsearch 的三种健康状态：绿色、黄色和红色。在分片层面，绿色：所有的主分片和副本分片都已分配。你的集群是 100% 可用的。黄色：所有主分片都已经分配，但至少有一个副本分片未被分配。此时，搜索结果是正确、完整的，不会有数据丢失。但高可用性已经被弱化，有丢失数据的风险。应尽快介入处理。红色：集群中至少有一个主分片（以及它的所有副本）未被分配，意味着搜索时将缺少数据，至返回部分数据；同时，要写入该分片的请求会返回异常。这时候您可能会问：“如果集群中有的索引是绿色，有的是黄色，这时候该怎么决定集群的健康度呢？” 集群的健康状态由最差的索引决定，索引的健康状态由最差的分片决定。阿里云 ES 实例的健康状态本文主要从磁盘占用达到高水位问题来谈谈 ES 集群健康状态。大家都知道，阿里云 ES 在一定前提下，重启时是可以持续提供服务的。前提是： 1.阿里云ES实例健康度必须确保是绿色状态 2.至少包含1个副本注意：不排除节点在重启期间，对应CPU和内存使用率会存在临时突增，服务可能会出现抖动，正常情况下过一段时间后会...

2019-01-19

1016

活动介绍阿里云栖开发者沙龙是“云栖社区”主办的线下技术沙龙品牌，希望通过技术干货分享来打通线上线下专家和开发者的连接。沙龙每期将定位不同的技术方向，逐步覆盖云计算，大数据，前端，PHP，android，AI，运维，测试等技术领域，并会穿插一些特别专场（开源专场，女性开发者专场，开发者成长专场等）。我们希望它将是一个开发者的聚集地，每一期都是一个开发者的大Party！本期合肥专场邀请阿里及第三方多位专家聚焦：高并发企业级应用架构实践分享社区合肥技术交流群，欢迎合肥的同学入群与专家实时技术交流，点击链接入群http://tb.cn/9S1jYHw或扫码入群直播回顾直播回顾地址：https://yq.aliyun.com/live/803 议程（PPT资料下载）时间主题讲师 PPT 13:00-13:30 签到 — — 13:30-14:10 高并发应用中的数据库系统设计实践周正中 https://yq.aliyun.com/download/3285 14:10-14:50 大规模日志数据企业级分布式平台架构面临的问题与挑战于俊 https://yq.aliyun....

2019-01-20

675

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。