MapReduce实现与自定义词典文件基于hanLP的中文分词详解-低调大师

MapReduce实现与自定义词典文件基于hanLP的中文分词详解

2018-10-14 707

前言：

文本分类任务的第1步，就是对语料进行分词。在单机模式下，可以选择python jieba分词，使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词，则hanLP更加胜任。

一、使用介绍

hanLP是一个用java语言开发的分词工具，官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式，一种是portable简化版本，内置了数据包以及词典文件，可通过maven来管理依赖，只要在创建的 maven 工程中加入以下依赖，即可轻松使用（强烈建议大家优先采用这种方法）。

具体操作方法如图示，在pom.xml中，加入上述依赖信息，笔者使用的IDEA编辑器就会自动开始解析依赖关系，并导入左下角的hanlp jar包。

第二种方法需要自己下载data数据文件，并通过一个配置文件hanlp.properties来管理各种依赖信息，其中最重要的是要人为指定data目录的家目录。（不建议大家一上来就使用这种方法，因为真心繁琐！）

二、通过第一种方法，建立maven工程，编写mapreduce完整程序如下（亲测运行良好）：

三、添加自定义词典文件 & 单机模式

有时候我们希望根据自己业务领域的一些专有词汇进行分词，而这些词汇可能并不包含在官方jar包自带的分词词典中，故而我们希望提供自己的词典文件。首先，我们定义一个测试的句子，并用系统默认的词典进行分词，可看到效果如下图所示：

假设在我们的专业领域中，“词分”，“自试” 都是专业术语，那么使用默认词典就无法将这些目标词分出来了。这时就要研究如何指定自定义的词典，并在代码中进行调用。这时有2种方法。

1. 在代码中，通过CustomDictionary.add();来添加自己的词汇，如下图所示, 可以看到这次分词的结果中，已经能将“词分”，“自试” 单独分出来了。

假如说我们想添加的词汇较多呢，通过上面的方法，一个一个 add, 未勉显得不够优雅，这时我们就希望通过一个词典文件的形式来添加自定义词汇。在官方网站上，提供了如下一种方法。该方法要求我们单独下载一个data目录，以及定义一个配置文件。下面我们就来看下如何操作。

首先，下载好上面的hanlp.jar后，在java工程师导入该包。同时在src目录下创建一个hanlp.properties配置文件，内容直接复制官网上的内容，但是注意修改两个地方。

其中myDictionary.txt是我们自己创建的一个词典文件，其内容为：

这时候，再运行方法1同样的代码，可看到如下结果中，也将“词分”、“自试” 分了出来。

注意，如果你不想显示/n /nr这样的记性，也可以将上述配置文件中最后一行

ShowTermNature=true

修改为

ShowTermNature=false

注意，这时候，运行成功的话，会在词典目录下生成一个词典缓存文件

图13

四、自定义词典文件 & mapreduce提交

写到这里，想必细心的人已经想到了，当我们希望将编辑好的mapreduce程序打成jar包，提交到集群上运行时，上面这种通过配置文件指定data目录的方法还可行吗？反正我是没有搞定。理论上，要么我们需要把data上传到集群上每个节点，要么把data直接打到jar包中。但是，这两种方法本人尝试都没有成功。最终，跟一位同事相互讨论后，借鉴了对方的方法。即我们猜想，portable版本自带了data数据，且不需要额外指定配置文件。而我们现在想做的就是添加了一些自定义词汇，那么，是否我们将其中的词典缓存文件替换掉，就行了呢？动手试下才知道嘛。这次不通过maven来管理依赖，直接下载portable版本的jar包，然后打开压缩文件，删除data\dictionary\custom目录下的CustomDictionary.txt.bin文件，然后将上一步运行成功的CustomDictionary.txt.bin粘贴进去！将工程打成jar包，再通过命令行进入其所在目录，执行java -jar 包名，发现可以执行成功。然后，为了测试是否对这个绝对路径有依赖，我们故意将该jar包剪切到 d:\ ，再执行一下，发现同样是成功的。

具体到提交到集群上运行，我们就不赘述了。这个方法虽然土一些，但至少是可用的。

文章转载自 a_step_further 的博客（有小幅改遍）

微信关注我们

原文链接：https://yq.aliyun.com/articles/652555

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）

title:Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）author: 易伟平time: 2018/07/26order: 6comment: 本文将为大家展示饿了么大数据平台在实时计算方面所做的工作，以及计算引擎的演变之路，你可以借此了解Storm、Spark、Flink的优缺点。如何选择一个合适的实时计算引擎？Flink凭借何种优势成为饿了么首选？本文将带你一一解开谜题。平台现状下面是目前饿了么平台现状架构图： 01.jpg 来源于多个数据源的数据写到kafka里，计算引擎主要是Storm,Spark和Flink，计算引擎出来的结果数据再落地到各种存储上。目前Storm任务大概有100多个，Spark任务有50个左右，Flink暂时还比较少。目前我们集群规模每天数据量有60TB，计算次数有1000

2018-10-14

811

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。目前国内的hadoop商业发行版也是比较多，这些hadoop商业版大部分都是由国外发行的，纯国产的发行版不是很多，比如DKhadoop，可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构！图示：DKhadoop技术技术架构图 hadoop框架结构核心： hadoop的框架结构最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。大数据一体化开发框架： ...

2018-10-14

574

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。