几种常见的中文分词包的分析与比较-低调大师

几种常见的中文分词包的分析与比较

2016-04-16 698

1：中文分词简介

2：Lucence的中文分词

3：庖丁分词简介

4：IK中文分词简介

一：中文分词简介

1：分词算法分类

-----基于字符串匹配的中文分词方法

eg：句子：我来自沈阳航空航天大学

词典：沈阳航空航天大学沈阳航空航天大学

匹配字段：

匹配结果：

选取词典中最长字段作为分词起始的最长步伐，可知最长为8

首先在句子中以“我”为起点，数八个字“我来自沈阳航空航”在词典中没有匹配到，然后步长减一，为7

然后数七个字“我来自沈阳航空”同样在字典中没有匹配到，步长减一，为6

........

步长为1时依然没有匹配到，但是是单音节词了，所以存放在匹配结果中

以此执行，下一次从“是”开始......

所以最终的匹配结果是：我来自沈阳航空航天大学沈阳航空航天大学

------基于理解的分词方法

类似于人工智能分词了，能够自动识别词语的意思，进行分词

------基于统计的分词方法

这里有一篇关于基于统计分词的文章讲的相当详细，大家可以参考以下：http://www.cnblogs.com/xingyun/archive/2013/01/10/2854397.html

2：两大难题

----歧义识别

----新词识别

3：应用

----搜索引擎

----自然语言处理

二：Lucence的中文分词

1：基于字符串匹配的分词

----paoding

----mmseg4j：MMseg算法

----IK：正向迭代最细粒度划分算法

2：基于统计的分词

----imdict：采用隐马尔可夫模型

三：庖丁分词简介

极具有高效性和可扩展性，采用完全的面向对象设计，构思先进

主页：http://code.google.com/p/paoding

优点：

自定义词库，通过修改paoding-analysis.jar中的paoding-dic-home.properties文件中的“paoding.dic.home=dic”定义自己的词库

能够对未知的词汇进行合理的分析，分词效率高

部署：

下载地址：http://pan.baidu.com/s/1eQ88SZS

1. 配置dic文件：

修改paoding-analysis.jar中的paoding-dic-home.properties文件，将“#paoding.dic.home=dic”的注释去掉，并配置成自己dic文件的本地存放路径。eg：/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中：

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中，这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术

3：代码实例

package tokens;

import java.io.IOException;
import java.io.StringReader;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;

public class tokens {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String text = "本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。";
		//定义一个解析器
		Analyzer analyzer = new PaodingAnalyzer();
		
		//得到token序列的输出流
		TokenStream tokens = analyzer.tokenStream(text, new StringReader(text));
		try{
			Token t;
			while((t=tokens.next() ) !=null){
				System.out.println(t);
                                //System.out.println(t.termText())  输出单个词
			}
		}catch(IOException e){
			e.printStackTrace();
		}
	}

}

4：分词结果

四：IK中文分词简介

请参考之前的一篇博客：http://blog.csdn.net/gamer_gyt/article/details/47168877

微信关注我们

原文链接：https://yq.aliyun.com/articles/413114

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

方倍工作室微信相关代码下载方法

一、微信扫描关注微信公众账号二、购买了《微信公众平台开发最佳实践》图书的读者回复“图书代码”，将显示图书配套代码的下载地址及链接三、免费代码下载地址如下所示。可下载的代码内容列表及关键字如下所示。关键字内容需要积分代码1219 微信全能基础消息类型 10 代码1218 微信全能自定义菜单 50 代码1217 微信-天气预报 20 代码1216 微信-聊天机器人 10 代码1215 微信-四六级查询 50 代码1214 微信-人脸识别 99 代码1213 微信模板消息 50 代码1212 微信调数据库示例 90 代码1211 仿朋友圈效果代码 10 代码1210 PHP开发视频教程 1 代码1209 小程序贪吃蛇 1 代码1202 小程序bootstrap字体 1 代码1201 小程序上传实例 1 代码1200 小程序-修改长连接 1 代码1199 微信小程序框架图 1 代码1198 微信小程序-淘宝 1 代码1197 微信小程序-外卖demo 1 代码1196 小程序图片演示demo 1 代码1195 小程序文章信息流 1 代码1194 微信小程序-闹钟应用 1 ...

2016-03-25

801

一、概述在日常生活中或者科学试验中，很多的事情发生都具有一定的随机性，即最终产生的结果是随机发生的，我们不清楚这些结果是否服从什么规律，我们所拥有的只有一些实验样本，在这种情况下，我们如何根据现拥有的东西对结果产生一个合理的推断呢？最大熵方法就是解决这种问题的一个方法。最大熵原理是有E.T.Jaynes在1957年提出的，其基本思想如下：在只掌握未知部分的部分知识时，我们应该选取符合这些知识并且熵值最大的概率分布。熵从定义上来说就是一个随机变量的不确定性，熵值最大即不确定性最大。从这方面来看，最大熵原理实质上就是在满足已知所有的知识前提下，对于未知的分布应该是自己最不能确定或者最随机的分布，因为只有这样，最终的分布才能代表一个最公平的选择，任何带有主观性的选择其实质上就是为模型加入了约束条件，而这些条件都是根据目前已知信息所无法得出的。目前最大熵原理在自然语言处理上已经得到了极大的应用。由于最大熵模型可以将不同源的信息集中到一个框架下进行综合考虑，所以在解决一些复杂问题时体现出极大的优势。也因此，自Della Pietra在1992年首度用最大熵原理进行语言处理，现在越来越多的学...

2016-05-07

662

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。