热门中文分词系统调查报告
**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 目录 常见的分词系统介绍 ICTCLAS(NLPIR) MMSEG4J IK Analyzer LTP-cloud paoding 常见的分词系统简介 ICTCLAS 简介 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。 网址:http://ictclas.nlpir.org/ 主要功能包括: 中文分词; 词性标注; 命名实体识别; 用户词典功能; 支持GBK编码、UTF8编码、BIG5编码; 支持Windows,Linux,Android等操作系统; 支持Java/C++/C#/C等开发。 在线演示 中文分词 实体抽取 词频统计 MMSEG4J **mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文...