NLPIR文本智能分词是语义挖掘的关键
词法分析是自然语言处理的基础与关键。在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。一个自然语言处理系统必须考虑许多语言自身与结构方面的知识——如什么是词、词如何组成句子、词的意义是什么、词的意义对句子意义有什么贡献等,但这些却还是远远不够的。比如一个系统如果要回答提问或者直接参与对话,它不仅需要知道很多语言结构的知识,而且还要知道人类世界的一般性知识并具备人类的推理能力。因此许多语言学家通常把对语言的分析和理解分成如下几个主要层次:词法分析、句法分析、语义分析、篇章分析。首先,词法分析——主要包括分词、词性标注、词义消歧、新词识别等——是通过分词、词频和位置统计等手段获得相关语言信息。其次,句法分析通过使句子成分特征化来分析句子结构特征,通过对句子和短语结构的分析找出词、短语等的相互关系以及各自在句中的作用,并以一定...
