词形变换和词干提取工具(英文)
在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率。例如:词根run有不同的形式running、ran另外runner也和run有关。这里涉及到两个概念: 词形变化:把一个任何形式的语言词汇还原为一般形式。(比如:cats--->cat,did--->do) 词干提取:去除词缀得到词根的过程。(比如fisher--->fish,effective--->effect ) 下面介绍几个用着不错的工具包: 词形变换 TreeTagger TreeTagger可以分析出文本中单词的词性(pos)和词语原型(时态变换、单复数变换) 示例 Tom has left Beijing for about 100 days. 解析结果 注意 不能解析的结果为<unknown> 数字不能解析的结果为@card@ 可以处理的语言有英语、德语、法语 官网 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 使用(linux环境下) 下载工具包解压后进入目录cmd/,假设...