目前常用的自然语言处理开源项目/开发包大汇总
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,; 英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp 相关问题&文章: (1)如何用 Python 中的 NLTK 对中文进行分析和处理? 这个问题下的回答也详说了其他的语音处理包 (2)中文分词项目总结 详细介绍 HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 开发语言:Java 网址:hankcs/HanLP 开发机构:大快搜索 协议:Apache-2.0 功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转...