目前常用的自然语言处理开源项目/开发包大汇总-低调大师

目前常用的自然语言处理开源项目/开发包大汇总

2018-11-25 750

中文主要有：NLTK，FoolNLTK，HanLP（java版本），pyhanlp（python版本），Ansj，THULAC，结巴分词，FNLP，哈工大LTP，中科院ICTCLAS分词，GATE，SnowNLP，东北大学NiuTrans，NLPIR，；

英文主要有：NLTK，Genism，TextBlob，Stanford NLP，Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp

相关问题&文章：

（1）如何用 Python 中的 NLTK 对中文进行分析和处理？这个问题下的回答也详说了其他的语音处理包

（2）中文分词项目总结

详细介绍

HanLP：HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

开发语言：Java

网址：hankcs/HanLP

开发机构：大快搜索

协议：Apache-2.0

功能：非常多，主要有中文分词，词性标注，命名实体识别，关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析，文本分类：情感分析，word2vec，语料库工具

活跃度：github star 超过4千5，近期（201711）仍在保持更新

Ansj中文分词：一个基于n-Gram+CRF+HMM的中文分词的java实现.

开发语言：Java

网址：NLPchina/ansj_seg

协议：Apache License 2.0

功能：中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记

性能：分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上

活跃度：github star 数量超过3500，近期（2017.11）仍在保持更新

THULAC：一个高效的中文词法分析工具包，具有中文分词和词性标注功能。

开发语言：

网址：THULAC：一个高效的中文词法分析工具包

开发机构：清华大学自然语言处理与社会人文计算实验室

协议：研究目的免费开放源代码，商用目的需洽谈许可证

功能：中文分词和词性标注

感谢石墨用户@hain 的补充

Synonyms: 中文近义词工具包

开发语言：Python

开发机构：个人

协议：MIT

功能：获取近义词集合，句子相似度计算

性能：见网站

活跃度：～1k Star

结巴分词：Python中文分词组件

开发语言：Python

网址：fxsjy/jieba

开发机构：

协议：MIT授权协议

功能：中文分词

FNLP：FNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。

开发语言：

网址： FudanNLP/fnlp

开发机构：复旦

协议：LGPL3.0许可证。

功能：信息检索：文本分类新闻聚类；中文处理：中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别；结构化学习：在线学习层次分类聚类

Genism：Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

开发语言：Python

网址：RaRe-Technologies/gensim

协议：LGPL-2.1 license

活跃度：github star数超过五千，近期（201711）仍在更新

TextBlob：Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

开发语言：Python

网址：sloria/TextBlob

功能：情感分析、词性标注、翻译等

活跃度：github star 超过4千，近期（201711）仍在更新

Spacy：spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

开发语言：python

协议：MIT协议

功能：功能很多，如tagging, parsing and named entity recognition等

性能：功能强大，支持二十多种语言（然而目前还不支持中文，可以阅读官方文档了解更多信息https://spacy.io/usage/），号称是工业级强度的Python NLP工具包，区别于学术性质更浓的Python NLTK

活跃度：star 超过7千，近期（201711）仍非常活跃

作者：鉴津Jackie

微信关注我们

原文链接：https://yq.aliyun.com/articles/673113

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

[雪峰磁针石博客]python数据结构基础工具书籍下载-持续更新

算法图解 - 2017.pdf 本书示例丰富，图文并茂，以让人容易理解的方式阐释了算法，旨在帮助程序员在日常项目中更好地发挥算法的能量。书中的前三章将帮助你打下基础，带你学习二分查找、大O表示法、两种基本的数据结构以及递归等。余下的篇幅将主要介绍应用广泛的算法，具体内容包括：面对具体问题时的解决技巧，比如，何时采用贪婪算法或动态规划；散列表的应用；图算法；Kzui近邻算法。数据结构与算法__Python语言描述-2015.pdf 本书基于Python语言介绍了数据结构与算法的基本知识，主要内容包括抽象数据类型和Python面向对象程序设计、线性表、字符串、栈和队列、二叉树和树、集合、排序以及算法的基本知识。本书延续问题求解的思路，从解决问题的目标来组织教学内容，注重理论与实践的并用。 Python算法教程 - 2016.pdf Python是一种面向对象、解释型计算机程序设计语言，其应用领域非常广泛，包括数据分析、自然语言处理、机器学习、科学计算以及推荐系统构建等。本书用Python语言来讲解算法的分析和设计。本书主要关注经典的算法，但同时会为读者理解基本算法问题和解决问题打下很好...

2018-11-25

924

本文扩展了Herman Kamper和我在2018年深度学习Indaba组织的自然语言处理前沿课程。整个课程的幻灯片都可以在这里找到，这篇文章将主要讨论NLP中基于神经网络方法的近期进展。免责声明：本文尝试将大约15年NLP的发展历程浓缩为今天最相关的八个里程碑，因此遗漏了许多相关和重要的发展。特别是，它严重偏向于当前的神经方法，这可能给人留下此期间没有其他有影响力方法的错误影响。 2001年-神经语言模型语言建模是在给定前面的单词的情况下预测文本中的下一个单词的任务。它可能是最简单的语言处理任务，具有实际应用，如智能键盘和电子邮件响应建议（Kannan et al.,2016）。语言建模有着丰富的历史。基于n-gram的经典方法采用平滑处理看不见的n-gram（Kneser＆Ney,1995）。Bengio等人于2001年提出了

2018-11-26

650

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。