HanLP 自然语言处理 for nodejs
·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)
环境要求
java 1.8
nodejs >= 6
docker
·build image
cd node-hanlp
./scripts/build-docker-image.sh
Or pull image
docker pull samurais/hanlp-api:1.0.0
· start container
docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0
·access service
POST /tokenizer HTTP/1.1
Host: localhost:3002
Content-Type: application/json
{
"type": "nlp",
"content": "刘德华和张学友创作了很多流行歌曲"
}
RESPONSE
{
"status": "success",
"data": [
{
"word": "刘德华",
"nature": "nr",
"offset": 0
},
{
"word": "和",
"nature": "cc",
"offset": 0
},
{
"word": "张学友",
"nature": "nr",
"offset": 0
},
{
"word": "创作",
"nature": "v",
"offset": 0
},
{
"word": "了",
"nature": "ule",
"offset": 0
},
{
"word": "很多",
"nature": "m",
"offset": 0
},
{
"word": "流行歌曲",
"nature": "n",
"offset": 0
}
]
}
·Other APIs
l tokenizer 分词
l keyword 关键词
l summary 摘要
l phrase 短语提取
l query 关键词、摘要
l conversion 简、繁、拼音转换
源码
node module
·Install
npm install node-hanlp
·Config
² 配置文件路径 node_modules/node-hanlp/lib/src-java/hanLP.proerties
² 请修改root为您的目录路径
² 词典文件目录 ./data
² 请下载词典 pan.baidu.com/s/1pKUVNYF 放入 ./data (约800MB文件) 目录下
·Usage
const Hanlp = require("node-hanlp");
//分词库初始化及配置
const HanLP = new Hanlp({
CustomDict : true, //使用自定义词典
NameRecognize : true, //中国人名识别
TranslatedNameRecognize : true , //音译人名识别
JapaneseNameRecognize : true, //日本人名识别
PlaceRecognize : true , //地名识别
OrgRecognize : true //机构名识别
});
let words = HanLP.Tokenizer("商品和服务");
标准分词 HanLP.Tokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.Tokenizer("商品和服务");
[
{ word: '商品', nature: 'n', offset: 0 },
{ word: '和', nature: 'cc', offset: 0 },
{ word: '服务', nature: 'vn', offset: 0 }
]
NLP分词 HanLP.NLPTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
[
{ word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '宗成庆', nature: 'nr', offset: 0 },
{ word: '教授', nature: 'nnt', offset: 0 },
...
]
索引分词 HanLP.IndexTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.IndexTokenizer("主副食品");
[
{ word: '主副食品', nature: 'n', offset: 0 },
{ word: '主副食', nature: 'j', offset: 0 },
{ word: '副食', nature: 'n', offset: 1 },
{ word: '副食品', nature: 'n', offset: 1 },
{ word: '食品', nature: 'n', offset: 2 }
]
CRF分词 HanLP.CRFTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
去除停用词分词 HanLP.NoStopWord( text )
@param String text [文本]
@ruten Object
let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
最短路分词 HanLP.ShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.ShortSegment("今天,liuzhijun案的关键人物,山西女商人dingshumiao在市二中院出庭受审。");
[
{ word: '今天', nature: 't', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: 'liushijun', nature: 'nr', offset: 0 },
{ word: '案', nature: 'ng', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '关键', nature: 'n', offset: 0 },
...
]
N-最短分词 HanLP.NShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");
[
{ word: '刘喜杰', nature: 'nr', offset: 0 },
{ word: '石国祥', nature: 'nr', offset: 0 },
{ word: '会见', nature: 'v', offset: 0 },
{ word: '吴亚琴', nature: 'nr', offset: 0 },
{ word: '先进', nature: 'a', offset: 0 },
...
]
极速词典分词 HanLP.SpeedTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");
[
{ word: '江西', offset: 0 },
{ word: '鄱阳湖', offset: 2 },
{ word: '干枯', offset: 5 },
{ word: ',', offset: 7 },
{ word: '中国', offset: 8 },
]
关键词提取 HanLP.Keyword( text , nTop )
@param String text [文本]
@param Number nTop [关键词个数,默认5个]
@ruten Object
let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);
[ '中国', '最大', '淡水湖' ]
短语提取 HanLP.Phrase( text , nTop )
@param String text [文本]
@param Number nTop [短语个数,默认3个]
@ruten Object
let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );
[ '中国最大', '变成草原' ]
提取文章摘要 HanLP.Summary( text , nTop )
@param String text [文本]
@param Number nTop [文章摘要条数,默认3条]
@ruten Object
let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"
let words = HanLP.Summary( text , 3);
[
'俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',
'格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',
'正在驶向美国军舰发射导弹攻击叙利亚的区域'
]
文本推荐 HanLP.Suggester( list, words, Ntop )
@param Array list 句子列表
@param Array words 词语
@param Number nTop 相似句子推荐个数,默认1个
@ruten Object
句子级别,从一系列句子中挑出与输入句子最相似的那一个
语义距离 HanLP.WordDistance( words )
@param Array words 词
@ruten Object
简繁转换 HanLP.ConversionFont( text , type )
@param String text 文本
@ruten String type 类型 jt简体|ft繁体,默认jt
@ruten String
拼音转换 HanLP.Pinyin( text , type )
@param String text 文本
@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone
@ruten Object
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
中文编程兴起的必然性
看到国人创造中文编程语言的优势一文的评论后, 此文基于个人视野, 从几个方面阐述中文编程兴起的必然性和展望. 下面是一些近十几年中的相关趋势. 对代码可读性的重视将会从大公司向小公司逐渐普及 在这个2010年的Quara回答《What-is-Googles-internal-code-review-policy-process》中, Google已经把可读性审核作为代码审核的一部分包括在了标准软件开发过程中, 就算国内迟十年开始, 相信不少国内大公司已经开始进行了或多或少的可读性审核, 而且已经意识到了英文水平和对单词理解偏差造成的额外开发维护成本, 只是暂时没有找到更合适和成熟的开发途径而已. 这个需求只会随着国内团队开发的日益成熟和项目生命期的变长而越来越大. 开源软件/思想的推广 多数现有的中文编程语言/工具都是闭源的. 而趋势是新语言从成型就开源. 国人已经有不少这样的尝试, 虽然绝大多数是英文编程语言, 但也有开源的中文编程语言了(国人创造中文编程语言的优势最后列表). 随着更多的开发者参与到中文编程语言设计的开源项目中, 诞生现象级的中文语法的编程语言只是时间问题, 个人的...
- 下一篇
盘它!10篇+阿里云技术经典案例,看完必收藏(下)
很多小伙伴反馈,说好的技术经典案例解读(下)去哪了,盼星星盼月亮,终于小编催各位技术大大把文章交上来了,小编也不知道这些文章有多牛,小编也不敢问,各位看官点了就知道,点击标题即可直接阅读。 DataV基础平面地图教程 DataV基础平面地图—地图数据不显示问题 DataV基础平面地图—区域热力层使用教程 使用cookie实现大屏数据“千人千面” 【OCR】企业实现全面“数据化”转型,这么做数据才有价值! 【智能语音】泡沫下的破浪者,智能语音产品到底落地何处? 【图像搜索】一图解千言,从兴趣意念直达搜索目标! 重磅公开!阿里语音识别模型端核心技术,让你“听”见未来 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍? 示范了200句后,我的声音“双胞胎”诞生了! DFSMN在阿里巴巴的应用以及如何采用开源代码训练DFSMN模型 Nmslib高维空间最近邻
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果