汉语言处理包 HanLP v1.3.5，新功能、优化与维护-低调大师

汉语言处理包 HanLP v1.3.5，新功能、优化与维护

2018-11-07 656

HanLP v1.3.5 更新内容：

大幅优化CRF分词和二阶HMM分词，重构CharacterBasedGenerativeModelSegment

自定义词典支持热更新：#563 ，ngram模型支持热加载：#580

新增一个提高用户词典优先级的开关：#633

支持98年人民日报的复合词语料格式，如"[中央/n 人民/n 广播/vn 电台/n]nt"

开放TextRank关键词提取中的最大迭代次数参数：#577

为Term添加equal方法

TextRankKeyword 提取窗口相近词的强化

文本摘要方法支持自定义句子分隔符

提高AC自动机健壮性，添加hasKeyword接口

修复BinTrie.remove不存在的key时导致的问题：#540

解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题：#542

CharTable.txt 添加上下标字符的对应关系

将“t”等不可打印的字符视作分隔符：#584

中文数词与阿拉伯数词切分开

修正全角年份识别中字符串长度错误，修正数字识别工具的错误，增加测试代码。支持读取包含BOM的文本文件。

校对CoreNatureDictionary.txt，删除以分号开头的错误词语:#221 (comment)

修复CoNLLWord中toString方法的bug

微调人名识别模型：#562 删除人名识别模型中的高频动词D标签，降低误命中率，音译人名识别取消外国地名触发

修复Nature.fromString和IOUtil.loadDictionary：#626

修正“还款”的拼音：#565 修正简繁一多对应校验表/梁→梁樑（樑為梁的異體字，由簡體轉為繁體時僅需採用梁即可）:#606

数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.5

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.3.5</version>
    </dependency>

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便，同时自带一些语料处理工具，帮助用户训练自己的模型。

文章来源于网络

微信关注我们

原文链接：https://yq.aliyun.com/articles/666063

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

详解文本分类之DeepCNN的理论与实践

导读最近在梳理文本分类的各个神经网络算法，特地一个来总结下。下面目录中多通道卷积已经讲过了，下面是链接，没看的可以瞅瞅。我会一个一个的讲解各个算法的理论与实践。目录暂定为：多通道卷积神经网络（multi_channel_CNN）深度卷积神经网络（deep_CNN）基于字符的卷积神经网络（Char_CNN）循环与卷积神经网络并用网络（LSTM_CNN）树状LSTM神经网络（Tree-LSTM） Transformer（目前常用于NMT） etc.. 之后的以后再补充。今天我们该将第二个，深度卷积神经网络（DeepCNN）。 DeepCNN DeepCNN即是深度卷积神经网络，就是有大于1层的卷积网络，也可以说是多层卷积网络（Multi_Layer_CNN，咳咳，我就是这么命名滴！）我们来直接上图，看看具体长得啥样子：我大概描述下这个过程，比如sent_len=10，embed_dim=100，也就是输入的矩阵为（10*100），假设kernel num=n，用了上下padding，kernel size=（3*100），那么卷积之后输出的矩阵为（n*10），接着再将该矩阵放...

2018-11-07

639

今天跟大家分享一下我平时阅读源码的几个小技巧，对于阅读Java中间件如Spring、Dubbo等框架源码的同学有一定帮助。本文基于Eclipse IDE，我们每天都使用的IDE其实提供了很多强大的功能，掌握它们，往往能够事半功倍。热点热议干货：阅读跟踪 Java 源码的几个小技巧！作者：技术小能手发表在：Java技术栈阿里巴巴数据中心双11守夜人：把机器当“媳妇”，愿做亿万网友背后的男人作者：技术小能手发表在：阿里巴巴基础设施作为一名IT从业者，究竟应不应该转型AI 作者：技术小能手发表在：SDNLAB 知识整理详解文本分类之DeepCNN的理论与实践作者：技术小能手发表在：深度学习自然语言处理 TensorFlow系列专题（六）：实战项目Mnist手写数据集识别作者：技术小能手发表在：磐创AI 分库分表技术演进&最佳实践作者：技术小能手发表在：程序员DD 记一次MongoDB故障排查的过程作者：技术小能手发表在：数据和云 Spring中获取request的方法及其线程安全性分析作者：技术小能手发表在：Java乐园美文回顾教你十分钟构建好 Spri...

2018-11-07

708

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。