自然语言处理工具hanlp自定义词汇添加图解-低调大师

自然语言处理工具hanlp自定义词汇添加图解

2019-01-26 629

过程分析

1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件

2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。

3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常，然后加载词典生成缓存文件，最后处理字符进行分词就会发现新添加的词汇可以进行分词了。

操作过程图解：

1、有缓存文件的情况下:

1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊，一半天欢迎使用HanLP汉语处理包！" +"接下来请从其他Demo中体验HanLP丰富的功能~"))

2

3 //首次编译运行时，HanLP会自动构建词典缓存，请稍候……

4 //[张/q, 三丰/nz, 在/p, 一起/s, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ，/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, ！/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]

5

6

1.Â 打开用户词典–添加 ‘张三丰在一起’ 为一个 nz词性的新词

2.2 原始缓存文件下运行–会发现不成功，没有把 ‘张三丰在一起’ 分词一个nz词汇

1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊，一半天欢迎使用HanLP汉语处理包！" +"接下来请从其他Demo中体验HanLP丰富的功能~"))

2

3 //首次编译运行时，HanLP会自动构建词典缓存，请稍候……

4 //[张/q, 三丰/nz, 在/p, 一起/s, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ，/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, ！/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]

5

3.1 删除缓存文件 bin

3.2 再次运行程序，此时会报错—无法找到缓存文件

1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊，一半天欢迎使用HanLP汉语处理包！" +"接下来请从其他Demo中体验HanLP丰富的功能~"));

2

3 /**首次编译运行时，HanLP会自动构建词典缓存，请稍候……

4 十月 19, 2018 6:12:49 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

5 WARNING: 读取D:/datacjy/hanlp/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: D:\datacjy\hanlp\data\dictionary\custom\CustomDictionary.txt.bin (系统找不到指定的文件。) 找不到缓存文件

6

7

8 [张三丰在一起/nz, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ，/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, ！/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]

9

10 */

微信关注我们

原文链接：https://yq.aliyun.com/articles/689042

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

可应用于实际的14个NLP突破性研究成果（一）

语言理解对计算机来说是一个巨大的挑战。幼儿可以理解的微妙的细微差别仍然会使最强大的机器混淆。尽管深度学习等技术可以检测和复制复杂的语言模式，但机器学习模型仍然缺乏对我们的语言真正含义的基本概念性理解。但在2018年确实产生了许多具有里程碑意义的研究突破，这些突破推动了自然语言处理、理解和生成领域的发展。我们总结了14篇研究论文，涵盖了自然语言处理（NLP）的若干进展，包括高性能的迁移学习技术，更复杂的语言模型以及更新的内容理解方法。NLP，NLU和NLG中有数百篇论文，由于NLP对应用和企业AI的重要性和普遍性，所以我们从数百篇论文中寻找对NLP影响最大的论文。 2018年最重要的自然语言处理（NLP）研究论文 1.BERT：对语言理解的深度双向变换器的预训练，作者：JACOB DEVLIN，MING-WEI CHANG，KENTON LEE和KRISTINA TOUTANOVA 论文摘要：我们引入了一种名为BERT的新语言表示模型，它是Transformer的双向编码器表示。与最近的语言表示模型不同，BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此，预训...

2019-01-26

746

说明以下库都可以在python测试开发库中找到，github地址：https://github.com/china-testing/python-api-tesing 相关书籍：https://china-testing.github.io/python_books.html 核心库 NumPy Numerical Python的缩写，专为数学运算而设计。支持用于复杂算术运算的多维数组和向量。还具有丰富的函数集，可以对支持的数据类型执行代数运算。能与其他编程语言(如C / C ++，FORTRAN和数据库管理系统)的互操作。而且，由于提供的函数是预编译的，效率高。 SciPy的基于NumPy，提供集成，回归和概率等高级操作。子模块组织有层次结构，手册很好。 Pandas Python Data Analysis Library可根据需要帮助组织各种参数的数据。各种内置数据类型(如serie，frame和panels)使Pandas成为数据科学家中最受欢迎的库。帧表格格式允许对数据进行类似数据库的添加/删除操作，分组很容易。此外，Pandas提供了三维面板数据结构，有助...

2019-01-27

640

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。