NLP学习------HanLP使用实验-低调大师

NLP学习------HanLP使用实验

2018-10-14 627

在之前的实验中得到了不在词向量里的词与分词结果，结果有500多个词不在词向量里，解决方案就是重新分词，或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词，会比不同工具（jieba）的效果要好，因为都是同一模式的分词，分出来的词应该都会存在于大型语料库中。实验证明思路是对的，最后结果是只有60几个词不在词向量里，其中大部分为名词，还有些为因语音翻译问题所造成的出错连词，所有这些词也只出现一次，这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤，因为此后模型会用到词向量，如果未出现词过多，会影响词向量效果。

问题：不过最后HANLP分词影响了实验判断结果，准确率从93%（jieba分词，同模型同参数）下降到90%。

实验：使用HanLP分词1

1,前期准备，（环境ubuntu，python3）安装JAVA-10[3]（hanlp是JAVA开发的，即使使用python调用pyhanlp需要借助java）, jpype（python中虚拟java环境），hanlp（开源中文处理工具，不只是分词还有各种工具），hanlp的root路径配置及data数据包放置[4]

2,主要程序[5]

w2v_model = KeyedVectors.load_word2vec_format(w2vpath, binary=False, unicode_errors='ignore') # 加载词向量
hanlppath="-Djava.class.path=/media/glados/Learning/project/NLP/hanlp/hanlp-1.6.4.jar:/media/glados/Learning/project/NLP/hanlp/"
jp.startJVM(jp.getDefaultJVMPath(), hanlppath) # , "-Xms1g", "-Xmx1g") # 启动JVM, Xmx1g分配1g内存
jp.JClass('com.hankcs.hanlp.HanLP$Config').ShowTermNature = False # 关闭分词属性显示
HanLP = jp.JClass('com.hankcs.hanlp.HanLP') #普通分词模式
words = str(HanLP.segment(sentence)) #分词将结果转为str
words = re.sub('[反斜杠[反斜杠],n]', ' ', words) # 这里注意实际程序是单，在blog里会出问题，所以用反斜杠替代
words = words.split()
words = del_stopword(words)
...
jp.shutdownJVM() # 最后关闭java虚拟环境

使用的是HANLP的普通分词功能，另外需注意，hanlp.segment()不能直接输出或赋值给python，因为其是java环境中数据，所以只有转为str（）后，再进行处理，否则会报错#A fatal error。（另外还有其他java与python数据对应问题，在这里没遇到，请参考其他）

词向量选用的是“Mixed-large综合”[6]，其包括百度wiki百科、人民日报等，总共1293214个词。

Hanlp的中部份功能没法使用，例如精确分词CRF。另外，要先加载词向量再加载java虚拟环境。#A fatal error has been detected by the Java Runtime Environment

3,实验结果

model

num_topic

limit

F1

accuracy

precision

recall

tflsi

3

0.45

0.888888889

0.902173913

0.9

0.87804878

（模型使用的是特征为tfidf的lsi模型，参数：num_topics=3, 判断是否相似阀值为0.45,即大于0.45为true相似）

同模型同参数下，jieba分词结果

jieba分词未出现在词向量的约500多，有些词出现了好几次，而hanlp分词只有60几个未出现，且多数为名词，只出现过一次。

4,分析
在样本中，所有样本分词结果jieba比hanlp要多分出100个词左右。所以推测因hanlp分词细粒度大，分出词少，导致较少的共现词出现（也可能是hanlp分词精度更高，分出很多虚词被停止词表过滤造成），也就是说，lsi+tfidf模型对词细粒度大、分词少的分词器不友好，所以最后hanlp出错率更大。

jieba与hanlp都是很不错的分词器，结巴使用更方便。hanlp准确度要高一些（感觉），而且与文中提到的词向量相匹配。

（我免贵姓AI，jieba：我免/贵姓/AI，hanlp：我/免/贵姓/AI，实际：我/免贵/姓AI）
参考资料：
[[自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁]](https://github.com/hankcs/HanLP)
文章来源于gladosAI的博客

微信关注我们

原文链接：https://yq.aliyun.com/articles/652600

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

谈一谈python中的魔法变量*args和**kwargs

导读最近看了看github大佬写的代码后，发现自己之前写的代码就是个，没有注释，没有封装，没有可读性。哎，幸亏发现及时，现在正在写一个新的任务，刚好可以好好弄弄架构和代码了在弄代码期间发现了*args和**kwargs这两个参数大佬们有时候经常用，当然最多的其实是在阅读python自己的源代码的时候最长见了，今天我终于了解清楚它们到底是啥了，大家一起来看！小小声明先弄个声明哈，*args和**kwargs这种写法不是必须的，只有前面的 * 才是必须的。当然你也可以写成*var和**vars，而写成*args和**kwargs是一个约定俗成的一个命名规范而已。 *args的用法 *args和**kwargs主要用于函数定义。功能是将不确定数量的参数传递给一个函数。这里说说*args，它是用来发送一个非键值对的可变数量的参数列表给一个函数。吃个栗子： def test_var_args(f_arg, *args): print("first normal arg:", f_arg) for arg in args: print("another arg through *arg...

2018-10-14

695

阿里云总监系列课重磅上线！聚焦人工智能、弹性计算、数据库等热门领域，首次集齐12位阿里云技术高管，耗时半年精心打磨，从理论到实践倾囊相授，从零开始绘制技术大牛成长路径。第二期《如何打造智能语音交互爆款产品？》特邀阿里云资深算法专家鄢志杰，与志杰老师带领的机器智能技术实验室团队共同为大家带来干货分享。课程简介：智能语音交互产品的自研门槛究竟有多高？三大核心要素——算法、算力和数据又该如何优化？如何让智能语言交互产品具备自学习能力，改善用户体验？本节课程将从入门到应用，抽丝剥茧，为开发者们详解智能语音交互技术产品和应用场景。课程讲师简介：鄢志杰，阿里云资深算法专家，人机交互首席科学家。毕业于中科大讯飞语音实验室，获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文，长期担任语音领域顶级学术会议及期刊的专家评审，并拥有多项美国及PCT专利，目前是IEEEsenior member。课程大纲：一、IoT时代的语音交互智能 1.人机交互界面的变迁 2.拥抱IoT时代 3.IoT时代...

2018-10-14

704

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。