基于结构化平均感知机的分词器Java实现-低调大师

基于结构化平均感知机的分词器Java实现

2019-01-13 639

基于结构化平均感知机的分词器Java实现

最近高产似母猪，写了个基于AP的中文分词器，在Bakeoff-05的MSR语料上F值有96.11%。最重要的是，只训练了5个迭代；包含语料加载等IO操作在内，整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后，F值才下降不到0.1个百分点，体积控制在11兆。如果训练一百个迭代，F值可达到96.31%，训练时间两分多钟。

数据在一台普通的IBM兼容机上得到：

本模块已集成到HanLP 1.6以上版本开源，文档位于项目wiki中，欢迎使用！【hanlp1.7新版本已经发布，可以去新版本查到看使用】

结构化预测

关于结构化预测和非结构化预测的区别一张讲义说明如下：

更多知识请参考Neubig的讲义《The Structured Perceptron》。

本文实现的AP分词器预测是整个句子的BMES标注序列，当然属于结构化预测问题了。

感知机

二分类

感知机的基础形式如《统计学习方法》所述，是定义在一个超平面上的线性二分类模型。作为原著第二章，实在是简单得不能再简单了。然而实际运用中，越简单的模型往往生命力越顽强。

这里唯一需要补充的是，感知机是个在线学习模型，学习一个训练实例后，就可以更新整个模型。

多分类

怎么把二分类拓展到多分类呢？可以用多个分类器，对于BMES这4种分类，就是4个感知机了。每个感知机分别负责分辨“是不是B”“是不是M”“是不是E”“是不是S”这4个二分类问题。在实现中，当然不必傻乎乎地创建4个感知机啦。把它们的权值向量拼接在一起，就可以输出“是B的分数”“是M的分数”“是E的分数”“是S的分数”了。取其最大者，就可以初步实现多分类。但在分词中，还涉及到转移特征和HMM-viterbi搜索算法等，留到下文再说。

平均感知机

平均感知机指的是记录每个特征权值的累计值，最后平均得出最终模型的感知机。为什么要大费周章搞个平均算法出来呢？

前面提到过，感知机是个在线学习模型，学习一个训练实例后，就可以更新整个模型。假设有10000个实例，模型在前9999个实例的学习中都完美地得到正确答案，说明此时的模型接近完美了。可是最后一个实例是个噪音点，朴素感知机模型预测错误后直接修改了模型，导致前面9999个实例预测错误，模型训练前功尽弃。

有什么解决方案呢？一种方案是投票式的，即记录每个模型分类正确的次数，作为它的得票。训练结束时取得票最高的模型作为最终模型。但这种算法是不实际的，如果训练5个迭代，10000个实例，那么就需要储存50000个模型及其票数，太浪费了。

最好用的方法是平均感知机，将这50000个模型的权值向量累加起来，最后除以50000就行了，这样任何时候我们只额外记录了一个累加值，非常高效了。关于平均感知机的详情请参考《200行Python代码实现感知机词性标注器》。虽然那篇文章是讲解词性标注的，但相信作为万物灵长的读者一定拥有举一反三的泛化能力。

语言模型

HMM

我们不是在讲解感知机分词吗？怎么跟HMM扯上关系了？

其实任何基于序列标注的分词器都离不开隐马尔科夫链，即BMES这四个标签之间的Bigram（乃至更高阶的n-gram）转移概率。作为其中一员的AP分词器，也不例外地将前一个字符的标签作为了一个特征。该特征对预测当前的标签毫无疑问是有用的，比如前一个标签是B，当前标签就绝不可能是S。

这种类似于y[i-1]的特征在线性图模型中一般称为转移特征，而那些不涉及y[i-1]的特征通常称为状态特征。

viterbi

由于AP分词器用到了转移特征，所以肯定少不了维特比搜索。从序列全体的准确率考虑，搜索也是必不可少的。给定隐马尔可夫模型的3要素，我用Java写了一段“可运行的伪码”：

上述实现是个重视条理胜于效率的原型，古人云“过早优化是魔鬼”。相信聪明的读者一定能看懂这里面在干什么。

特征提取

定义字符序列为x，标注序列为y。

转移特征

转移特征就是上面说的y[i-1]。

状态特征

我一共使用了7种状态特征：

在邓知龙的《基于感知器算法的高效中文分词与词性标注系统设计与实现》中提到，要利用更复杂的字符n-gram、字符类别n-gram、叠字、词典等特征。但在我的实践中，除了上述7种特征外，我每减少一个特征，我的AP分词器的准确率就提高一点，也许是语料不同吧，也许是特征提取的实现不同。总之，主打精简、高效。

训练

迭代数目其实不需要太多，在3个迭代内模型基本就收敛了：

第4个迭代似乎帮了倒忙，但万幸的是，我们使用的是平均感知机。权值平均之后，模型的性能反而有所提升。

此时模型大小：

模型裁剪

《基于感知器算法的高效中文分词与词性标注系统设计与实现》提到的模型裁剪策略是有效的，我将压缩率设为0.2，即压缩掉20%的特征，模型准确率没有变化：

由于我使用了随机shuffle算法，所以每次训练准确率都略有微小的上下波动。此时可以看到模型裁剪过程花了额外的1分钟，裁剪完毕后准确率维持96.11不变。

此时模型大小：

裁减掉50%如何呢？

此时模型大小：

可见裁剪了80%的特征，体积从54M下降到11M，模型的准确率才跌了不到0.1个百分点！这说明大部分特征都是没用的，特征裁剪非常有用、非常好用！

Reference

邓知龙《基于感知器算法的高效中文分词与词性标注系统设计与实现》

微信关注我们

原文链接：https://yq.aliyun.com/articles/686736

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

JavaScript是如何工作的：渲染引擎和优化其性能的技巧

摘要：理解浏览器渲染。这是专门探索 JavaScript 及其所构建的组件的系列文章的第11篇。如果你错过了前面的章节，可以在这里找到它们： JavaScript 是如何工作的：引擎，运行时和调用堆栈的概述！ JavaScript 是如何工作的：深入V8引擎&编写优化代码的5个技巧！ JavaScript 是如何工作的：内存管理+如何处理4个常见的内存泄漏 ! JavaScript 是如何工作的：事件循环和异步编程的崛起+ 5种使用 async/await 更好地编码方式！ JavaScript 是如何工作的：深入探索 websocket 和HTTP/2与SSE +如何选择正确的路径！ JavaScript 是如何工作的：与 WebAssembly比较及其使用场景 ! JavaScript 是如何工作的：Web Workers的构建块+ 5个使用他们的场景! JavaScript 是如何工作的：Service Worker 的生命周期及使用场景! JavaScript 是如何工作的：Web 推送通知的机制! JavaScript是如何工作的:使用 MutationObse...

2019-01-13

634

这个文章主要描述在cheerp环境下， js和c++侧数据类型的转换和包装内容。 1 基础数据类型首先我们知道javascript是弱类型的脚本语言，开发者在开发的时候不必关注数据的类型和边界，而c++是静态编程语言，在编译阶段就需要确定类型，在编译器处理的时候可以获得更好的优化。我们都知道js所拥有的数值类型，（int，uint，float，double）默认不区分都是double类型存储，这点和lua很相似。在一般堆栈机下，如果使用函数调用会有大量的push，pop指令来获取传递的参数，还要在内部进行根据类型包装成可识别的类型。 cheerp的内存模型是平坦的，目标如果不是wasm的话，是和js一致的，可以直接调用（翻译成javascript，不需要push，pop这种指令）。在cheerp环境下如果交织javascript和c++代码， cheerp会通过位移移除来替我们处理类型，比如int类型，用js的Number左移两位来标识。我们可以不关心这些基础数据的转换。 2复合数据类型如果是js模式，cheerp会将js对象转换成struct，或者是class类的映射...

2019-01-13

600

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。