HanLP-朴素贝叶斯分类预测缺陷-低调大师

HanLP-朴素贝叶斯分类预测缺陷

2019-07-21 700

文章整理自 baiziyu 的知乎专栏，感兴趣的朋友可以去关注下这位大神的专栏，很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章，整理了一下分享给给大家，文章已做部分修改！

朴素贝叶斯分类时，最好取对数变相乘为相加，防止预测结果溢出。可能出现的badcase就是明明训练语料X类目下没有词语t，而系统就将文本预测为X类目。解决方法就时改相乘为取对数相加。HanLP的朴素贝叶斯分类计算没有用对数相加的方法，而是直接用的概率相乘，很有可能溢出。

对上述内容做一些更正，HanLP的朴素贝叶斯是按照概率取对数相加做的。
看一下下边的代码

@Override

public double[] categorize(Document document) throws IllegalArgumentException, IllegalStateException
{
    Integer category;
    Integer feature;
    Integer occurrences;
    Double logprob;

    double[] predictionScores = new double[model.catalog.length];
    for (Map.Entry<Integer, Double> entry1 : model.logPriors.entrySet())
    {
        category = entry1.getKey();
        logprob = entry1.getValue(); //用类目的对数似然初始化概率

        //对文档中的每个特征
        for (Map.Entry<Integer, int[]> entry2 : document.tfMap.entrySet())
        {
            feature = entry2.getKey();

            if (!model.logLikelihoods.containsKey(feature))
            {
                continue; //如果在模型中找不到就跳过了
            }

            occurrences = entry2.getValue()[0]; //获取其在文档中的频次

            logprob += occurrences * model.logLikelihoods.get(feature).get(category); //将对数似然乘上频次
        }
        predictionScores[category] = logprob;
    }

    if (configProbabilityEnabled) MathUtility.normalizeExp(predictionScores);
    return predictionScores;
}

这么看来，之前遇到的下边的这个badcase就还要再分析
[1] 化验指标一变化患者就六神无主，看医生怎么讲解
核心词：患者看医生
这里“患者”和“看医生”两个词都没在“艺术”类训练语料中出现，但是预测概率最大的反倒是“艺术”。
由于用PyHanLP没法看到预测概率的计算过程，所以还是把Python的分类预测代码改为Java代码调式看一下。今天移植了预处理，资源加载，人工干预部分的代码，明天把剩余预测部分移植为Java再来看这个badcase。这就是朴素贝叶斯的优势，分析起来非常清晰容易。不过从PyHanLP的预测输出概率值来看，不太像是取了对数相加得到的，因为都是0-1之间的数值，这一看就是概率值。

微信关注我们

原文链接：https://yq.aliyun.com/articles/710137

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一个阿里产品经理眼中的“垃圾分类” | 7月12号云栖夜读

点击订阅云栖夜读日刊，专业的技术干货，不容错过！阿里专家原创好文 1.一个阿里产品经理眼中的“垃圾分类” 我叫切斯，是阿里巴巴的一名产品经理。今天和大家说说一个上线刚刚6天，已被500多万网友疯玩的AI——垃圾图像识别，可见垃圾分类苦天下网友久矣。以下是一个产品经理的碎碎念~ 阅读更多》》 2.QPS 提升60%，揭秘阿里巴巴轻量级开源 Web 服务器 Tengine 负载均衡算法在阿里七层流量入口接入层（Application Gateway）场景下， Nginx 官方的Smooth Weighted Round-Robin（ SWRR ）负载均衡算法已经无法再完美施展它的技能。 Tengine 通过实现新的负载均衡算法Virtual Node Smooth Weighted Round-Robin（VNSWRR ）不仅优雅的解决了 SWRR 算法的缺陷，而且QPS处理能力相对于 Nginx 官方的 SWRR 算法提升了60%左右。阅读更多》》 3.Aliyun Serverless VSCode Extension 上架并开源 Aliyun Serverless VSCode ...

2019-07-11

808

概述本文主要演示基于阿里云现有通用Http Go SDK调用阿里云新版人脸识别服务，分别DetectFace方法使用图片URL、VerifyFace方法使用本地为示例演示。环境准备 1、Go语言版本 go version go1.12.7 windows/amd64 2、IDE LiteIDE 3、SDK安装 go get -u github.com/aliyun/alibaba-cloud-sdk-go/sdk 测试代码 1、DetectFace Sample // demo1 project main.go package main import ( "fmt" "github.com/aliyun/alibaba-cloud-sdk-go/sdk" "github.com/aliyun/alibaba-cloud-

2019-07-21

710

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。