贝叶斯分类算法实例 --根据姓名推测男女-低调大师

贝叶斯分类算法实例 --根据姓名推测男女

2018-11-28 616

一.从贝叶斯公式开始

贝叶斯分类其实是利用用贝叶斯公式，算出每种情况下发生的概率，再取概率较大的一个分类作为结果。我们先来看看贝叶斯公式：

P(A|B) = P(B|A) P(A) / P(B)

其中P(A|B)是指在事件B发生的情况下事件A发生的概率。

在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
P(A)是A的先验概率（或边缘概率）。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率。

这里可以用一个例子来说明这个公式。

看一个简单的小例子来展示贝叶斯定理

病人的例子：
某个医院早上收了八个门诊病人，如下表。

症状	职业	疾病
打喷嚏	护士	感冒
打喷嚏	农夫	过敏
头痛	建筑工人	脑震荡
头痛	建筑工人	感冒
打喷嚏	建筑工人	过敏
打喷嚏	教师	感冒
头痛	教师	脑震荡
打喷嚏	教师	过敏

现在又来了第九个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？

根据贝叶斯定理：

P(A|B) = P(B|A) P(A) / P(B)

可得满足“打喷嚏”和“建筑工人”两个条件下，感冒的概率如下：

 P(感冒|打喷嚏x建筑工人)
= P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人)

假定"打喷嚏"和"建筑工人"这两个特征是独立的（即这两个条件没有相关性，比如不存在说他是建筑工人他打喷嚏的概率比较大或者比较小这种关系），因此，上面的等式就变成了。

 P(感冒|打喷嚏x建筑工人) 
　= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) /  P(打喷嚏) x P(建筑工人)

通过统计可得：

 P(感冒|打喷嚏x建筑工人) 
　= (2/3) x (1/3) x (3/8) / (5/8) x (3/8) 
　= (16/45)

通过贝叶斯公式算出了满足条件下感冒的概率，那么现在贝叶斯分类器如何实现呢？

接上面的例子，从上面我们得出了 P(感冒|打喷嚏x建筑工人) 的值，那么我们可以再算出
P(不感冒|打喷嚏x建筑工人) 的值，计算结果如下：

 P(不感冒|打喷嚏x建筑工人) 

　= P(打喷嚏|不感冒) x P(建筑工人|不感冒) x P(不感冒) 　/  P(打喷嚏) x P(建筑工人)
　= (3/5) x (2/5) x (5/8) / (5/8) x (3/8) 
　= (16/25)

OK，现在我们知道来一个打喷嚏的建筑工人，他感冒的几率是P(感冒|打喷嚏x建筑工人)= (16/45)。不感冒的几率是P(不感冒|打喷嚏x建筑工人)= (16/45)。

通过对概率的比较，我们就可以将打喷嚏的建筑工人分类到“不感冒”人群中（不感冒的概率比较大）。这就是朴素贝叶斯分类器的最简单的应用了。当然你也看到了，贝叶斯分类器需要我们应用到统计所得的结果，这需要数据量比较大，大到能满足大数定理（大数定理这里就不多解释啦，自行百度即可），以及样本数据足够客观。

接下来我们看一个实际的例子，是我在 github 上看到的一个项目例子，根据姓名来对性别进行分类。看上去觉得很不可思议吧，其实也是用了上述说的贝叶斯分类的方法。

二.贝叶斯分类器根据姓名判别男女 -python

项目github地址：https://github.com/observerss/ngender

先说一下主要思路，我们日常从一个人的名字中，基本上能大致判断这个名字的主人是男是女。比如李大志，这个名字一听就很男性。为什么呢？因为大字和志字男性名字用得比较多。虽然机器一眼看不出来，但它可以通过统计信息来判断。如果有足够多的数据，我们就可以统计出大字和志字用作男性名字的比例，计算概率信息。然后就可以用这些概率，运用上述的贝叶斯公式来进行计算，判定性别。

代码其实不难，各个字的统计数据已经计算好，在项目中给出。我们只需要读取文件数据，存储到 python 的字典中，计算出概率，然后预测的时候进行计算即可。我们先看核心代码，稍后会有例子说明。

里面核心代码文件为：

这里主要讲一下核心代码的内容：https://github.com/observerss/ngender/blob/master/ngender/ngender.py

class Guesser(object):

    //初始化函数，调用下面的_load_model()函数
    def __init__(self):
        self._load_model()

    //初始化一些参数
    def _load_model(self):
        self.male_total = 0
        self.female_total = 0
        self.freq = {}

        //这里加载charfreq.csv文件，这个文件存放的是一些汉字是男女的统计信息
        with open(os.path.join(os.path.dirname(__file__),
                               'charfreq.csv'),
                  'rb') as f:
            # skip first line
            next(f)
            //将文件中的信息存储，累加，以便稍后计算概率
            for line in f:
                line = line.decode('utf-8')
                char, male, female = line.split(',')
                char = py2compat(char)
                //计算男性总数
                self.male_total += int(male)
                //计算女性总数
                self.female_total += int(female)
                //一个汉字对应的那女数量
                self.freq[char] = (int(female), int(male))

        self.total = self.male_total + self.female_total

        //一个汉字是男女概率
        for char in self.freq:
            female, male = self.freq[char]
            self.freq[char] = (1. * female / self.female_total,
                               1. * male / self.male_total)

    def guess(self, name):
        name = py2compat(name)
         //去掉姓氏
        firstname = name[1:]
        //过滤掉不在这个unicode编码范围内的字符
        for char in firstname:
            assert u'\u4e00' <= char <= u'\u9fa0', u'姓名必须为中文'

         //贝叶斯分类器，分别计算出男的概率和女的概率
        pf = self.prob_for_gender(firstname, 0)
        pm = self.prob_for_gender(firstname, 1)

        //若名字为男的概率较大，则分类为男，反之则为女
        if pm  pf:
            return ('male', 1. * pm / (pm + pf))
        elif pm < pf:
            return ('female', 1. * pf / (pm + pf))
        else:
            return ('unknown', 0)

    //贝叶斯公式的应用
    def prob_for_gender(self, firstname, gender=0):
        p = 1. * self.female_total / self.total \
            if gender == 0 \
            else 1. * self.male_total / self.total

        for char in firstname:
            p *= self.freq.get(char, (0, 0))[gender]

        return p


guesser = Guesser()

上述代码还是比较简单的，首先在初始化的时候会调用 _load_model() 函数，这个函数完成的是一些概率计算工作，比如先将每个字对应是男是女的概率计算好存储在字典中。

然后在计算的时候，先过滤掉姓氏。然后分别计算出这个名字是男是女的概率，比如计算 P(男|李大志)和P(女|李大志)，，对比哪个概率大一些，然后进行男女分类。

这里放上一个例子：判断

P(gender=男|name=本山) 
= P(name=本山|gender=男) * P(gender=男) / P(name=本山)
= P(name has 本|gender=男) * P(name has 山|gender=男) * P(gender=男) / P(name=本山)

公式原理为贝叶斯公式，下面对公式中中各个项进行解答，首先明确我们已经统计得到P(gender=男),P(gender=女)的概率。

怎么算 P(name has 本|gender=男)?

“本”在男性名字中出现的次数 / 男性字出现的总次数

怎么算 P(gender=男)?

男性名出现的次数 / 总次数

怎么算 P(name=本山)?

这个概率对男女来说都是一样的，所以没必要算出来，即我们只需要比较P(name=本山|gender=男) P(gender=男)和P(name=本山|gender=女) P(gender=女)两部分谁比较大即可做出判断。

以上就是贝叶斯分类器介绍的全部内容啦。

参考文章：
http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/673991

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

浅析C++的引用与const指针与各种传递方式

转自：https://www.jb51.net/article/120561.htm 首先我们知道 const int *p 与 int const *p 是一样的，即 *p 是常量；而 int * const p 跟上面是不一样的，即 p 是常量；我们知道引用只是一个别名，与变量共享存储空间，并且必须在定义的时候初始化，而且不能再成为别的变量的别名，这让我们想到什么呢，貌似跟 int * const p 的性质很像。其实引用的底层就是用const指针来实现的。下面举个小例子： #include <iostream> using namespace std; void swap(int &x, int &y) { int temp = x; x = y; y = temp; } void swap(int *const x, int *const y) { int temp = *x; *x = *y; *y = temp; } int main(void) { int a = 5; int b = 6; swap(a, b); cout <&...

2018-11-28

442

在不久之前，我就看到阿里推出一款PHP环境集成包，到到现在都没有看到更新，就连下载的链接都找不到了……我挺希望阿里能够提供PHP7的集成环境安装包的！！

2018-11-28

719

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。