【干货】用朴素贝叶斯进行文本分类
1.引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式 贝叶斯公式就一行: 而它其实是由以下的联合概率公式推导出来: P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y) 其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)叫做联合概率。 额,恩,没了,贝叶斯最核心的公式就这么些。 3. 用机器学习的视角理解贝叶斯公式 在机器学习的视角下,我们把X理解成“具有某特征”,把Y理解成“类别标签”(一般机器学习问题中都是X=>特征,Y=>结果对吧)。在最简单的二分类问题(是与否判定)下,我们将Y理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子: 我们