您现在的位置是:首页 > 文章详情

sklearn调包侠之朴素贝叶斯

日期:2018-07-02点击:380
img_d9b2abfffccc06efaffca1e1bfccee73.png

文档处理

朴素贝叶斯算法常用于文档的分类问题上,但计算机是不能直接理解文档内容的,怎么把文档内容转换为计算机可以计算的数字,这是自然语言处理(NLP)中很重要的内容。

TF-IDF方法

今天我们简单讲解TF-IDF方法,将文本数据转换为数字。TF-IDF是一个统计方法,用来评估单个单词在文档中的重要程度。
TF表示词频,对一个文档而言,词频就是词在文档出现的次数除以文档的词语总数。例如:一篇文档有1000个字,“我”字出现25次,那就是0.025;“Python”出现5次就是0.005。
IDF表示一个词的逆向文档频率指数。可以由总文档数除以包含该词出现的文档数目,然后取对数。例如:有10000个文档,“Python”只出现了10篇文章,则IDF=log(10000/10)=3;“我”字在所有文档都出现过,则IDF为0。
词频和权重指数相乘,就是词在文档中的重要程度。可以看出,词语的重要性随它在文档中出现的次数呈正比例增加,但同时会随着它在语料库中出现的频率呈反比下降。

实战——文档分类

数据导入和TF-IDF

在sklearn中,通过load_files方法可以将子目录的名字转换为文档类别(target),将目录所有文档读入内存(data)。

from sklearn.datasets import load_files news_train = load_files('data/379/train') 
img_5e1c561db6cb27d0b075f1b5623faedd.png
img_33a62ad1e1697bf87ecb1fb67dc737a6.png

通过TfidfVectorizer方法,将文档数据进行转换:

from sklearn.feature_extraction.text import TfidfVectorizer vect = TfidfVectorizer(encoding='latin-1') X_train = vect.fit_transform(news_train.data) 
模型训练

朴素贝叶斯算法使用sklearn.naive_bayes模块中的MultinomialNB方法。

from sklearn.naive_bayes import MultinomialNB y_train = news_train.target clf = MultinomialNB(alpha=0.0001) clf.fit(X_train, y_train) train_score = clf.score(X_train, y_train) # result # 0.99787556904400609 
模型评估

简单的,可以通过score方法来评估整个模型的精度。

news_test = load_files('data/379/test') X_test = vect.transform(news_test.data) y_test = news_test.target clf.score(X_test, y_test) # result # 0.90881728045325783 

我们也可以通过classification_report方法来查看全方位的评价。

from sklearn.metrics import classification_report pred = clf.predict(X_test) print(classification_report(y_test, pred, target_names=news_test.target_names)) 
img_0fa27120617c1187b24f172d6eeff972.png

也可以查看我们的混淆矩阵。

from sklearn.metrics import confusion_matrix cm = confusion_matrix(y_test, pred) print(cm) 
img_fb73dd55ec332d4994e59425b08eee2a.png
原文链接:https://yq.aliyun.com/articles/652218
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章