Mahout分类算法学习之实现Naive Bayes分类示例-低调大师

Mahout分类算法学习之实现Naive Bayes分类示例

2015-10-22 828

1.简介

(1) 贝叶斯分类器的分类原理发源于古典概率理论，是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定：给定目标值时属性之间相互条件独立，即给定元组的类标号，假定属性值有条件地相互独立，即在属性间不存在依赖关系。朴素贝叶斯分类模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

(2) Mahout 实现了Traditional Naive Bayes 和Complementary Naive Bayes，后者是在前者的基础上增加了结果分析功能(Result Analyzer).

(3) 主要相关的Mahout类:
org.apache.mahout.classifier.naivebayes.NaiveBayesModel
org.apache.mahout.classifier.naivebayes.StandardNaiveBayesClassifier
org.apache.mahout.classifier.naivebayes.ComplementaryNaiveBayesClassifier

2.数据

使用20 newsgroups data (http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz) ，数据集按时间分为训练数据和测试数据，总大小约为85MB，每个数据文件为一条信息，文件头部几行指定消息的发送者、长度、类型、使用软件，以及主题等，然后用空行将其与正文隔开，正文没有固定的格式。

3.目标

根据新闻文档内容，将其分到不同的文档类型中。

4.程序

使用Mahout自带示例程序，主要的训练类和测试类分别为TrainNaiveBayesJob.java和TestNaiveBayesDriver.java，JAR包为mahout-core-0.7-job.jar，详细代码见(mahout-distribution-0.7/core/src/main/java/org/apache/mahout/classifier/naivebayes/trainning,mahout-distribution-0.7/core/src/main/java/org/apache/mahout/classifier/naivebayes/test).

5.步骤
(1) 数据准备

①将20news-bydate.tar.gz解压，并将20news-bydate中的所有子文夹中的内容复制到20news-all中，该步骤已经完成，20news-all文件夹存放在hdfs:/share/data/ Mahout_examples_Data_Set中
②将20news-all放在hdfs的用户根目录下
user@hadoop:~/workspace$hadoop dfs -cp /share/data/Mahout_examples_Data_Set/20news-all .
③从20newsgroups data创建序列文件(sequence files)
user@hadoop:~/workspace$mahout seqdirectory -i 20news-all -o 20news-seq
④将序列文件转化为向量
user@hadoop:~/workspace$mahout seq2sparse -i ./20news-seq -o ./20news-vectors -lnorm -nv -wt tfidf
⑤将向量数据集分为训练数据和检测数据，以随机40-60拆分
user@hadoop:~/workspace$mahout split -i ./20news-vectors/tfidf-vectors --trainingOutput ./20news-train-vectors --testOutput ./20news-test-vectors --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential

(2)训练朴素贝叶斯模型

user@hadoop:~/workspace$mahout trainnb -i ./20news-train-vectors -el -o ./model -li ./labelindex -ow -c

(3)检验朴素贝叶斯模型
user@hadoop:~/workspace$mahout testnb -i ./20news-train-vectors -m ./model -l ./labelindex -ow -o 20news-testing -c
结果如下：

(4)检测模型分类效果
user@hadoop:~/workspace$mahout testnb -i ./20news-test-vectors -m ./model -l ./labelindex -ow -o ./20news-testing -c
结果如下：

(5)查看结果，将序列文件转化为文本
user@hadoop:~/workspace$mahout seqdumper -i ./20news-testing/part-m-00000 -o ./20news_testing.res
user@hadoop:~/workspace$cat 20news_testging.res

结果如下：

微信关注我们

原文链接：https://yq.aliyun.com/articles/413152

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hive架构及Hive On Spark

Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。 (2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition都有一个对应的目录，查询的时候可以减少数据的规模。 (3)Bucket(桶):即使将数据分区后，每个分区的规模可能依旧会很大，可以根据关键字的Hash结果将数据分成多个Bucket,每个Bucket对应一个文件。 HvieQL支持类似于SQL的查询语言，大体可分为以下几种类型. DDL：类似于创建数据库(create database)，创建表(create table)，删除表(drop table)等. DML:对于数据的查询(select)或添加(insert into overwrite)。 UDF:自定义查询函数。 Hive的整体架构图如下: Hive拥有自己的语法树解析(Parser)、语义分析(Semantic Analyser)、以及查询优化器(Optimizer)，最终...

2015-10-22

770

[root@hadoop058 ~]#mii-tool eth0: negotiated 100baseTx-FD, link ok 100M linux 下查看网卡工作速率 Ethtool是用于查询及设置网卡参数的命令。概要： ethtool ethX //查询ethX网口基本设置 ethtool –h //显示ethtool的命令帮助(help) ethtool –i ethX //查询ethX网口的相关信息 ethtool –d ethX //查询ethX网口注册性信息 ethtool –r ethX //重置ethX网口到自适应模式 ethtool –S ethX //查询ethX网口收发包统计 ethtool –s ethX [speed 10|100|1000]\ //设置网口速率10/100/1000M [duplex half|full]\ //设置网口半/全双工 [autoneg on|off]\ //设置网口是否自协商使用ethtool,结果如下： [root@hadoop009 var]# ethtool em1 Settings for em1: S...

2015-10-26

741

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。