hadoop下mahout bayes（贝叶斯）算法研究（1）-低调大师

hadoop下mahout bayes（贝叶斯）算法研究（1）

2014-02-08 867

http://blog.csdn.net/zc55803903/article/details/7933126

1.算法简介

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率哪个最大，就认为此待分类项属于哪个类别。

这二十个新闻组数据集合是收集大约20,000新闻组文档，均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验，根据机器学习技术。例如文本分类，文本聚集。我们将使用Mahout的Bayes Classifier创造一个模型，它将一个新文档分类到这20个新闻组集合范例演示

2.环境要求

hadoop已经开启

mahout已经安装

3.数据的准备

下载20news-bydate.tar.gz数据包并解压缩

http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz

例如：我已经把数据包放在/root/bayes下了，所以以下的命令都是在这个目录下的

原以为这么20个文件是不可以一起输出的，但事实证明是可以的

4.算法流程

5.数据输入与输出准备过程

5.1生成input的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-train -o /root/bayesoutput/train -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8

5.2生成test的数据

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p/root/bayes/20news-bydate-test -o /root/bayesoutput/test -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8

6.在Hadoop中执行命令与过程

上传文件到HDFS

hadoop fs -put /root/bayesoutput/train/ bayes

7.算法执行命令与过程

下面将在hadoop运行4个map reduce工作，为了Train这个分器并且将运行一段时间如果在只有一个节点的机器上

mahout trainclassifier -i /bayes/train/ -o newsmodel -type bayes -ng 3 -source hdfs（由于hadoop集群未开，这条命令暂时没用）

mahout trainclassifier -i /root/bayesoutput/train -o newsmodel -type bayes -ng 3 –source hdfs（本地测试）

由于案例数据较多，跑了将近30分钟，新的newmodel的大小有300多mb

可以通过http://localhost:50030/jobtracker.jsp来监控job的状态

在input目录运行Test分类器

mahout testclassifier -m newsmodel -d /root/bayesoutput/test/ -type bayes -ng 3 -source hdfs -method mapreduce

8.输出结果参考：

微信关注我们

原文链接：https://yq.aliyun.com/articles/449481

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ORACLE连接HADOOP(2) - HDFS专用SQL连接器ODCH

http://www.5ienet.com/note/html/hadoop/oracle_direct_connector_for_hdfs.shtml 2、HDFS专用SQL连接器使用ORACLE连接HDFS有个专项的解决方案[O]racle[D]irect[C]onnectorfor[H]adoopDistributedFilesSystem，简称ODCH。该软件包可以到Oracle官网下载：http://www.oracle.com/technetwork/bdc/big-data-connectors/downloads/index.html 选择第一项：OracleSQLConnectorforHadoopDistributedFileSystemRelease2.1.0 我们这里使用2.1版本，下载到安装包后，解压即可： [root@ora11g~]#unziporaosch-2.1.0.zip 变态呀，压缩包里还有压缩包： [root@ora11g~]#unziporahdfs-2.1.0.zip-d/usr/local/ [root@ora11g~]#chown-...

2014-02-07

791

http://www.csdn.net/article/2011-09-28/305092 http://www.computerworld.com/s/article/9244827/Hadoop_gets_native_R_tools_for_big_data_analysis http://www.packtpub.com/big-data-analytics-with-r-and-hadoop/book

2014-02-08

937

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。