hadoop下mahout bayes(贝叶斯)算法研究(1)
http://blog.csdn.net/zc55803903/article/details/7933126 1.算法简介 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率哪个最大,就认为此待分类项属于哪个类别。 这二十个新闻组数据集合是收集大约20,000新闻组文档,均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验,根据机器学习技术。例如文本分类,文本聚集。我们将使用Mahout的Bayes Classifier创造一个模型,它将一个新文档分类到这20个新闻组集合范例演示 2.环境要求 hadoop已经开启 mahout已经安装 3.数据的准备 下载20news-bydate.tar.gz数据包并解压缩 http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz 例如:我已经把数据包放在/root/bayes下了,所以以下的命令都是...