intel-hadoop/HiBench流程分析----以贝叶斯算法为例
1.HiBench算法简介 Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmarks) 具体参考CDH集群安装&测试总结:第三节内容 micro benchmarks Sort:使用hadoop randomtextwriter生成数据,并对数据进行排序。 Wordcount:统计输入数据中每个单词的出现次数,输入数据使用hadoop randomtextwriter生成。 TeraSort:输入数据由hadoop teragen产生,通过key值进行排序。 hdfs benchmarks 增强行的dfsio:通过产生大量同时执行读写请求的任务测试hadoop机群的hdfs吞吐量 web search bench marks Nutch indexing:大规模收索引擎,这个是负载测试nutch(apache的一个开源搜索引擎)的搜索子系统,使用自动生成的web数据,we...
