大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群
有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法。 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑————树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集群 我们对 DQYDJ 的数据做了大量的处理工作,但这些还不能称得上是大数据。 和许许多多有争议的话题一样,数据的大小之别被解释成这样一个笑话: 如果能被内存所存储,那么它就不是大数据。 ————佚名 似乎这儿有两种解决问题的方法: 我们可以找到一个足够大的数据集合,任何家用电脑的物理或虚拟内存都存不下。 我们可以买一些不用特别定制,我们现有数据就能淹没它的电脑: —— 上手树莓派 2B 这个由设计师和工程师制作出来的精致小玩意儿拥有 1GB 的内存, MicroSD 卡充当它的硬盘,此外,每一...