《Spark与Hadoop大数据分析》——2.1 Apache Hadoop概述
2.1 Apache Hadoop概述
Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理。Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建。Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障。此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量。它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据、分发用于并行处理的代码以及处理故障等繁重的工作。Apache Hadoop 主要包含四个项目:Hadoop Common、Hadoop 分布式文件系统( Hadoop Distributed File System,HDFS)、YARN(Yet