大数据Hadoop入门需要填的坑
1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点: 高可靠性:提供按位处理的存储和计算能力值得用户信赖。 高扩展性:可以轻松地从小量集群扩展到数以千计的节点中。 高效性:提供并发的分布式计算框架,处理速度非常快。 高容错性:即使在少量节点宕机的情况下,也能自动完成任务。 Hadoop的核心是YARN,HDFS,Mapreduce。 2、HDFS 源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障。HDFS简化了文件一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器。 3、Mapreduce 源自于谷歌的MapReduce论文,"Hadoop Map/Reduce是一个使用简易的软件框架,基于它写...