HDFS架构设计
HDFS架构设计
标签: 大数据 Hadoop
[toc]
原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
介绍
HDFS是个分布式文件系统,包含几个特点(区别于普通分布式文件系统):高容错、高吞吐。高容错可以使得系统部署在廉价硬件上,而高吞吐则非常适合做大规模数据集的应用。
假设和目标
硬件失效
硬件失效是常态而不是特例。一个HDFS集群可能包含了成百上千的服务器,每个都会存储文件系统的部分数据。而大量的组件就会导致组件出错的概率非常高,而这也意味着HDFS的部分组件会经常不工作。因此,检查缺陷和快速自动地恢复就成了HDFS的核心架构目标。
流式数据访问
运行在HDFS上的应用程序需要流式访问数据集的能力。它们不是普通的运