HDFS应用场景、原理、基本架构
一、HDFS是什么源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版 Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务 1、HDFS优点 高容错性数据自动保存多个副本副本丢失后,自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理GB、TB、甚至PB级数据百万规模以上的文件数量10K+节点规模流式文件访问一次性写入,多次读取保证数据一致性可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制 2、HDFS缺点 低延迟数据访问比如毫秒级低延迟与高吞吐率小文件存取占用NameNode大量内存寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持append 3、HDFS设计思想4、HDFS数据块(block) 文件被切分成固定大小的数据块默认数据块大小为64MB,可配置若文件大小不到64MB,则单独存成一个block为何数据块如此之大 数据传输时间超过寻道时间(高吞吐率)一个文件存储方式按大小被切分成若干个block...