《Hadoop海量数据处理:技术详解与项目实战》一 3.2 HDFS读取文件和写入文件
本节书摘来异步社区《Hadoop海量数据处理:技术详解与项目实战》一书中的第3章,第3.2节,作者: 范东来 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 3.2 HDFS读取文件和写入文件 Hadoop海量数据处理:技术详解与项目实战我们知道在HDFS中,NameNode作为集群的大脑,保存着整个文件系统的元数据,而真正数据是存储在DataNode的块中。本节将介绍HDFS如何读取和写入文件,组成同一文件的块在HDFS的分布情况如何影响HDFS读取和写入速度。 3.2.1 块的分布HDFS会将文件切片成块并存储至各个DataNode中,文件数据块在HDFS的布局情况由NameNode和hdfs-site.xml中的配置dfs.replication共同决定。dfs.replication表示该文件在HDFS中的副本数,默认为3,即有两份冗余。 图3-5为dfs.replication为1的分布情况,即没有冗余。图3-6为dfs.replication为2的分布情况,即有一份冗余。 图像说明文字 NameNode如何选择在哪个DataNode存储副本?这里需要在...