HDFS Federation简介
背景
熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的GFS实现的开源系统,设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的HDFS架构中有2个NameNode和多个DataNode,如下:
从上面可以看出 HDFS 的架构其实大致可以分为两层:
- Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。
Block Storage Service:这个部分又由两部分组成:
存储(Storage)
- 是由DataNode提供,主要在本地文件系统存储数据块,并提供读写访问。
数据块管理(Block Management),这个模块由NameNode提供
- 通过处理DataNode的注册和定期心跳来提供集群中DataNode的基本关系;
- 维护数据到数据块的映射
