HDFS中数据节点数据块存储示例
数据块在数据节点上是按照如下方式存储的。
首先是一个存储的根目录/hadoop/data/dfs/dn,如下图所示:
接着进入current目录,如下图所示:
再进入后续的BP-433072574-192.168.1.224-1440568979639下current目录,如下图所示:
在它下面,有一个版本号文件VERSION和分布式文件系统使用情况文件dfsUsed,然后就是两个文件夹,其中rbw存储的是处于写过程中的数据块,而finalized存储的则是写已完成并提交的数据块。我们看下finalized下的内容,如下图所示:
finalized下有很多子目录,进入subdir4,如下图所示:
又有很多子目录,再进入subdir42,如下图所示:
这就是数据块数据文件及其元文件的真正存储地了,其中blk开头的数据块数据文件,数字表示数据块ID,而.mta结尾的则是数据块元数据问文件。数据块副本的存储路径有一个基础路径,并由众多的子路径保持组成。这几点与我们在《HDFS源码分析之数据块Block、副本Replica》一文中讲到的一样。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HDFS存储系统
HDFS存储系统 一、基本概念 1、NameNode HDFS采用Master/Slave架构。namenode就是HDFS的Master架构。主要负责HDFS文件系统的管理工作,具体包括:名称空间(namespace)管理(如打开、关闭、重命名文件和目录、映射关系)、文件block管理。NameNode提供的是始终被动接收服务的server。一个文件被分成一个或多个Bolck,这些Block存储在DataNode集合里,NameNode就负责管理文件Block的所有元数据信息。 Secondary NameNode主要是定时对NameNode的数据snapshots进行备份,这样可尽量降低NameNode崩溃之后导致数据丢失的风险。具体就是从namenode中获得fsimage和edits后把两者重新合并发给NameNode,这样,既能减轻NameNode的负担又能安全得备份,一旦HDFS的Master架构失效,就可以借助Secondary NameNode进行数据恢复。 namenode管理着所有所有文件系统的元数据。这些元数据包括名称空间、访问控制信息、文件和Block的映射信息...
- 下一篇
阿里封神谈hadoop生态学习之路
引言 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务。每个产品、都需要工程化的实现,以前,工程师都是操练着java/python/c等各种语言操纵中各类的软件,比如jquery,spring、mysql,实现产品的业务逻辑。在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark、hbase、jstorm等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前在负责阿里云的HBase产品。在这,笔者尽可能梳理下,本文是围绕hadoophbase的。对于算法、机器学习是另一个范畴,本篇不涉及,不过从事机器学习算法的研发,能力最好在中级之上。 要想成为专家,并未一朝一夕,需要自己在业余时间花费较多的时间,我们一起加油! 初级 开
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8编译安装MySQL8.0.19
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装