大数据学习笔记(三):HDFS分布式文件系统架构原理详解
在网易云课堂买了卡夫卡的大数据课程,开始学习咯! HDFS分布式文件系统 解决问题:海量数据的存储——>分布式结构设计 分布式的特点: 集群,有多台机器共同协作完成存储 主从架构设计 HDFS设计思想 1.namenode -主节点 -领导 主要存储文件的属性信息,即文件的元数据: 文件的名称 文件的位置 文件的副本数 文件的拥有者、组、权限 存储快 各个块在哪些datanode节点上 2.datanode -从节点 -随从 存储具体的文件 简单解释一下上图:1.不同的交换机在不同的机架上,存储文件在不同的机架上,当一个机架中的副本损坏,可以通过最近的一个机架去恢复数据。2.读文件和写文件,如图上图所示: 读文件:客户端先去找namenode拿到文件的元数据,知道文件存储在哪一个datanode上(遵循就近的原则),然后去读文件。 写文件:客户端先去namenode去请求,在哪台机器可以写。 读文件: client -> namenode client ->datanode 写文件 client ->namenode client ->datanode











































