【Hadoop】Hadoop常见问题汇总
【关于Hadoop】 生态系统 【关于HDFS】 【hdfs架构】分布式文件系统流式数据访问:一次写入,多次读取。只支持单个写入者,写操作总是以“只添加”的方式在文件末尾写数据采用Master/Slave架构来存储数据,主要由四部分组成:Client、NameNode、DataNode和Secondary NameNode关键组件有两个:【NameNode、DataNode】Client:1.文件上传HDFS,将文件切分成一个个block2.与NN交互,获取文件的位置信息3.与DN交互,读取或者写入数据4.提供命令来管理访问HDFS*NameNode:就是master,元数据管理1.管理文件系统的命名空间,维护文件系统树2.管理block的映射信息3.配置副本策略4.处理客户端的读写操作*DataNode:就是Slave1.存储实际的数据块2.执行数据块的读写操作Secondary NameNode:并非备份,是辅助1.辅助NN,分担工作量2.定期合并fsimage和edits,并推送给NN【fsimage】命名空间镜像文件【edits】编辑日志文件 【hdfs读取流程】1.客户端调用...