Hadoop学习(二)——HDFS简介

2015-10-06 793

Hadoop提供了一个被称为HDFS的分布式文件系统的实现。HDFS是Hadoop系统的基础层，主要负责数据的存储、管理和容错处理，设计思想来源于Google的GFS（Google File System）文件系统。HDFS是一个运行在普通的硬件之上的分布式文件系统，它和现有的分布式文件系统有着很多的相似性，然而和其他分布式文件系统的区别也很明显：HDFS是高容错性的，可以部署在低成本的硬件之上；HDFS提供高吞吐量以应对应用程序数据访问，适合大数据集的应用程序；HDFS放开一些POSIX的需求去实现流式地访问文件数据；HDFS最初是为开源的Apache项目Nutch的基础结构而创建；HDFS是Hadoop项目的一部分。

HDFS的特点

HDFS认为硬件出现错误是经常发生的事情。HDFS部署在由廉价机器组成的集群中，整个集群中可能会有非常多的机器结点，结点的故障也是不可避免的，这种情况下，HDFS必须保证某些结点故障时，整个集群的工作不会受到影响。
HDFS支持超大规模的数据集。
HDFS采用“一次写入多次读取”的文件访问模型。HDFS简化了传统的文件访问模型，它假定当一个文件被创建、写入并关闭后就不会被修改了。
HDFS提供了类似于流式的数据访问模式。并不是标准的流式，而是将数据以较小的数据包的形式进行传输，提供数据方法的吞吐量。
HDFS提供了很强的容错处理能力。HDFS将大文件分割成很多文件块分开存储，并采用了完全备份的策略，每个文件块的副本数量最少是3个。
HDFS具有很强的系统扩展性。HDFS可以动态的向集群中添加或者从集群中撤出结点。
HDFS具有良好的平台移植性。由于HDFS是用Java语言开发的，所以它可以运行在Linux、Windows的等操作系统上，具有很好的可移植性。

HDFS文件系统架构

HDFS系统架构采用主从架构，整个集群由一个NameNode、一个SecondNameNode和若干个DataNode组成。NameNode是一个中心服务器，负责管理整个文件系统的命名空间元数据和客户端对文件的访问。SecondNameNode是NameNode的备份结点，定期对NameNode上的系统信息文件进行备份。一般情况下，一个结点运行一个DataNode，主要负责存储用户数据，并在NameNode的控制下进行数据的读写和出错处理。在HDFS内部，一个文件会被分隔成一个或多个Block，这些Block存储在DataNode上。

微信关注我们

原文链接：https://yq.aliyun.com/articles/233885

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深入 HBase 架构解析（2）

前言这是《深入HBase架构解析（1）》的续，不多废话，继续。。。。 HBase读的实现通过前文的描述，我们知道在HBase写时，相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起，甚至删除一个Cell也只是写入一个新的Cell，它含有Delete标记，而不一定将一个Cell真正删除了，因而这就引起了一个问题，如何实现读的问题？要解决这个问题，我们先来分析一下相同的Cell可能存在的位置：首先对新写入的Cell，它会存在于MemStore中；然后对之前已经Flush到HDFS中的Cell，它会存在于某个或某些StoreFile(HFile)中；最后，对刚读取过的Cell，它可能存在于BlockCache中。既然相同的Cell可能存储在三个地方，在读取的时候只需要扫瞄这三个地方，然后将结果合并即可(Merge Read)，在HBase中扫瞄的顺序依次是：BlockCache、MemStore、StoreFile(HFile)。其中StoreFile的扫瞄先会使用Bloom Filter过滤那些不可能符合条件的HFile，然后使用Block Inde...

2015-10-05

756

对有特殊值的数据倾斜处理 SET mapred.reduce.tasks=20; SET hive.map.aggr=TRUE; SET hive.groupby.skewindata=TRUE; SET hive.optimize.skewjoin=TRUE; set hive.auto.convert.join=false; INSERT OVERWRITE TABLE HIS_RFD_SYMID_RESULT PARTITION(tid='wcj01') SELECT aa.MAC,aa.phoneNo,bb.member_type,bb.xx_mid FROM ( SELECT mr.MAC,phoneNo FROM MAC_RFD_RESULT_VALUES mr WHERE mr.tid = 'wcj01') aa LEFT OUTER JOIN ( SELECT mac,mobile,member_type,xx_mid FROM member m WHERE m.id >= 'wcj01' AND m.id <= 'wcj01}' AND m.mo...

2015-10-08

663

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Hadoop学习(二)——HDFS简介

HDFS的特点

HDFS文件系统架构

深入 HBase 架构解析（2）

hive对有特殊值null的数据倾斜处理

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

Spring

欢迎您来访！