Hadoop学习之HBase基础知识、操作和原理-低调大师

Hadoop学习之HBase基础知识、操作和原理

2015-04-03 748

Hadoop学习之HBase基础知识、操作和原理

1. HBase 简介

HBase(hadoop DataBase)是一个高可靠，高性能面向列，可伸缩的分布式存储系统，利用HBase技术可在廉价PC server 上搭建大规模结构化存储集群。HBase 利用HDFS作为其文件系统，利用Hadoop MapReduce来处理HBase中的海量数据

2. HBase Shell 操作

HBase 可执行参数

hbase shell

a)     创建表的帮助语法(create)

b)     获取行或单元的值(get)

c)      列出hbase 上的所有表(list)

d)     删除表(drop)

删除表之前必须先让表失效:disable ‘t1’

e)     向hbase指定的hbase表单元添加值(put)

f)       获取指定表的相关信息(scan)

g)      使表失效(disable)

h)     使表生效(enable)

实例：

3. HBase 配置

<configuration>
<property>
 <name>hbase.rootdir</name>
 <value>hdfs://hadoop1:9000/hbase</value>
</property>
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
<property>
 <name>hbase.zookeeper.quorum</name>
 <value>hadoop1,hadoop2,hadoop3</value>
</property>
<property>
 <name>hbase.master</name>
 <value>hdfs://hadoop1:60000</value>
</property>
 
<property>
 <name>hbase.client.write.buffer</name>
 <value>2097152</value>
 <description>设置缓冲区大小为2M</description>
</property>
<property>
  <name>hbase.master.meta.thread.rescanfrequency</name>
 <value>60000</value>
 <description>hbase扫描ROOT和META表的时间间隔</description>
</property>
<property>
 <name>hbase.regionserver.handler.count</name>
 <value>10</value>
 <description>RegionServer上等待处理请求的实例数目,默认10</description>
</property>
<property>
 <name>hbase.hregion.max.filesize</name>
  <value>268435456</value>
 <description>HRegion上stove文件最大值,默认为256M，以字节为单位</description>
</property>
 
<property>
  <name>hfile.block.cache.size</name>
  <value>0.2</value>
 <description>HFile/StoreFile缓存所在java虚拟机堆大小的百分比，默认0.2，占比20%,0为禁用</description>
</property>
 
<property>
  <name>hbase.regionserver.global.memstore.upperLimit</name>
  <value>0.4</value>
 <description>RegionServer上所有的memstore所在java虚拟机的比例上限，默认为0.4,40%,当memstore所占空间超过此值，更新操作被阻塞，所有内容强制写出</description>
</property>
<property>
  <name>hbase.hregion.memstore.flush.size</name>
  <value>67108864</value>
 <description>memstore缓存写入到磁盘上的值内容大小限度值</description>
</property>
 
</configuration>

4. HBase 的体系结构

主从服务器：HRegion服务器群和HMaster服务器构成。通过zookeeper协调HMaster不存储任何数据，hbase逻辑上的表可以分为多个HRegion，存储到HRegion服务器群中，HMaster中存储的是从数据到HRegion的映射。

HRegion服务器:HLOG部分和HRegion部分。HLOG是用来存储数据日志，先写日志方式;HRegion部分由很多HRegion组成，存储的是实际数据。

每个HRegion由很多Store组成，每个store存储的是一个列族下的数据。在每个hstore中包含一块memstore和多个storefile(HFile).

HFile：负责实际的数据存储，HBase的最小存储单元。

5. HBase数据模型(NoSql)

a)     表(table)，是存储管理数据的

b)     行键(row key)，类似于Mysql中的主键

行键是HBase表天然自带的

c)      列族(column family),列的集合

HBase中列族是需要在定义表时指定的，列是在插入数据时自动增加的

HBase表中的数据，每个列族淡出一个文件

d)     时间戳(timestamp),列(也称作标签，修饰符)的一个属性

行键和列确定的单元格，可以存储多个数据，每个数据含有时间戳属性，数据具有版本特性。

如果不指定时间戳或者版本，默认取最新的

e)      存储的数据都是字节数组。

f)       表中的数据是按照行键的顺序物理存储的。

字符串、证书、二进制串甚至串行化的都可以作为行键

表按照行键的“逐字节排序”顺序对行进行有序化处理

表内数据非常”稀疏”，不同的行的列数完全可以大不相同

可以只对一行上”锁”

对行的写操作始终是”原子的”

6. Hbase 的物理模型

a)     HBase是适合海量数据(20PB)的秒级简单查询的数据库

b)     Table在按照行键,分割为多个HRegion，一个region由(startKey,endKey)表示，每个HRegion分散在不同的RegionServer中

c)      HBase对表的操作转化为对多台Regionserver的并行查询

7. HBase的体系结构

a)     HBase是主从结构，HMaster、HregionServer允许有多个HMaster存在，但同一时间只有一个HMaster有效

b)     HBase集群是需要Zookeeper的：

i. 保证任何时候，集群中只有一个running master
ii. 存贮所有Region的寻址路口
iii. 实时监控RegionServer的状态，将RegionServer的上线和下线信息，实时通知给Master
iv. 存储HBase的schema，包括有哪些table，每个table 有哪些列族

Master可以启动多个HMaster，通过zookeeper的Master Election机制保证总有一个Master运行。

v. 为Region server分配region

vi. 负责region server的负载均衡

vii.发现失效的region server 并小心分配其上的region

c) RegionServer

i. 维护Master分配给它的region，处理对这些region的IO请求
ii.负责切分在运行过程中变得过大的region

d) HBase有两张特殊的表，-ROOT-和.META.

i. .META.(两边都有点".")：记录了用户表的Region的信息，.META.可以有多个region
ii. -ROOT-：记录了.META.表的Region，-ROOT-只有一个region

8. HBase 与RDBMS

i. 数据类型：HBase只字符串，所有类型交用户处理。RDBMS丰富的类型。
ii. 数据操作：HBase只有简单的插入、查询、删除、清空操作，表与表之间分离，没有复杂关系，不能实现表间关联。RDBMS含有各种函数，连接操作。
iii.存储模式：HBase基于列存储，每列几个文件保存，不同列族文件分离。RDBMS基于表结构和行模式
iv.数据维护：HBase的更新操作，实际是数据的新版本的插入操作。

v. 可伸缩性：HBase轻松增减硬件数量，容错性高；RDBMS需要加上中间层实现。

9. 模式设计的原则

i. 列族的数量及列族的势

建议列族的数量越少越好，hbase对两个及以上的列族处理的并不好，hbase的flushing和压缩是基于HRegion的。

同一个表中不同列族所存储的记录数量的差别，即列族的势。当两个列族数量差别过大时，会将包含记录较少的列族的数量分散到多个region上，而region可能存储在不同的regionserver上，这样进行查询或scan操作时，会对性能有影响。

ii. 行键的设计

避免使用时序或单调(递增、递减)行键，hbase根据行键确定存储位置，即region的位置，如果采用时序或单调，连续到来的数据会被存储到一个region中，而其他region是空闲的，这是分布式系统不希望看到的。

iii. 最小化行键和列族的大小

值ß 行键、列、时间戳。

Hbase的索引是为了加快随机访问的速度：行键+列族:列+时间戳+值

iv. 版本的数量

默认情况下，每个数据存储3个版本，可通过HColumnDescriptor设置

微信关注我们

原文链接：https://yq.aliyun.com/articles/75744

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop学习之HBase的集群环境搭建

HBase的集群环境搭建该集成环境是在伪分布搭建的基础上搭建 1.修改原来的伪分布hadoop1上的hbase的配置文件 #cd /usr/local/hbase/conf/ 待修改的文件：hbase-env.sh、hbase-site.xml、regionservers #vim hbase-env.sh 使用搭建的zookeeper集群环境，因此hbase自带的zookeeper设置为false，不启动。 #vim hbase-site.xml 将zookeeper集群所在的主机名，全部写进去，用逗号分开。 #vim regionservers 添加搭建hbase集群的从节点主机名，每个主机名一行 2.复制hadoop1中的hbase文件夹到hadoop2和hadoop3等其他从节点。 # scp -r hbase hadoop2:/usr/local/ # scp -r hbase hadoop3:/usr/local/ 3.复制环境变量配置文件(profile)到其他从节点 # scp -r /etc/profile hadoop2:/usr/local/ # scp -r ...

2015-04-03

721

1.使用winscp将windows下的redis的压缩包复制到虚拟机的centos6中， 2.解压redis压缩包，并重命名为redis,移动到/usr/local/下 #tar -xzvf redis-2.8.3.tar.gz #cp -r redis-2.8.3 /usr/local/ #mv redis-2.8.3 redis 3.切换工作目录到redis下，打开README文件，按照文件中的步骤安装redis #cd /usr/local/redis/ #vim README 4.编译redis源码 #make ##当前系统的位数，64位机器会便以为64位程序或者#make 32bit #编译为32位程序或者#make CFLAGS="-m32 -march=native" LDFLAGS="-m32" #编译为32位程序没报错就代表编译成功了。 5.启动redis的服务，并使用redis-cli客户端测试使用(当前目录为/usr/local/redis/) #cd src ##启动redis服务，使用默认配置 #./redis-server & ##启动redi...

2015-04-04

784

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。