基于Hadoop分布式数据库HBase1.0部署及使用-低调大师

基于Hadoop分布式数据库HBase1.0部署及使用

2016-05-05 726

HMaster主要负责Table和Region管理工作：

1. 管理用户对Table的增、删、改、查操作

2. 管理HRegionServer的负载均衡，调整Region分布

3. 在Region Split后，负责新Region的分配

4. 在HRegionServer停机后，负责失效HRegionServer 上的Regions迁移

HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据。

HBase工作原理：

HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储，可以看出每个Column Family其实就是一个集中的存储单元，因此最好将具备共同IO特性的column放在一个ColumnFamily中，这样最高效。

HStore存储是HBase存储的核心了，其中由两部分组成，一部分是MemStore，一部分是StoreFiles。MemStore是SortedMemory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFiles Compact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。

在理解了上述HStore的基本原理后，还必须了解一下HLog的功能，因为上述的HStore在系统正常工作的前提下是没有问题的，但是在分布式系统环境中，无法避免系统出错或者宕机，因此一旦HRegionServer意外退出，MemStore中的内存数据将会丢失，这就需要引入HLog了。每个HRegionServer中都有一个HLog对象，HLog是一个实现WriteAhead Log的类，在每次用户操作写入MemStore的同时，也会写一份数据到HLog文件中，HLog文件定期会滚动出新的，并删除旧的文件（已持久化到StoreFile中的数据）。当HRegionServer意外终止后，HMaster会通过Zookeeper感知到，HMaster首先会处理遗留的 HLog文件，将其中不同Region的Log数据进行拆分，分别放到相应region的目录下，然后再将失效的region重新分配，领取到这些region的HRegionServer在Load Region的过程中，会发现有历史HLog需要处理，因此会Replay HLog中的数据到MemStore中，然后flush到StoreFiles，完成数据恢复。

HBase高可用实现方式：

HBase同样分为Active和Standby，把数据存储在Zookeeper，可以启动两个或多个HMaster服务进程，第一个启动的做为HBase活动节点，其余的作为备用节点。如果一台故障，Zookeeper会选择出备用节点成为活动节点，让他接管故障的活动节点任务，保证总有一个Master运行。

二、HBase安装与配置（每台都要配置）

1.安装配置

 
        # tar zxvf hbase-1.0.1.1-bin.tar.gz 
       
        # mv hbase-1.0.1.1 /opt 
       
        # vi hbase-env.sh 
       
        export 
        JAVA_HOME=
        /usr/local/jdk1
        .7 
       
        export 
        HBASE_MANAGES_ZK=
        false     
        #关闭通过内置Zookeeper管理HBase

 
        # vi hbase-site.xml 
       
        <configuration> 
       
        <!--HBase数据目录位置--> 
       
        <property> 
       
        <name>hbase.rootdir<
        /name
        > 
       
        <value>hdfs:
        //hcluster/hbase
        <
        /value
        > 
       
        <
        /property
        > 
       
        <!--启用分布式集群--> 
       
        <property> 
       
        <name>hbase.cluster.distributed<
        /name
        > 
       
        <value>
        true
        <
        /value
        > 
       
        <
        /property
        > 
       
        <!--默认HMaster HTTP访问端口--> 
       
        <property> 
       
        <name>hbase.master.info.port<
        /name
        > 
       
        <value>16010<
        /value
        > 
       
        <
        /property
        > 
       
        <!--默认HRegionServer HTTP访问端口--> 
       
        <property> 
       
        <name>hbase.regionserver.info.port<
        /name
        > 
       
        <value>16030<
        /value
        > 
       
        <
        /property
        > 
       
        <!--不使用默认内置的，配置独立的ZK集群地址--> 
       
        <property> 
       
        <name>hbase.zookeeper.quorum<
        /name
        > 
       
        <value>HSlave0,HSlave1,HSlave2<
        /value
        > 
       
        <
        /property
        > 
       
        <
        /configuration
        >

 
        # vi regionservers     
       
        HSlave0 
       
        HSlave1 
       
        HSlave2

2. 配置系统变量

 
        # vi /etc/profile 
       
        HBASE_HOME=
        /opt/hbase-1
        .0.1.1 
       
        PATH=$PATH:$HBASE_HOME
        /bin 
       
        export 
        HBASE_HOME PATH 
       
        # source /etc/profile

3. 启动HBase

分别在HMaster0和HMaster1启动hmaster：

 
        # start-hbase.sh

分别在 HSlave0/1/2启动HRegionServer：

 
        # hbase-daemon.sh start regionserver

4. 检查是否启动成功
在主备节点查看有HMaster进程说明成功：

 
        [root@HMaster0 ~]
        # jps 
       
        2615 DFSZKFailoverController 
       
        30027 ResourceManager 
       
        29656 NameNode 
       
        2841 HMaster 
       
        8448 Jps

在RegionServer节点查看有HRegionServer进程说明成功：

 
        [root@HSlave0 ~]
        # jps 
       
        11391 NodeManager 
       
        11213 DataNode 
       
        11298 JournalNode 
       
        10934 QuorumPeerMain 
       
        12571 HRegionServer 
       
        7005 Jps

通过访问WEB页面查看：

5. hbase shell常用操作命令

根据下面tb1表的结构来演示hbase增删改查用法：

name	info		address
name	sex	age	address
zhangsan	22	man	beijing
lisi	23	woman	shanghai

# hbase shell #进入字符页面

5.1 创建表tb1，并有两个列族name、info和address，info列族下有sex和age列

 
        hbase(main):024:0> create 
        'tb1'
        ,
        'name'
        ,
        'info'
        ,
        'address'

5.2 查看表结构

 
        hbase(main):025:0> describe 
        'tb1'

5.3 列出所有表

 
        hbase(main):025:0> list

5.4 插入几条记录

 
  
    
      
      
          
        hbase(main):028:0> put 
        'tb1'
        ,
        'zhangsan'
        ,
        'info:sex'
        ,
        '22' 
       
 
          
        hbase(main):039:0> put 
        'tb1'
        ,
        'zhangsan'
        ,
        'info:age'
        ,
        'man' 
       
 
          
        hbase(main):031:0> put 
        'tb1'
        ,
        'zhangsan'
        ,
        'address'
        ,
        'beijing' 
       
 
          
        hbase(main):046:0> put 
        'tb1'
        ,
        'lisi'
        ,
        'info:age'
        ,
        'woman' 
       
 
          
        hbase(main):047:0> put 
        'tb1'
        ,
        'lisi'
        ,
        'info:sex'
        ,
        '23' 
       
 
          
        hbase(main):048:0> put 
        'tb1'
        ,
        'lisi'
        ,
        'address'
        ,
        'shanghai' 
       
 
    

   
 

5.5 查看所有记录（全表扫描）

 
        hbase(main):040:0> scan 
        'tb1' 
       
        ROW              COLUMN+CELL                                                        
       
        zhangsan                column=address:,timestamp=1435129009088,value=beijing                                               
       
        zhangsan        column=info:age,timestamp=1435129054098, value=
        man                                            
       
        zhangsan        column=info:sex,timestamp=1435128714392, value=22

说明：

ROW：行，用来检索记录的主键。

COLUMN family：列族，是表的一部分，必须在创建表时定义，可以看到列名是以列族作为前缀，一个列族可以有多个列（column）。

CELL：存储单位，存储实际数据，也就是所看到的value，cell中没有数据类型，全部是字节码形式存储。

timestamp：时间戳，可以看做是数据版本号，hbase写时自动赋值，为当前系统时间，精确到毫秒。如果每个cell保存同一份数据多个版本时，可通过时间戳来索引版本。

5.6 统计表中记录总数

 
        hbase(main):050:0> count 
        'tb1' 
       
        2 row(s) 
        in 
        0.0190 seconds 
       
        => 2

5.7 查看表中某条记录

 
        hbase(main):054:0> get 
        'tb1'
        ,
        'zhangsan' 
       
        hbase(main):054:0> get 
        'tb1'
        ,
        'zhangsan' 
       
        COLUMN                  CELL                                                            
       
        address:               timestamp=1435129096397,value=beijing                             
       
        info:age               timestamp=1435129054098,value=
        man                                
       
        info:sex               timestamp=1435128714392,value=22

5.8 查看表中某行某列族中的所有数据

 
        hbase(main):055:0> get 
        'tb1'
        ,
        'zhangsan'
        ,
        'info' 
       
        COLUMN                  CELL                                                              
       
        info:age               timestamp=1435129054098,value=
        man                                
       
        info:sex               timestamp=1435128714392,value=22

5.9 更新一条记录（覆盖）

 
        hbase(main):063:0> put 
        'tb1'
        ,
        'zhangsan'
        ,
        'info:sex'
        ,
        '23' 
       
        0 row(s) 
        in 
        0.0080 seconds

6.0 给lisi增加一个comment字段

 
        hbase(main):070:0> incr 
        'tb1'
        ,
        'lisi'
        ,
        'info:comment'

6.1 删除某行某列族数据

 
        hbase(main):065:0> delete 
        'tb1'
        ,
        'zhangsan'
        ,
        'info:sex'

6.2 删除某行所有记录

 
        hbase(main):067:0> deleteall 
        'tb1'
        ,
        'zhangsan'

6.3 删除一个表

 
        hbase(main):072:0> disable 
        'tb1'  
        #先禁用 
       
        hbase(main):073:0> drop 
        'tb1'   
        #再删除

微信关注我们

原文链接：https://yq.aliyun.com/articles/38818

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hive动态分区

设置如下参数开启动态分区： hive.exec.dynamic.partition=true 默认值：false 描述：是否允许动态分区 hive.exec.dynamic.partition.mode=nonstrict 默认值：strict 描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的设置如下参数配置动态分区的使用环境： hive.exec.max.dynamic.partitions.pernode=100 默认值：100 描述：each mapper or reducer可以创建的最大动态分区数 hive.exec.max.dynamic.partitions=1000 默认值：1000 描述：一个DML操作可以创建的最大动态分区数 hive.exec.max.created.files=100000 默认值：100000 描述：一个DML操作可以创建的文件数设置如下参数取消一些限制(HIVE 0.7后没有此限制)： hive.merge.mapfiles=false 默认值：true 描述：是否合并Map的输出文件 hive.mer...

2016-05-05

708

基于Hadoop数据仓库Hive1.2部署及使用

接下来安装Hadoop数据仓库Hive，上节了解HBase简单使用，听起来HBase与Hive有些类似，概念也有点模糊，那我们先了解下他们之间有什么区别： HBase是一种分布式、面向列的NoSQL数据库，基于HDFS存储，以表的形式存储数据，表由行和列组成，列划分到列族中。HBase不提供类SQL查询语言，要想像SQL这样查询数据，可以使用Phonix，让SQL查询转换成hbase的扫描和对应的操作，也可以使用现在说讲Hive仓库工具，让HBase作为Hive存储。 Hive是运行在Hadoop之上的数据仓库，将结构化的数据文件映射为一张数据库表，提供简单类SQL查询语言，称为HQL，并将SQL语句转换成MapReduce任务运算。有利于利用SQL语言查询、分析数据，适于处理不频繁变动的数据。Hive底层可以是HBase或者HDFS存储的文件。两者都是基于Hadoop上不同的技术，相互结合使用，可处理企业中不同类型的业务，利用Hive处理非结构化离线分析统计，利用HBase处理在线查询。 Hive三种元数据存储方式： 1>.本地derby存储，只允许一个用户连接Hive...

2016-05-05

660

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。