大数据分享：Hbase精解-低调大师

大数据分享：Hbase精解

2019-05-26 663

大数据培训技术分享：Hbase精解，为什么有hbase?hbase是什么?Hbase的架构。

　　一、为什么有hbase?

　　数据量越来越大，传统的关系型数据库不能满足存储和查询的需求。而hive虽然能满足存储的要求，但是hive不能满足非结构化、半结构化数据的存储和查询。

　　二、hbase是什么?

　　hbase是一个开源的、分布式的、多版本的、可扩展的非关系型数据库。hbase是bigtable的开源java版本，建立在hdfs之上，提供高可靠性的、高性能、列式存储、可伸缩、实时读写的nosql数据库系统。适用的场景如：需要对海量非结构化的数据进行存储。

　　需要随机近实时的读写管理数据。

　　三、hbase的架构

　　clientzookeeperhmaster\

　　hregionserverhloghregionmemstorestorefilehfile

　　client：hbase的客户端，包含访问hbase的接口(linux shell 、java api)

　　client维护一些cache来加快访问hbase的速度，比如region的位置信息。

　　zookeeper：监控hmaster的状态，保证有些仅有一个active的hmaster，达到高可用。存储所有region的寻址入口，--root表在那台服务器上。实时监控hregionserver的状态，将regionserver的上下线信息实时通知给hmaster。存储hbase的所有表的信息(hbase的元数据)

　　hmaster：(hbase的老大)为regionserver分配region(新建表等)。负责regionserver的负载均衡。负责region的重新分配(hregionserver异常、hregion裂变)。hdfs上的垃圾文件回收。处理schema的更新请求。

　　hregionserver：(hbase的小弟)hregionserver维护master分配给他的region(管理本机器上region)。处理client对这些region的IO请求，并和hdfs进行交互

　　region server负责切分在运行过程中变大的region。

　　hlog：对hbase的操作进行记录，使用WAL写数据，优先写入log，然后再写入memstore，以防数据丢死可以进行回滚。

　　hregion：hbase中分布式存储和负载均衡的最小单元，表或者表的一部分。

　　store：相当于一个列簇。

　　memstore：128M内存缓冲区，用于将数据批量刷新到hdfs上。

　　hstorefile(hfile)：hbase中的数据是以hfile的形式存储在hdfs上。

　　各组件间的数量关系：

　　hmaster:hregionserver=1:n

　　hregionserver:hregion=1:n

　　hregionserver:hlog=1:1

　　hregion:hstore=1:n

　　store:memstore=1:1

　　store:storefile=1:n

　　storefile:hfile=1:1

　　hbase关键字词：

　　rowkey:行键，和mysql的主键是一样的，不允许重复，有顺序。

　　columnfamily:列簇(列的集合)。

　　column:列。

　　timestamp:时间戳，默认显示最新的时间戳。

　　version:版本号。

　　cell:单元格。

　　四、hbase和hadoop的关系

　　hbase是基于hadoop：hbase的存储依赖于hdfs。具体说hbase的特点：

　　模式：无模式。

　　数据类型：单一 byte[]。

　　多版本：每个值都可以有多个版本。

　　列式存储：一个列簇存储到一个目录。

　　稀疏存储：如果key-value为null，则将不占用存储空间。

　　再说hbase的安装：

　　1、standalone模式

　　1)解压并配置环境变量

　　tar -zxvf hbase-1.2.1-bin.tar.gz -C /usr/local

　　cd /usr/local

　　vi /etc/profile

　　source /etc/profile

　　2)测试hbase的安装

　　hbase version

　　配置hbase的配置文件

　　vi conf/hbase-env.sh

　　JAVA_HOME

　　注意：

　　# Configure PermSize. Only needed in JDK7. You can safely remove it for JDK8+

　　export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"。

　　export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"。

　　vi hbase-site.xml

　　hbase.rootdir

　　file:///usr/local/hbasedata

　　hbase.zookeeper.property.dataDir

　　/usr/local/zookeeperdata

　　启动hbase服务：

　　bin/start-hbase/sh

　　启动客户端：

　　bin/hbase shell

　　2、伪分布式

　　3、全分布式

　　解压并配置环境变量

　　配置hbase的配置文件

　　vi conf/hbase-env.sh

　　export HBASE_MANAGES_ZK=false

　　vi regionservers

　　vi backup-masters

　　vi hbase-site.xml

　　hbase.cluster.distributed

　　true

　　hbase.rootdir

　　hdfs://qianfeng/hbase

　　hbase.zookeeper.property.dataDir

　　/usr/local/zookeeperdata

　　hbase.zookeeper.quorum

　　hadoop05:2181,hadoop06:2181,hadoop07:2181

　　注意：

　　如果hdfs是高可用的，要讲hadoop下的core-site.xml和hdfs-site.xml copy到hbase/conf目录下。

　　分发：

　　scp -r hbase-1.2.1 root@hadoop06:$PWD

　　scp -r hbase-1.2.1 root@hadoop07:$PWD

　　启动：

　　1)启动zk

　　2)启动hdfs

　　3)启动hbase

　　hbase集群的时间必须同步。

　　hmaster：16010

　　hregionserver：16030

　　hbase的shell操作

　　help

　　help "COMMAND"

　　help "COMMAND_GROUP"

　　列举出当前namespace下的所有表

　　list

　　创建表：

　　create 'test','f1', 'f2'

　　namespace：

　　hbase没有库的概念，但是有名称空间或者组的概念，namespace相当于(库)

　　hbase默认有两个组：

　　default：

　　hbase：

　　列举出所有的namespcae：

　　list_namespace

　　list_namespace_tables 'hbase'

　　create_namespace 'ns1'

　　describe_namespace 'ns1'

　　alter_namespace 'ns1', {METHOD => 'set', 'NAME' => 'gjz1'}

　　alter_namespace 'ns1', {METHOD => 'unset', NAME => 'NAME'}

　　drop_namespace 'ns1' ###只能删除一个空的namespace

　　DDL:

　　Group name: ddl

　　Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, locate_region, show_filters

　　创建表：

　　create 'test','f1', 'f2'

　　create 'ns1:t_userinfo',{NAME=>'base_info',BLOOMFILTER => 'ROWCOL',VERSIONS => '3'}

　　create 'ns1:t1', 'f1', SPLITS => ['10', '20', '30', '40'] --事先分配好region所管辖的rowkey的范围。

　　修改表：(有则更新，无则新增)

　　alter 'ns1:t_userinfo',{NAME=>'extra_info',BLOOMFILTER => 'ROW',VERSIONS => '2'}

　　alter 'ns1:t_userinfo',{NAME=>'extra_info',BLOOMFILTER => 'ROWCOL',VERSIONS => '5'}

　　删除列簇：

　　alter 'ns1:t_userinfo', NAME => 'extra_info', METHOD => 'delete'

　　alter 'ns1:t_userinfo', 'delete' => 'base_info'

　　删除表：(先要禁用表)

　　disable 'ns1:t1'

　　drop 'ns1:t1'

　　DML:

　　Group name: dml

　　Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve

　　插入数据：(不能一次性插入多列)

　　put 'ns1:test','u00001','cf1:name','zhangsan'

　　put 'ns1:t_userinfo','rk00001','base_info:name','gaoyuanyuan'

　　put 'ns1:t_userinfo','rk00001','extra_info:pic','picture'

　　更新数据：

　　put 'ns1:t_userinfo','rk00001','base_info:name','zhouzhiruo'

　　put 'ns1:t_userinfo','rk00002','base_info:name','zhaoming'

　　表扫描(scan)

　　scan 'ns1:t_userinfo'

　　scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age']}

　　设置查询条件：(包头不包尾)

　　scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age'],STARTROW=>'rk000012',LIMIT=>2}

　　scan 'ns1:t_userinfo',{COLUMNS => ['base_info:name','base_info:age'],STARTROW=>'rk000012',ENDROW=>'rk00002',LIMIT=>2}

　　查询数据：(GET)

　　get 'ns1:t_userinfo','rk00001'

　　get 'ns1:t_userinfo','rk00001',{TIMERANGE=>[1534136591897,1534136667747]}

　　get 'ns1:t_userinfo','rk00001',{COLUMN=>['base_info:name','base_info:age'],VERSIONS =>4}

　　get 'ns1:t_userinfo','rk00001',{TIMESTAMP=>1534136580800}

　　删除数据：(DELETE)

　　delete 'ns1:t_userinfo','rk00002','base_info:age'

　　'ns1:t_userinfo','rk00001',{TIMERANGE=>[1534138686498,1534138738862]}

　　删除指定的版本：(往上删除版本)

　　delete 'ns1:t_userinfo','rk00001','base_info:name',TIMESTAMP=>1534138686498

　　表判断：

　　exists 'ns1:t_userinfo'

　　disable 'ns1:t_userinfo'

　　enable 'ns1:t_userinfo'

　　desc 'ns1:t_userinfo'

　　统计表：(统计效率较差，不建议使用)

　　count 'ns1:t_userinfo'

　　清空表：

　　truncate 'ns1:test'

　　学习大数据开发，内容包含Linux&&Hadoop生态体系、大数据计算框架体系、云计算体系、机器学习&&深度学习。

微信关注我们

原文链接：https://yq.aliyun.com/articles/703779

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

好程序员教你大数据必修三大技能快快记录下来

大数据，人工智能技术引领科技潮流，推开大数据时代的大门！国家点赞！政策扶持，前景斐然！紧接着，学习大数据的人才便如过江之鲫，络绎不绝！整体形势，欣欣向荣！在这里，好程序员为大家送上技术干货，助大家一臂之力，学习大数据技术，一定要注重培训质量，只有如此，方可事半功倍！接下来，就为大家讲解，大数据必修的三大课程！　一、Hadoop生态体系 Hadoop 是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。 Hadoop “栈”由多个组件组成。包括： 1.Hadoop分布式文件系统(HDFS)：所有Hadoop集群的默认存储层 2.名称节点：在Hadoop集群中，提供数据存储位置以及节点失效信息的节点。 3. 二级节点：名称节点的备份，它会定期复制和存储名称节点的数据，以防名称节点失效。 4.作业跟踪器：Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。 ...

2019-05-26

687

云数据库 HBase 请戳这里 !!!

2019-05-26

850

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。