【原创】HBase 基础知识-低调大师

【原创】HBase 基础知识

2016-05-11 638

特点

1. 在 HDFS 之上开发的；
2. 面向列（实际是面向列族）的存储器
3. 实时读写
4. 随机读写
5. 针对超大规模数据集
6. 不支持 SQL

基本概念

单元格（cell）

由行和列的坐标交叉决定，有版本号；
版本号默认为自动分配，为 HBase 向单元格插入数据时的时间戳；
单元格中的内容为未解释的字节数组

行的键

表中行的键为字节数组；
表中的行根据行的键值（即表的主键）进行排序；
排序依据为字节序；
所有对表的访问都要通过表的主键（二级索引问题）；

列族（column family）

行中的列会被划分成不同的列族；
同一列族中成员具有相同的前缀；
列族的前缀必须是可打印字符构成的；
列族修饰符，即结尾字符，可以为任意字符；
在 HBase 中，规定使用冒号来分隔列族和列族修饰符；
一个表的列族必须作为表模式定义的一部分预先给出，但是心的列族成员可以随后按需要加入；
物理上，所有的列族成员都一起存放在文件系统中；
HBase 的调优和存储都在列族这个层次上进行的，所以最好使所有列族成员都有相同的访问模式（access pattern）和大小特征。

区域（region）

HBase 自动把表水平划分成区域；
每个区域由表中行的子集构成；
一开始，一个表只有一个区域，随着表变大，区域的个数也会增加；
区域是在 HBase 中分布数据的最小单位；
在线的所有区域按次序排列就构成了表的所有内容；

锁
无论对行进行访问的事务牵涉多少列，对行的更新都是原子的；

构成

HBase 模型为一个 Master 节点负责协调管理一个或多个 Regionserver 从属机；
Master 负责：启动（bootstrap）、全新的安装、将区域分配给注册的 Regionserver 、恢复 Regionserver 的故障。
Regionserver 负责：零个或多个区域的管理，响应客户端的读写请求，区域的划分，通知 Master 有新子区域（daughter region）产生；
HBase 依赖于 Zookeeper ，默认情况下，HBase 管理一个 Zookeeper 实例，用于作为集群的权威（authority）；
HBase 负责管理根目录表（root catalog table）的位置、当前集群 Master 地址等重要信息；

相关文件

conf/regionservers -- 可以查看 Regionserver 节点信息
conf/hbase-site.xml 和 conf/hbase-env.sh -- 集群站点配置

持久化接口

本地文件系统接口（默认）
KFS 文件系统接口
Amazon S3 接口
HDFS 接口

若要使用 HBase 集群，则通常要把 HBase 的存储配置为指向 HDFS 集群；

特殊表（涉及数据定位过程问题）

-ROOT- 表包含 .META. 表的区域列表；
.META. 表包含所有用户空间区域（user-space region）的列表；

在 Regionserver 上进行读写操作

写操作

追加方式写入提交日志（commit log），提交日志存放在 HDFS 中（保证高可用）；
写入内存中的 memstore ；
若 memstore 满，则刷入（flush）文件系统；

读操作

查看区域（region）的 memstore ；
若在 memstore 中找到需要的版本则直接返回，否则按照次序从新到旧检查 flush file ；

Regionserver 上存在一个后台进程负责在 flush file 数量达到阈值后，对其进行压缩处理（将多个文件的内容处理后写入一个文件中）

HBase 提供的对外接口

Avro
REST
Thrift

通过上述接口和 HBase 集群进行双向交互时，需要 HBase 客户端实例进行代理，故比直接 JAVA 客户端交互更慢。

服务的启动和停止

hbase-daemon.sh <start|stop> <rest|thrift|avro>

对比

HDFS 和 MapReduce 适用于对大数据集进行批处理，但对于读或写单独的记录，效率很低；而 HBase 可以高效完成；
HDFS 和 MapReduce 不擅长在有更新到达时维护索引（虽然 MapReduce 作业可以用于建立索引以支持随机访问），所以不符合低延时查询需求，而 HBase 可以；

大数据集需求 -> 排除 RDBMS 的使用（可能有点绝对）
低查询延时 -> 排除直接使用 HDFS ；

微信关注我们

原文链接：https://yq.aliyun.com/articles/42352

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

前言目前Aliyun E-MapReduce支持了Appache Zeppelin和Hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。 Apache Zeppelin是一个提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括spark, hive, tajo等，原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的，就是来自于当时的demo。 Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以

2016-05-10

1162

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51249119 前言当一个应用向YARN集群提交作业后，此作业的多个任务由于负载不均衡、资源分布不均等原因都会导致各个任务运行完成的时间不一致，甚至会出现一个任务明显慢于同一作业的其它任务的情况。如果对这种情况不加优化，最慢的任务最终会拖慢整个作业的整体执行进度。好在mapreduce框架提供了任务推断执行机制，当有必要时就启动一个备份任务。最终会采用备份任务和原任务中率先执行完的结果作为最终结果。由于具体分析推断执行机制，篇幅很长，所以我会分成几篇内容陆续介绍。推断执行测试本文在我自己搭建的集群（集群搭建可以参阅《Linux下Hadoop2.6.0集群环境的搭建》一文）上，执行wordcount例子，来验证mapreduce框架的推断机制。我们输入以下命令： hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount -D map...

2016-05-11

723

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。