HBASE解析-低调大师

HBASE解析

2016-01-19 536

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。总的来说，Hbase能够让你在大量的数据中查询记录，也可以从中获得综合分析报告。

谷歌曾经面对过一个挑战的问题：如何能在整个互联网上提供实时的搜索结果？答案是它本质上需要将互联网缓存，并重新定义在这样庞大的缓存上快速查找的新方法。为了达到这个目的，定义如下技术：

谷歌文件系统GFS：可扩展分布式文件系统，用于大型的、分布式的、数据密集型的应用程序。
BigTable：分布式存储系统，用于管理被设计成规模很大的结构化数据：来自数以千计商用服务器的PB级别的数据。
MapReduce：一个程序模型，用于处理和生成大数据集的相关实现。

在谷歌发布这些技术的文档之后, 不久以后我们就看到了它们的开源实现版本，就在2007年，Mike Cafarella发布了BigTable开源实现的代码，他称其为HBase，自此，HBase成为Apache的顶级项目，并运行在Facebook，Twitter，Adobe……仅举几个例子。

HBase不是一个关系型数据库，它需要不同的方法定义你的数据模型，HBase实际上定义了一个四维数据模型，下面就是每一维度的定义：

行键：每行都有唯一的行键，行键没有数据类型，它内部被认为是一个字节数组。
列簇：数据在行中被组织成列簇，每行有相同的列簇，但是在行之间，相同的列簇不需要有相同的列修饰符。在引擎中，HBase将列簇存储在它自己的数据文件中，所以，它们需要事先被定义，此外，改变列簇并不容易。
列修饰符：列簇定义真实的列，被称之为列修饰符，你可以认为列修饰符就是列本身。
版本：每列都可以有一个可配置的版本数量，你可以通过列修饰符的制定版本获取数据。

1. HBase Four-Dimensional Data Model

如图1中所示，通过行键获取一个指定的行，它由一个或多个列簇构成，每个列簇有一个或多个列修饰符（图1中称为列），每列又可以有一个或多个版本。为了获取指定数据，你需要知道它的行键、列簇、列修饰符以及版本。当设计HBase数据模型时，对考虑数据是如何被获取是十分有帮助的。你可以通过以下两种方式获得HBase数据：

通过他们的行键，或者一系列行键的表扫描。
使用map-reduce进行批操作

这种双重获取数据的方法使得HBase变得十分强大，典型地，在Hadoop中存储数据意味着它对离线或批处理方式分析是有益的（尤其是批处理分析），但是，对实时获取是不必要的。HBase通过key/value存储来支持实时分析，以及通过map-reduce支持批处理分析。让我们首先来看实时数据获取，作为key/value存储，key是行键，value是列簇的集合，如图2所示。

2. HBase as a Key/Value Store

如你在图2中看到的，key是我们所提到过的行键，value是列簇的集合。你可以通过key检索到value，或者换句话说，你可以通过行键“得到”行，或者你能通过给定起始和终止行键检索一系列行，这就是前面提到的表扫描。你不能实时的查询一个列的值，这就引出了一个重要的话题：行键的设计。

有两个原因令行键的设计十分重要：

表扫描是对行键的操作，所以，行键的设计控制着你能够通过HBase执行的实时/直接获取量。
当在生产环境中运行HBase时，它在HDFS上部运行，数据基于行键通过HDFS，如果你所有的行键都是以user-开头，那么很有可能你大部分数据都被分配一个节点上（违背了分布式数据的初衷），因此，你的行键应该是有足够的差异性以便分布式地通过整个部署。

你定义行键的方式取决于你想怎样存取那些行。如果你想以用户为基础存储数据，那么一个策略是利用字节队列在HBase中存储行键，所以我们可以创建一个用户ID的哈希（例如MD5或SHA-1），然后在哈希后面附上时间（long类型）。使用哈希有两个重点：（1）是它能够将value分散开，数据能够分布式地通过簇，（2）是它确保key的长度是一致的，以更加容易在表扫描中使用。

讲了足够多的理论，下面部分向你展示如何搭建HBase环境，并如何通过命令行使用。

你可以从Apache网站下载HBase，在写本文时，最新的版本是0.98.5，HBase团队推荐你在UNIX/Linux环境下安装HBase，如果你想在Windows下运行，你需要先安装Cygwin，并在这上运行HBase。当你下载完这些文件，解压到硬盘上。此外，你还需要安装Java环境，如果你还没有，从Oracle网站下载Java环境。在环境配置中添加名为HBASE_HOME的变量，值为你解压HBase文件的根目录，随后，执行bin文件夹下的start-hbase.sh脚本，它会在下面目录输出日志文件：

$HBASE_HOME/logs/

你可以在浏览器中输入下面URL测试是否安装正确：

http://localhost:60010

如果安装正确，你应该看到下面界面。

转自：http://blog.jobbole.com/83614/

微信关注我们

原文链接：https://yq.aliyun.com/articles/609073

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用rsync进行多服务器同步

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50549164 使用rsync进行多服务器同步 @(Others) 当集群数量很大时，修改配置文件和节点之间的文件同步是一件很麻烦且浪费时间的事情。 rsync是linux上实现不同机器之间文件同步、备份的工具，centos系统中默认已经安装，使用 rsync -h 检查是否已经安装rsync。使用前提确保各个节点部署的目录结构是一致的，不然同步起来很麻烦。使用过程在网上找到一大堆rsync的配置资料，然而使用起来不尽人意，对于初次使用rsync的人来说，各种配置显然太过复杂，需要一步步来熟悉。所以这里不会对rsync的配置文件进行任何修改，仅仅使用rsync的命令进行同步操作。需求需要同步各个节点上的hadoop、hbase和spark的配置文件，其余目录/文件不需要同步。 exclude文件在部署hadoop等父目录下，新建一个rsync-exclude.list文件，内容为不需要同步的目录/文件，每个目录/文...

2016-01-19

753

大数据体系结构: Spark简介 Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口 Spark on Yarn 从用户提交作业到作业运行结束整个运行期间的过程分析。一、客户端进行操作 1、根据yarnConf来初始化yarnClient，并启动yarnClient 2、创建客户端Application，并获取Application的ID，进一步判断集群中的资源是否满足executor和ApplicationMaster申请的资源，如果不满足则抛出IllegalArgumentException； 3、设置资源、环境...

2016-01-19

725

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

HBASE解析

使用rsync进行多服务器同步

Spark on Yarn年度知识整理

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Sublime Text

WebStorm

欢迎您来访！