Hbase基础使用与云Hbase2.0体验-低调大师

Hbase基础使用与云Hbase2.0体验

2019-03-19 670

又到金三银四的季节，相信各位都已经找到适合自己的工作了~当然我也悄悄告诉你我也找到了，去到更广阔的平台

今年开始决定正式进入大数据领域工作，从事大数据方向方面的开发。因为之前我一直在游戏公司，所以我选择领域是游戏行业的大数据解决方案。目前我的工作主要是负责建立一套游戏大数据运营系统，包括一套完善的游戏数据采集，计算，落地的系统。通过开发一套游戏大数据运营系统提供给我们的游戏运营大佬们。
通过整合海量数据处理、敏捷BI、智能算法等平台能力，提高游戏日志等数据向业务价值转化的效率及智能化水平。

以前游戏大部分处理游戏日志都是把原始数据通过游戏服保存至Mysql，然后GM后台通过一定的定时逻辑运行定时统计，统计后的数据存入Mysql结果库。随着数据量的不断增长，MySQL传统关系型数据库并不能满足日益增长的数据需求。作为数据仓库需要解决高可用，分布式，存储大量数据的数据库。Hbase就是不错的选择。同时传统的数据统计计算交由Mysql的统计语句对数据进行汇总统计，加剧数据库负担，并且对实际生产环境产生一定的影响。Mysql是一款数据存储引擎，并不适合做大量的数据汇总与计算。计算应该交由专业的计算引擎去做计算【参考计算框架：MR，Spark，Flink】

12f1fd19964419d1ad4740f70d90b972c8835722

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable。 Hbase作为大数据产品家族的一员，存储底层借助Hadoop的HDFS，能够存储海量数据，同时它和mongoDB一样，也是一款NoSQL产品，但是却有一定的区别，例如列族，RowKey这些概念。下面我们来看看Hbase的架构图

3622ec6cd07692728d1acaf79201fcbe590581b1

HBase 一种是作为存储的分布式文件系统，另一种是作为数据处理模型的 MR 框架。因为日常开发人员比较熟练的是结构化的数据进行处理，但是在 HDFS 直接存储的文件往往不具有结构化，所以催生出了 HBase 在 HDFS 上的操作。如果需要查询数据，只需要通过键值便可以成功访问。 HBase 内置有 Zookeeper，但一般我们会有其他的 Zookeeper 集群来监管 master 和 regionserver，Zookeeper 通过选举，保证任何时候，集群中只有一个活跃的 HMaster，HMaster 与 HRegionServer 启动时会向 ZooKeeper 注册，存储所有 HRegion 的寻址入口，实时监控 HRegionserver 的上线和下线信息。并实时通知给 HMaster，存储 HBase 的 schema 和 table 元数据，默认情况下，HBase 管理 ZooKeeper 实例，Zookeeper 的引入使得 HMaster 不再是单点故障。一般情况下会启动两个 HMaster，非 Active 的 HMaster 会定期的和 Active HMaster 通信以获取其最新状态，从而保证它是实时更新的，因而如果启动了多个 HMaster 反而增加了 Active HMaster 的负担。一个 RegionServer 可以包含多个 HRegion，每个 RegionServer 维护一个 HLog，和多个 HFiles 以及其对应的 MemStore。RegionServer 运行于 DataNode 上，数量可以与 DatNode 数量一致

264ad6e2c36dced218751195a745e61d788722d5

随着 Spark 以及其社区的不断发展，Spark 及 Spark SQL 本身技术的不断成熟，Spark 在技术架构和性能上都展示出 Hive 无法比拟的优势。以前我们常用Hive进行数据分析，目前Spark结合SparkStreaming，MLib等组件能完美配合完成大数据生态圈的工作

cbfd2023970e2506ca30839faadb265909413147

我们通常会通过Kafka消息队列对接SparkStreaming作为消费者，根据Group去消费一组业务的Topic，主要有以下场景：

Streaming实时读取Kafka数据做ETL
复杂的ETL可以实时读取HBase/Phoenix的维表数据做关联
结果数据写入HBase/Phoenix对外提供在线查询服务

现在阿里云最近在搞活动，免费1个月Hbase单节点版体验学习。借此机会赶紧学习一下~~ 白用白不用~ 赶紧撸了一台

阿里云Hbase访问控制台

通过管理开通公网访问权限，公网访问必须下载阿里云Hbase客户端，借助ECS 访问ZK地址去访问的。这个大家可以参考官方文档，我这里不做过多的描述。我们连接上去首先先来些简单操作，例如创建一张表Student：

Hbase-UI

我们首先创建表，然后往里面放入数据，人名为czy年龄23的和一条人名为yejoe的，sex为0的数据。Hbase这里存数据是使用put，不是insert，mongdob使用时update，mysql使用insert，大家意思都有点大同小异，最好扫描了一下表结构。

操作记录

取出用户数据和查看表结构

统计student条数（基于RowKey），然后我们修改表结构，最多有3版本，然后再次放入数据，可以看到每次get会取出最新的数据

我们可以看到Hbase控制台查看Table Schema

通过简单学习，是不是发现Hbase原来这么强大，后续我们还会介绍Hbase读写机制，Hbase实际生产应用

***部分图片来自阿里云Hbase

微信关注我们

原文链接：https://yq.aliyun.com/articles/694542

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch使用指南之Elasticsearch Mapping parameters(主要参数一览)

作者简介：《RocketMQ技术内幕》作者、中间件兴趣圈微信公众号维护者。本文将详细介绍Elasticsearch在创建索引映射时可指定的参数，并重点分析其含义。 1、analyzer指定分词器。elasticsearch是一款支持全文检索的分布式存储系统，对于text类型的字段，首先会使用分词器进行分词，然后将分词后的词根一个一个存储在倒排索引中，后续查询主要是针对词根的搜索。 analyzer该参数可以在每个查询、每个字段、每个索引中使用，其优先级如下（越靠前越优先）：1）字段上定义的分词器2）索引配置中定义的分词器3）默认分词器(standard) 在查询上下文，分词器的查找优先为：1）full-text query中定义的分词器2）定义类型映射时，字段中search_analyzer 定义的分词器。3）定义字段映射时analyzer定义的分词器4）索引中default_search中定义的分词器。5）索引中默认定义的分词器6）标准分词器（standard）。 2、normalizer规划化，主要针对keyword类型，在索引该字段或查询字段之前，可以先对原始数据进行一些简单的...

2019-03-19

680

机器名称启动服务linux11 namenode secondrynamenode datanodelinux12 datanodelinux13 datanode第一步：更改主机名，临时修改+永久修改临时修改：hostname linux11永久修改: vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=linux11临时修改：hostname linux12永久修改: vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=linux11临时修改：hostname linux13永久修改: vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=linux13第二步：配置ip地址1.三台机器关闭NetworkManager服务 service NetworkManager stop2.三台机器禁止开机启动NetworkManager服务 chkconfig NetworkManager off3. vi /etc/sysconfig/network-scri...

2019-03-20

672

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。