hbase和zookeeper的安装和部署

2016-04-18 674

1.概要

1.1HBase的使用场景

 大数据量（100s TB级数据）且有快速随机访问的需求。

 例如淘宝的交易历史记录。数据量巨大无容置疑，面向普通用户的请求必然要即时响应。

 容量的优雅扩展。

 大数据的驱使，动态扩展系统容量的必须的。例如：webPage DB。

 业务场景简单，不需要关系数据库中很多特性（例如交叉列、交叉表，事务，连接等等）。

 优化方面：合理设计rowkey。因为hbase的查询用rowkey是最高效的，也几乎的唯一生产环境可行的方式。所以把你的查询请求转换为查询rowkey的请求吧。

1.2软件准备

hbase-0.98.8 【下载地址】

zookeeper-3.4.6 【下载地址】

2.配置

sudo vi /etc/profile
HBASE_HOME=/home/hadoop/source/hbase-0.98.8
ZK_HOME=/home/hadoop/source/zookeeper-3.4.6
PATH=$HBASE_HOME/bin:$ZK_HOME/bin
export HBASE_HOME ZK_HOME

hbase-env.sh

export JAVA_HOME=/usr/jdk1.7

启动shell：

hbase shell

启动hbase：

start-hbase.sh

3.ZK

3.1概要

zk可以用来保证数据在zk集群之间事务性一致，如：

删除Server1中的数据后，其他集群的Server会自动同步删除之后的数据。

3.2安装

集群的规模小于等于3，各个集群的系统时间必须一致。
安装

（1）解压zk的压缩包到指定位置。

（2）修改conf文件，cp zoo_sample.cfg zoo.cfg

（3）编辑zoo.cfg 修改dataDir=/home/zk/data 新增 server.0=hadoop0:2888:3888 server.1=hadoop1:2888:3888 server.2=hadoop2:2888:3888

（4）创建文件夹 mkdir /home/zk/data 在data目录下，创建文件myid，值为0

（5）用scp命令分发zk文件夹到集群

3.3启动/验证

启动zk的服务：zkServer.sh start

验证zk的启动状态：zkServer.sh status

4奇数选举

zookeeper的集群数推荐配置奇数，Leader选举算法采用了Paxos协议，该协议的核心思想是当多数Server写成功时，则任务数据写成功，如：

有3个Server，则两个写成功即可；
有4或5个Server，则三个写成功即可；
如果有3个Server，则最多运行1个Server挂掉
如果有4个Server，则同样最多运行1个Server挂掉

由此，我们可以看出3台服务器和4台服务器的容灾能力是一样的，所以为了节约服务器资源，一般我们采用奇数个数，作为服务器部署个数。

微信关注我们

原文链接：https://yq.aliyun.com/articles/30990

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

网站日志统计案例分析与实现

1.概要到这一步，若是按照前面到文章一步走来，不出意外，我想hadoop平台环境应该搭建OK了。下面我以自己工作中实际的案例来梳理一下整个流程。同时参考一些其他的文章来分析，由于很多网站的日志KPI都大同小异，故有些指标直接在文中赘述了。 2.流程背景前言目录日志分析概述需求分析源码 2.1 背景从2011年开始，中国进入大数据时代如火如荼，以Hadoop为代表的套件，占据了大数据处理的广阔地盘。开源界及厂商，所有数据软件，纷纷向Hadoop靠拢。Hadoop也从小规模的试点和使用，变成了大数据开发的标准。在Hadoop原有技术基础之上，出现了Hadoop家族产品，通过大数据概念的不断创新，推进了Hadoop的发展速度。如今，Hadoop2.x的出现，使很多企业纷纷主动去接受Hadoop这个平台，因此，作为IT界的开发人员，了解并掌握Hadoop的技能，成为开发人员必备的一项技能。也是今后主流的一种趋势。注：Hadoop2.x的出现为何引起这么大大反响，这里不做赘述。 2.2 前言 Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网...

2016-04-19

618

1.概述这篇博客是接着《高可用Hadoop平台》系列讲，本篇博客是为后面用 Hive 来做数据统计做准备的，介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具，下面我打算分以下流程来赘述：环境准备集成并配置 Hive 工具使用 Java API 开发 Hive 代码下面开始进行环境准备。 2.环境准备 Hive版本：《Hive-0.14》 HAProxy版本：《HAProxy-1.5.11》注：前提是 Hadoop 的集群已经搭建完成，若还没用完成集群搭建，可以参考《配置高可用的Hadoop平台》需要安装的工具，我们已经准备好了，接下来给出 Hive 搭建的结构图，如下图所示：这里由于集群资源有限，所以将 HAProxy1 配置在 NNA 节点，HAProxy2 配置在 NNS 节点，Hive1，Hive2，Hive3分别配置在 DN1，DN2，DN3 节点。如下表所示：服务器角色 NNA HAProxy1 NNS　 HAProxy2 DN1 Hive1 DN2　 Hive2 DN3 Hive3 我们将下载好的 Hive 安装包和 HAProxy ...

2016-04-19

585

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。