HBase - Phoenix剖析

2016-04-24 830

1.概述

　　在《Hadoop－Drill深度剖析》一文当中，给大家介绍了Drill的相关内容，就实时查询来说，Drill基本能够满足要求，同时还可以做一个简单业务上的聚合，如果在使用Hive做一些简单的业务统计（不涉及多维度，比如CUBE，ROLLUP之类的函数），只是用一些基本的聚合函数或是JOIN ON之类的，Drill基本满足要求，而且响应速度可比OLTP。今天给大家剖析的是另外一种工具，由于目前Drill官方不支持对表的插入，更新操作。所以，在操作HBase的时候，若遇到这些需求，Drill就有点力不从心。那么，Phoenix可以满足以上需求。它更接近与标准的SQL。

2.Architecture

　　在Phoenix中SQL Query Plan的执行，基本上是通过构建一系列的HBase Scan来完成。为了尽可能减少数据的传输，在Region Server使用Coprocessor来尽可能的执行Aggregate相关的工作，基本实现的思路是使用RegionObserver在 PostScannerOpen Hook中将RegionScanner替换成支持Aggregation工作的定制化的Scanner，具体的Aggregate操作通过Custom 的Scan属性传递给RegionScanner。然与基于MapReduce的框架执行Plan的思想比较，基本上就是通过Coprocessor，使用RegionServer自身来在各个节点上执行Aggregation。另外，通过各种定制的Filter在HBase的RegionScanner Scan过程中，尽早的将不相关的数据过滤掉。采用JDBC接口和应用程序交互。

3.Grammar

　　本篇博客所对应的软件版本号，如下所示：

HBase：0.98
Phoenix：4.6-HBase-0.98

　　这里需要注意的是，Phoenix的版本是和HBase版本相匹配的，可以在Phoenix的官网选择对应的HBase版本。就本篇博客截止，官方所支持的语法如下图所示：

3.How to use

　　如何将Phoenix嵌入到现有业务当中，其实，Phoenix只是一个中间件（或是一个HBase的SQL插件），它的使用较为简单，首先，我们准备好对应的安装包，下载地址如下所示：

［Phoenix-HBase-0.98］［下载地址］

　　然后，将Phoenix目录下的phoenix-*.jar拷贝到HBase的lib目录，这里面是将所有的插件均拷贝到HBase了，若是只使用个别插件，大家可按需选择即可。然后重启HBase集群即可。

3.1 Shell Client

　　这里，我们可以验证Phoenix是否可用，可以通过终端来验证，在Phoenix的bin目录当中有一个sqlline.py脚本，可以通过该脚本来操作HBase中的表，命令如下所示：

./sqlline.py zk01,zk02,zk03:2181

　　通过英文感叹号可以获取帮助命令，如下图所示：

　　然后，我们可以做一些测试来，验证起可用性。如下图所示：

　　脚本如下所示：

 
    
      
        
        
          create 
          table 
          test3 (mykey 
          integer 
          not 
          null 
          primary 
          key
          , mycolumn 
          varchar
          ); 
         
 
          upsert 
          into 
          test3 
          values 
          (1,
          'Hello'
          ); 
         
 
          upsert 
          into 
          test3 
          values 
          (2,
          'World2'
          ); 
         
 
          upsert 
          into 
          test3 
          values 
          (3,
          'World3'
          ); 
         
 
          upsert 
          into 
          test3 
          values 
          (4,
          'World4'
          ); 
         
 
          upsert 
          into 
          test3 
          values 
          (5,
          'World5'
          ); 
         
 
          select 
          * 
          from 
          test3; 
         
 
      

     
   

3.2 JDBC

　　另外，Phoenix也支持JDBC去访问，这里笔者给大家写了一个示例代码，如下所示：

 
          package 
          cn.smrtloli.phoenix.demo; 
         
          import 
          java.sql.Connection; 
         
          import 
          java.sql.DriverManager; 
         
          import 
          java.sql.ResultSet; 
         
          import 
          java.sql.SQLException; 
         
          import 
          java.sql.Statement; 
         
          /**
         
          * @Date Dec 14, 2015 
         
          * 
         
          * @Author dengjie 
         
          * 
         
          * @Note TODO 
         
          */ 
         
          public 
          class 
          PhoenixDemo { 
         
          private 
          static 
          String driver = 
          "org.apache.phoenix.jdbc.PhoenixDriver"
          ; 
         
          public 
          static 
          void 
          main(String[] args) 
          throws 
          SQLException { 
         
          try 
          { 
         
          Class.forName(driver); 
         
          } 
          catch 
          (ClassNotFoundException e) { 
         
          e.printStackTrace(); 
         
          } 
         
          Statement stmt = 
          null
          ; 
         
          ResultSet rset = 
          null
          ; 
         
          Connection con = DriverManager.getConnection(
          "jdbc:phoenix:zk01,zk02,zk03:2181"
          ); 
         
          stmt = con.createStatement(); 
         
          String sql = 
          "select * from test3"
          ; 
         
          rset = stmt.executeQuery(sql); 
         
          while 
          (rset.next()) { 
         
          System.out.println(rset.getString(
          "mycolumn"
          )); 
         
          } 
         
          stmt.close(); 
         
          con.close(); 
         
          } 
         
          }

　　另外，在pom.xml中添加如下依赖JAR文件，内容如下所示：

<dependency>
    <groupId>org.apache.phoenix</groupId>
    <artifactId>phoenix-core</artifactId>
    <version>4.6.0-HBase-0.98</version>
</dependency>

　　运行结果，如下所示：

4.总结

　　就使用的结果来看，虽然满足了一些CRUD的操作，然其在HBase的基础上完成，过于依赖HBase，对其他存储介质的支持有限。总体来说，对于HBase中已有数据，做标准的SQL操作来说，是足够了。另外，时延要求较高的业务，还是用HBase的API来完成，Phoenix虽说速度、性能较快，毕竟不能严格意义上达到OLTP。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

微信关注我们

原文链接：https://yq.aliyun.com/articles/34050

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop－Drill深度剖析

1.概述在《Hadoop - 实时查询Drill》一文当中，笔者给大家介绍如何去处理实时查询这样的业务场景，也是简略的提了一下如何去实时查询HDFS，然起相关细节并未说明。今天给大家细说一下相关细节，其中包含：HDFS，Hive以及HBase等内容。 2.数据源和文件格式在使用Drill去做实时查询，由于其只是一个中间件，其适配的存储介质是有限制的，目前官方支持以下存储介质： FS HDFS HBase Hive RDBMS MongoDB MapR-DB S3 这里笔者主要给大家介绍HDFS，Hive，HBase这三种介质。另外，Drill支持以下输入格式的数据源： Avro CSV TSV PSV Parquet MapR-DB* Hadoop Sequence Files 2.1 文本类型文件（CSV，TSV，PSV）下面笔者给大家介绍文本类型的相关细节，文本类型的使用，有其固定的使用方法，通用配置如下： "formats": { "csv": { "type": "text", "extensions": [ "txt" ], "delimiter": "\t" }, "...

2016-04-25

613

1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台，可以快速帮助搭建Hadoop及相关以来组件的平台，管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学者省去搭配各个社区版的烦恼。 2.How to works 在Ambari的官方WIKI上介绍了如何去使用Ambari，［官方文档］。官方说法比较简要，下面我补充相关注意事项，并给大家罗列一个详细的步骤。 2.1 Env 首先，节点（物理机）需要实现准备好，这里笔者准备了5台节点，大家可以按需选择。所使用的系统为CentOS6.6，JDK为 1.7，MySQL为5.1；另外，需要各个节点SSH面密码登录，关闭各个节点的防火墙，selinux置为disabled。这些环境的准备较为简单，这里就不多赘述了。大家可以利用搜索引擎去完成。 2.2 Exception 在deploy的过程当中，会出现一些忽略的环境因素，首先是时间同步问题，在HBase集群之间需要保证时间的一致性（或是时间间隔极短），否则，时间不同步，会导致HBase集群异常，因而，这里我们可以事先将时间同步，命令...

2016-04-25

660

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。