Hbase客户端API基础小结笔记(未完)-低调大师

Hbase客户端API基础小结笔记(未完)

2016-05-27 671

客户端API：基础

　　HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable类提供的，通过这个类，用户可以完成向HBase存储和检索数据，以及删除无效数据之类的操作。

　　通常在正常负载下和常规操作下，客户端读操作不会受到其他修改数据的客户端影响，因为它们之间的冲突可以忽略不计。但是，当允许客户端需要同时修改同一行数据时就会产生问题。所以，用户应当尽量使用批量处理(batch)更新来减少单独操作同一行数据的次数。 (如果是实时系统，则需要加上synchronized关键字）

　　创建HTable实例是有代价的。每个实例都需要扫描.META表，以检查该表是否存在、是否可用，此外还要执行一些其他操作，这些检查和操作导致实例调用非常耗时，因此推荐用户只创建一次HTable实例（就好比在Hadoop的setup中创建一次实例，供后续mapreduce调用，最终在cleanup中close)

向HBase插入数据的example：

package HBaseTest;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

/**
 * Created by root on 5/27/16.
 */
public class PutExample {
    public static void main(String[] args){
       //加载配置文件
        Configuration conf = HBaseConfiguration.create();

        HTable table = null;
        try {
           //创建HTable对象
            table = new HTable(conf,"practice");
            //设置rowkey
            Put put = new Put(Bytes.toBytes("rowKeyNum1"));

            //设置要写入的列族，列与value           
　　　　　　　put.add(Bytes.toBytes("f1"),Bytes.toBytes("cardNo"),Bytes.toBytes("123456789"));
 
            table.put(put);
            //获取rowkey
            Get result = new Get("rowKeyNum1".getBytes());
            //将获取到的值放入Hbase的Result中
            Result rs = table.get(result);
            //获取指定列族的列的value
            String cardNo = Bytes.toString(rs.getValue("f1".getBytes(),"cardNo".getBytes()));
            System.out.println("---cardNo---" + cardNo);
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

　　数据和坐标都是以Java的byte[]形式存储的，即以字节数组的形式存储的。使用这种底层存储类型的目的是，允许存储任意类型的数据，并且可以有效地只存储所需的字节，这保证了最少的内部数据结构开销。另一个原因是，每一个字节数组都有一个offerset参数和一个length参数，它们允许用户提交一个已存在的字节数组，并进行效率很高的字节级别的操作。

客户端的写缓冲区

　　每一个put操作实际上都是一个RPC操作，它将客户端数据传送到服务器然后返回。这只适合小数据量的操作，如果有个应用程序需要每秒存储上千行数据到HBase表中，这样的处理就不太合适了。（一般情况下，在LAN网络中大概要花1毫秒的时间，这意味着1秒钟的时间内只能完成1000次RPC往返响应。）

　　HBase的API配备了一个客户端的写缓冲区(write buffer)，缓冲区负责收集put操作，然后调用RPC操作一次性将put送往服务器。（默认情况下，客户端缓冲区是禁用的，可以通过将自动刷写autoflush设置为false来激活缓冲区)

 HTable table = new HTable(conf,"practice");
 table.setAutoFlush(false);

　　客户端写缓冲区的大小默认是2MB，如果需要存储较大的数据，为了避免每次创建实例都要修改缓冲区大小，可以在hbase-site.xml配置文件中添加一个较大的预设值。

<property>
        <name>hbase.client.write.buffer</name>
        <value>20971520</value>
</property>

　　这会将缓冲区大小增肌到20MB，大小可以根据数据量等参考设置。

　　强制刷写数据可以调用table.flushCommits();直接产生一个RPC请求。

　　注意：

　　客户端缓冲区是一个简单的保存在客户端进程内存中的列表，用户需要注意不能在运行时终止程序，如果发生这种情况，哪些尚未被刷写的数据就会丢失，服务器将无法收到数据，因此这些数据没有任何副本可以用来做数据恢复。

　　另外注意，一个更大的缓冲区需要客户端和服务器端消耗更多的内存，因此服务器端也需要先将数据写入到服务器端消耗更多的内存，因为服务器端也需要先将数据写入到服务器的写缓冲区中，然后再处理它，估算服务器端内存的占用可使用hbase.client.write.buffer 乘以 hbase.regionserver.handle.count 乘以region服务器的数量。

　　如果用户只存储大单元格，客户端缓冲区的作用就不大了，因为传输时间占用了大部分的请求时间。

参考：《HBase权威指南》

微信关注我们

原文链接：https://yq.aliyun.com/articles/609024

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark性能优化

Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如实时性一般不在考虑范围之内，通常我们用Spark来处理的数据，都是要求异步得到结果的数据；再比如数据量一般都很大，要不然也没有必要在集群上操纵这么一个大家伙，等等。事实上，我们都知道没有银弹，但是每一种性能优化场景都有一些特定的“大boss”，通常抓住和解决大boss以后，能解决其中一大部分问题。比如对于portal来说，是页面静态化，对于web service来说，是高并发（当然，这两种可以说并不确切，这只是针对我参与的项目总结的经验而已），而对于Spark来说，这个大boss就是shuffle。首先要明确什么是shuffle。Shuffle指的是从map阶段到reduce阶段转换的时候，即map的output向着reduce的input映射的时候，并非节点一一对应的，即干map工作的sl...

2016-05-26

698

数据流 MapReduce作业(job)是客户端执行的单位：它包括输入数据、MapReduce程序和配置信息。Hadoop把输入数据划分成等长的小数据发送到MapReduce，称之为输入分片。Hadoop为每个分片创建一个map任务，由它来运行用户自定义的map函数来分析每个分片中的记录。这里分片的大小，如果分片太小，那么管理分片的总时间和map任务创建的总时间将决定作业的执行的总时间。对于大数据作业来说，一个理想的分片大小往往是一个HDFS块的大小，默认是64MB（可以通过配置文件指定） map任务的执行节点和输入数据的存储节点是同一节点时，Hadoop的性能达到最佳。这就是为什么最佳分片的大小与块大小相同，它是最大的可保证存储在单个节点上的数据量如果分区跨越两个块，那么对于任何一个HDFS节点而言，基本不可能同时存储着两数据块，因此此分布的某部分必须通过网络传输到节点，这与使用本地数据运行map任务相比，显然效率很低。 reduce任务并不具备数据本地读取的优势，一个单一的reduce的任务的输入往往来自于所有mapper的输出。因此，有序map的输出必须通过网络传输到reduc...

2016-05-27

651

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。