Alluxio使用——HBase篇-低调大师

Alluxio使用——HBase篇

2019-08-26 744

1.服务启停

Zookeeper

./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg

./zookeeper/bin.zkServer.sh stop

Hadoop

./hadoop/sbin/start-dfs.sh

./hadoop/sbin/stop-dfs.sh

HBase

./hbase/bin/start-hbase.sh

./hbase/bin/stop-hbase.sh

./hbase/bin/hbase-daemon.sh start master

./hbase/bin/hbase-daemon.sh start regionserver 1

./hbase/bin/hbase-daemon.sh stop master

./hbase/bin/hbase-daemon.sh stop regionserver 1

Alluxio

./alluxio/bin/alluxio local SudoMount

2.HBase配置

Apache HBase可以通过Hadoop文件系统来使用Alluxio

修改配置vi hbase-site.xml

<!-- 修改hbase.rootdir属性，可通过alluxio访问 -->
<property>
  <name>hbase.rootdir</name>
  <value>alluxio://master_hostname:19998/hbase</value>
</property>

<!-- 防止HBase以线程不安全的方式刷新Alluxio文件流 -->
<property>
  <name>hbase.regionserver.hlog.syncer.count</name>
  <value>1</value>
</property>

将alluxio的客户端jar复制到hbase的lib中

cp ./alluxio/client/alluxio-2.0.0.client.jar ./hbase/lib

验证

验证HBase

HBase Master URL： http://hbase_master_hostname:16010

验证Alluxio

Alluxio Master URL: http://alluxio_master_hostname:19999

3.测试

测试数据

创建HBase表，并模拟插入10000行数据；然后查询展示10行

编辑： vi alluxio_hbase_test.txt

create 'alluxio_hbase_test', 'cf1'
for i in Array(0..9999)
 put 'alluxio_hbase_test', 'rowid_'+i.to_s , 'cf1:value', 'value_'+i.to_s
end
list 'alluxio_hbase_test'
scan 'alluxio_hbase_test', {LIMIT => 10, STARTROW => 'row1'}
get 'alluxio_hbase_test', 'row1'

执行命令

./hbase/bin/hbase shell alluxio_hbase_test.txt

测试结果

使用Hadoop统计行数

./hbase/bin/hbase org.apache.hadoop.hbase.mapreduce.RowCounter alluxio_hbase_test.txt

微信关注我们

原文链接：https://yq.aliyun.com/articles/716053

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

好程序员分享MapReduce全过程解析

好程序员分享MapReduce全过程解析，移动数据与移动计算在学习大数据的时候接触了移动数据和移动计算这两种联系紧密而又有很大不同的概念，其中移动计算也叫做本地计算。在以前的数据处理中时使用的移动数据，其实就是将需要处理的数据传输到存放不同处理数据方式逻辑的各个节点上。这样做的效率很低，特别是大数据中的数据量是很大的，至少都是GB以上，更大的是TB、PB甚至更大，而且磁盘I/O、网络I/O的效率是很低的，这样处理起来就需要很长的时间，远远不能满足我们的要求。而移动计算就出现了。移动计算，也叫做本地计算，是数据就存放在节点上不再变动，而是将处理逻辑程序传输到各个数据节点上。由于处理程序的大小肯定不会特别的大，这样就可以实现很快将程序传输到存放数据的各个节点上去，然后本地执行处理数据，效率高。现在的大数据处理技术都是采用这种方式。言简意赅的说：Map阶段：1、Read：读取数据源，将数据进行filter成一个个的K/V2、Map：在map函数中，处理解析的K/V，并产生新的K/V3、Collect：输出结果，存于环形内缓冲区4、Spill：内存区满，数据写到本地磁盘，并生产临时文件5、C...

2019-08-26

616

1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.sh stop Hadoop ./hadoop/sbin/start-dfs.sh ./hadoop/sbin/stop-dfs.sh Hive ./hive/bin/hive ./hive/bin/hive --service metastore -p 9083 Alluxio ./alluxio/bin/alluxio local SudoMount 2.Alluxio操作下载测试数据稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。 MovieLens 100K电影收视率稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据，在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。 ...

2019-08-26

815

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。