Spark on HBase Connector:如何在Spark侧设置HBase参数
前言
X-Pack Spark可以使用Spark on HBase Connector直接对接HBase数据库,读取HBase数据表数据。有时在读取HBase时需要设置HBase的一些参数调整性能,例如通过设置hbase.client.scanner.caching的大小调整读取HBase数据的性能。使用Spark作为客户端查询HBase数据库的客户端需要有传递参数的能力。本文就列举了Spark侧传递HBase参数的方法。
注意:本文的案例以X-Pack Spark和云HBase数据库作为背景。
案例描述
提前在HBase中创建一张表,表的格式如下:
表名:hbase_t0 CF: cf1 column1: cf1:col_str column2: cf1:col_int column3: cf1:col_float column4: cf
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2019年美团、滴滴、蘑菇街Java岗9次面试总结
大概在三月份开始面了几家互联网公司,主要方向是java后端和大数据开发,最近整理学习资料,都快秋招了,发的有点晚了,不过还是想分享一下。美团,滴滴,蘑菇街等公司的面经。 美团 一面聊你最熟悉的项目和技术。项目中为什么要使用spark。spark怎么划分stage,宽窄依赖,聊源码spark提交一个作业的执行流程(单机模式)spark driver节点,worker以及master节点遇到故障如何解决。spark checkpoint原理聊JVM内存划分与GC算法。JVM中为什么需要使用分代收集算法,有什么好处。手撕代码:输入一个链表和一个定值x,要求将值小于x的所有节点置换到x的左侧,值大于x的所有节点置换到x右侧,另外需要保持原有前后关系。比如:输入:1->4->3->2->5->2 and x = 3,输出:1->2->2->3->4->5.其中:1/2/2小于3,4/5大于3,而且输入的前后顺序也是1/2/2,4/5一面刚开始是分布式存储团队,主要技术栈是hadoop,hbase以及hive,后来感觉我对分布式计算感兴趣...
- 下一篇
大数据心法来了!一站式玩转MaxCompute,还有开发者资源等你领!
阿里云大数据计算平台开发者版2019年3月推出,MaxCompute正在成为开发者的免费大数据平台。今天,MaxCompute在企业构建自己的数据处理平台实践中起到了至关重要的作用,我们特别精选了企业的真实实践案例:从最大的兴趣社群平台小打卡;到90后、00后喜欢的克拉克拉;从互联网金融的典型天弘基金;到耳熟能详的二手车平台人人车……为你带来了超多的MaxCompute玩法。 小打卡案例 >>>小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。在这样超大的内容生产背景下,平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。相反,如果完全基于开源的Hadoop框架,从服务部署、可视化开
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度