创建Cloudhbase维表
创建 Cloudhbase 维表
维表的 Query 语法详见: 维表 JOIN 文档
示例
CREATE TABLE hbase (
`key` varchar,
`name` varchar,
(` `), -- hbase 中的 row 字段
PERIOD FOR SYSTEM_TIME --维表标识。
) with (
TYPE = 'cloudhbase',
zkQuorum = 'xxx',
columnFamily = 'xxx',
tableName = 'dim_seo'
);
注意:声明维表时,必须要指名主键。维表JOIN的时候,ON的条件必须包含所有主键的等值条件。Cloudhbase中的主键即rowkey。
WITH参数
参数 | 注释说明 | 备注 |
---|---|---|
zkQuorum | Cloudhbase集群配置的zk地址,是以(,)分隔的主机列表。 | 可以在hbase-site.xml文件中找到hbase.zookeeper.quorum相关配置。 |
zkNodeParent | 集群配置在zk上的路径 | 可以在hbase-site.xml文件中找到hbase.zookeeper.quorum相关配置。 |
tableName | hbase 表名 | 无 |
columnFamily | 列族名 | 目前只支持插入同一列族。 |
userName | 用户名 | 无 |
password | 密码 | 无 |
maxRetryTimes | 最大尝试次数 | 默认10次 |
partitionedJoin | 设置为true之后会在用joinKey做partition,将数据分发到join节点,提高缓存命中率 | 可选,默认关闭 |
shuffleEmptyKey | 设置为true之后遇到空key会随机往下游做shuffle,否则往0号下游发 | 建议打开 |
Cache 参数
参数 | 注释说明 | 备注 |
---|---|---|
cache | 缓存策略 | 默认 None , 可选 LRU , ALL 。 |
cacheSize | 缓存大小 | 当选择 LRU 缓存策略后,可以设置缓存大小,默认 10000 行。 |
cacheTTLMs | 缓存超时时间,单位毫秒。 | 当选择 LRU 缓存策略后,可以设置缓存失效的超时时间,默认不过期。当选择 ALL 策略,则为缓存reload 的间隔时间,默认不重新加载。 |
cacheReloadTimeBlackList | ALL Cache 时启用,更新时间黑名单,防止在此时间内做cache 更新(如双11场景)。 | 可选,默认空,格式为2017-10-24 14:00 -> 2017-10-24 15:00, 2017-11-10 23:30 -> 2017-11-11 08:00 。用逗号(,)来分隔多个黑名单,用箭头(->)来分割黑名单的起始结束时间。 |
cacheScanLimit | ALL Cache 时启用,load全量HBase数据,服务端一次RPC返回给客户端的行数。 | 可选,默认100条 |
目前RDS/DRDS提供如下三种缓存策略。
- None:无缓存。
- LRU:最近使用策略缓存。需要配置相关参数:缓存大小(cacheSize)和 缓存超时时间(cacheTTLMs)。
- ALL:全量缓存策略。在Job运行前会将远程表中所有数据load到内存中,之后所有的维表查询都会通过 cache进行。cache命中不到则不存在,并在缓存过期后重新加载一遍全量缓存。全量缓存策略适合远程表数据量小、miss key多的场景。全量缓存相关配置:缓存更新间隔(cacheTTLMs),更新时间黑名单(cacheReloadTimeBlackList)。
注意:因为会异步reload,使用cache all的时候,需要将维表JOIN的节点增加一些内存,增加的内存大小为远程表两倍的数据量。
本文转自实时计算——创建Cloudhbase维表
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
创建云数据库 Hbase结果表
本页目录 创建云数据库 Hbase结果表 WITH参数 创建云数据库 Hbase结果表 create table liuxd_user_behavior_test_front ( row_key varchar, from_topic varchar, origin_data varchar, record_create_time varchar, PRIMARY KEY (row_key) ) with ( type = 'cloudhbase', zkQuorum = 'xxx' columnFamily = 'xxx', tableName = 'xxx', batchSize = '500' ) 注意: primary key支持定义多个字段。多个字段会按照rowkeyDelimiter(默认为(:))拼接起来作为rowkey。 hbase做撤回删除操作时,如果column定义了多版本,会把所有版本的值清空。 WITH参数 参数 注释说明 备注 zkQuorum hbase集群配置的zk地址 可以在hbase-site.xml文件中找到hbase.zookeeper.quoru...
- 下一篇
所见不凡,带你探秘独角兽背后的大数据力量 | MaxCompute杭州Meetup报名中
阿里云MaxCompute X 众安保险 X 亲宝宝 X 中金易云 X 蚂蚁金服邀您共赴杭州大数据计算线下Meetup现在报名>> 双11的热度还未退却,大数据力量强势来袭。是什么拖住了大数据开发者的后腿?集群资源获取难?存储计算成本高?运维起夜?大规模存储和计算被瓶颈?被业务方吐槽数据总是转圈圈。。。 此处借友商之词,我们愿意 “读懂你的焦虑,敬畏你的数据,关心你的未来”,你可愿一起? 11月24日下午13:30 带你所见不凡,探秘独角兽背后的数据力量和计算价值。 【活动介绍】阿里巴巴MaxCompute是一种安全可靠、高效能、低成本、从GB到EB级别的大数据计算服务。能够快速解决用户海量数据的计算问题,有效降低企业大数据计算平台的总体拥有成本,提升大数据应用开发效率,保障数据的云上安全。2018年双11,作为阿里巴巴集团统
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Mario游戏-低调大师作品
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音