EMR Spark Relational Cache如何支持雪花模型中的关联匹配
Relational Cache相关文章链接:
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
EMR Spark Relational Cache的执行计划重写
背景
Join是Spark SQL中非常常见的操作,数据表按照业务语义的范式化表定义,便于用户理解与使用,而且可以消除冗余数据。用户通过join操作将相关的数据关联后进行进一步的过滤,聚合等操作。在Spark中,Join通常是代价比较大,尤其是当join的两个表的数据都比较大,无法优化为map join时,需要通过网络shuffle两个表的数据,对数据按照jion字段进行重新组织。Relational Cache是EMR Spark支持的重要特性,类似于数据仓库的物化视图,将反范式化表(即
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据库的七种武器-序章
数据库简介 名称 特点 劣势 描述 Oracle 多表关联 事务 收费贵 水平扩展麻烦 重剑无锋,大巧不工,数年前持之横行天下 Mysql 水平扩展容易 多表关联效率较慢 不滞于物,草木竹石均可为剑 Postgresql 多表关联相比Mysql效率较高 水平扩展相对麻烦 凌厉刚猛,无坚不摧,现以之与河朔群雄争锋 Redis 缓存、效率极高 key不能涉及太大不要一次操作太多key1 小李飞刀,迅疾如电,例无虚发 MongoDB NOSQL支持二级索引水平扩展容易效率较高 事务支持较差 自此精修,渐进于无剑胜有剑之境 Hive 分布式数据库超大数据量存储 查询效率较慢 霸王长枪,破釜沈舟,势如破竹 Neo4J 图数据库支持事务 数据量较大时效率较慢 悠悠天地做棋盘,芸芸众生为棋子 redis ↩
- 下一篇
Flink Broadcast State实用指南
从1.5.0开始,Flink提供了一种新的State类型,称为Broadcast State。在这篇文章中,我们将解释什么是Broadcast State,并展示如何将其应用于评估事件流上的动态模式的应用的示例。我们将向您介绍处理步骤和源代码,以实现此应用。 什么是Broadcast State? Broadcast State可用于以特定方式组合和联合处理两个事件流。第一个流的事件被广播到一个算子的所有并行实例,该算子将它们保存为状态。另一个流的事件不广播,而是发送给同一个算子的单个实例,并与广播流的事件一起处理。对于需要连接低吞吐量和高吞吐量流或需要动态更新处理逻辑的应用来说,新的broadcast state非常适合。我们将使用一个具体示例来解释broadcast state,并在本文的其余部分更详细地展示其API。 Broadcast State下的动态模式评估 想象一下,一个电子商务网站捕获所有用户的交互作为用户行为流。运营网站的公司有兴趣分析交互,以增加收入,改善用户体验,并检测和防止恶意行为。该网站实现了一个流应用,该应用检测用户事件流上的模式。但是,公司希望避免每次模式...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8安装Docker,最新的服务器搭配容器使用