EMR Spark Runtime Filter性能优化

2019-07-03 986

背景

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

目前在SparkSQL中有Filter下推优化，包括两个维度:

生成Filter

SparkSQL会从用户的SQL语句中获取到Filter

直接显示获取
```
select * from A where a=1
```
生成Filter(a=1) on A

隐式推断

select * from A, B where A.a = B.b and A.a=1

推断出Filter(b=1) on B

Filter优化

利用生成的Filter算子可以优化，比如:

将Filt

微信关注我们

原文链接：https://yq.aliyun.com/articles/707555

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

回顾 | Apache Flink 1.9 版本新特性强势预告！（内含PPT下载链接）

6月29日，Apache Flink Meetup 北京站圆满落幕，Apache Flink 1.9 版本是自 Flink 1.0 之后变化最大的版本，社区对 Flink 进行大量重构并且加入了很多新 Feature。此次 Meetup 重点解读 Flink 1.9 版本新特性。 ▼ PPT下载 ▼ 关注Apache Flink 社区公众号Ververica，回复关键字“0629PPT”即可下载Apache Flink Meetup 北京站全部嘉宾分享的PPT. 本期 Meetup 由 Apache Flink PMC 与 Committer 开场，对 Flink 1.9 版本新特性进行全面分享；阿里巴巴技术专家从 Table API 和算法层面分享 Flink 的机器学习生态；还有 Flink on Kubernetes 、Flink

2019-07-02

770

点击订阅云栖夜读日刊，专业的技术干货，不容错过！阿里专家原创好文 1.如何带领团队“攻城略地”？优秀的架构师这样做架构师是一个既能掌控整体又能洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。看似完美的“人格模型”背后，是艰辛的探索。今天，阿里巴巴技术专家九摩将多年经验，进行系统性地总结，帮助更多架构师在进阶这条路上走得更“顺畅”，姿态更“优雅”。阅读更多》》 2.蚂蚁金服胡喜：金融服务将成为开源的下个前沿领域近日，全球知名开源组织云原生计算基金会 CNCF 宣布，蚂蚁金服正式成为 CNCF 黄金会员。为什么蚂蚁金服会拥抱开源，科技公司和开源社区如何实现双赢且可持续发展？蚂蚁金服副CTO胡喜在TechCrunch上发表专栏阐述了自己的见解。阅读更多》》 3.就是要你懂负载均衡--lvs和转发模式本文希望阐述清楚LVS的各种转发模式，以及他们的工作流程和优缺点，同时从网络包的流转原理上解释清楚优缺点的来由，并结合阿里云的slb来说明优缺点。阅读更多》》 4.云原生应用 Kubernetes 监控与弹性实践一篇干货好文，值得一读！阅读更多》》 5.MaxCompute...

2019-07-03

698

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

EMR Spark Runtime Filter性能优化

背景

生成Filter

Filter优化

回顾 | Apache Flink 1.9 版本新特性强势预告！（内含PPT下载链接）

如何带领团队“攻城略地”？优秀的架构师这样做 | 7月4号云栖夜读

相关文章

发表评论

资源下载

腾讯云软件源

Spring

Rocky Linux

WebStorm

欢迎您来访！