EMR Spark Relational Cache 利用数据预组织加速查询

2019-08-09 775

Relational Cache相关文章链接：

使用Relational Cache加速EMR Spark数据分析
 使用EMR Spark Relational Cache跨集群同步数据
 EMR Spark Relational Cache的执行计划重写
 EMR Spark Relational Cache如何支持雪花模型中的关联匹配

背景

在利用Relational Cache进行查询优化时，我们需要通过预计算，存储大量数据。而在查询时，我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应，这就涉及到优化从大量数据中快速定位所需数据的场景。本文介绍在EMR Spark Relational Cache中，我们如何针对这种场景进行了优化。

存储格式

在数据存储格式上，我们默认选择Spark社区支持最好的Parquet格式。Parquet是

微信关注我们

原文链接：https://yq.aliyun.com/articles/713595

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【干货合集视频+资料下载】2019大数据技术公开课第三季 | 阿里巴巴大数据产品最新特性介绍

7月26日，阿里云飞天大数据平台在阿里云峰会上海站正式亮相。飞天大数据平台是当前国内规模最大的计算平台。数据显示，目前飞天大数据平台可扩展至10万台计算集群，曾创下四项海量数据排序世界纪录。在阿里巴巴经济体中支撑了全局数据存储和计算，单日数据处理量从2015年100PB、2016年180PB、2017年320PB，到2018年超过600PB，仅用三年时间提升5倍。 2019大数据技术公开课第三季将为大家带来飞天大数据平台系列产品的最新特性介绍，扫描海报下方任一二维码进群，即可观看直播。阿里巴巴大数据产品最新特性介绍—MaxCompute 8月13日 19:00-19:40 直播回看 >>>阅读文字版 >>>资料下载 >>>产品官网 >>>阿里巴巴大数据产品最新特

2019-08-08

686

PAI-STUDIO在支持OSS数据源的基础上，增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据，本教程将提供完整数据和代码供大家测试。详细流程为了方便用户快速上手，本文档将以训练iris数据集为例，介绍如何跑通实验。 1.读数据表组件为了方便大家，我们提供了一份公共读的数据供大家测试，只要拖出读数据表组件，输入： pai_online_project.iris_data 即可获取数据，数据格式如图： 2.Tensorflow组件说明 3个输入桩从左到右分别是OSS输入、MaxCompute输入、模型输入。2个输出桩分别是模型输出、MaxCompute输出。如果输入是一个MaxCompute表，输出也是一个MaxCompute表，需要按下图方法连接。读写Ma

2019-08-11

744

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

EMR Spark Relational Cache 利用数据预组织加速查询

Relational Cache相关文章链接：

背景

存储格式

【干货合集视频+资料下载】2019大数据技术公开课第三季 | 阿里巴巴大数据产品最新特性介绍

PAI-STUDIO通过Tensorflow处理MaxCompute表数据

相关文章

发表评论