EMR Spark Relational Cache 利用数据预组织加速查询
Relational Cache相关文章链接:
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
EMR Spark Relational Cache的执行计划重写
EMR Spark Relational Cache如何支持雪花模型中的关联匹配
背景
在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需数据的场景。本文介绍在EMR Spark Relational Cache中,我们如何针对这种场景进行了优化。
存储格式
在数据存储格式上,我们默认选择Spark社区支持最好的Parquet格式。Parquet是
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【干货合集 视频+资料下载】2019大数据技术公开课第三季 | 阿里巴巴大数据产品最新特性介绍
7月26日,阿里云飞天大数据平台在阿里云峰会上海站正式亮相。 飞天大数据平台是当前国内规模最大的计算平台。数据显示,目前飞天大数据平台可扩展至10万台计算集群,曾创下四项海量数据排序世界纪录。在阿里巴巴经济体中支撑了全局数据存储和计算,单日数据处理量从2015年100PB、2016年180PB、2017年320PB,到2018年超过600PB,仅用三年时间提升5倍。 2019大数据技术公开课第三季将为大家带来飞天大数据平台系列产品的最新特性介绍,扫描海报下方任一二维码进群,即可观看直播。 阿里巴巴大数据产品最新特性介绍—MaxCompute 8月13日 19:00-19:40 直播回看 >>>阅读文字版 >>>资料下载 >>>产品官网 >>>阿里巴巴大数据产品最新特
- 下一篇
PAI-STUDIO通过Tensorflow处理MaxCompute表数据
PAI-STUDIO在支持OSS数据源的基础上,增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据,本教程将提供完整数据和代码供大家测试。 详细流程 为了方便用户快速上手,本文档将以训练iris数据集为例,介绍如何跑通实验。 1.读数据表组件 为了方便大家,我们提供了一份公共读的数据供大家测试,只要拖出读数据表组件,输入: pai_online_project.iris_data 即可获取数据, 数据格式如图: 2.Tensorflow组件说明 3个输入桩从左到右分别是OSS输入、MaxCompute输入、模型输入。2个输出桩分别是模型输出、MaxCompute输出。如果输入是一个MaxCompute表,输出也是一个MaxCompute表,需要按下图方法连接。 读写Ma
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作