Spark SQL 性能优化再进一步:CBO 基于代价的优化
转载请务必将下面这段话置于文章开头处。
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/cbo/
Spark CBO 背景
上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。
本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。
Spark CBO 原理
CBO 原理是计算所有可能的物理计划的代价,并挑选出代价最小的物理执行计划。其核心在于评估一个给定的物理执行计划的代价。
物理执行计划是一个树状结构,其
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark排序算法系列之GBTs使用方式介绍
01 — 前言 【Spark排序算法系列】主要介绍的是目前推荐系统或者广告点击方面用的比较广的几种算法,和他们在Spark中的应用实现,本篇文章主要介绍GBDT算法,本系列还包括(持续更新): Spark排序算法系列之LR(逻辑回归) Spark排序算法系列之模型融合(GBDT+LR) Spark排序算法系列之XGBoost Spark排序算法系列之FTRL(Follow-the-regularized-Leader) Spark排序算法系列之FM与FFM 在本篇文章中你可以学到: Spark MLLib包中的GBDT使用方式 模型的通过保存、加载、预测 PipeLine ML包中的GBDT 02 — 概述 LR因为其容易并行最早应用到推荐排序中的,但学习能力有限,需要大量的特征工程来增加模型的学习能力。但大量的特征工程耗时耗力,且不一定带来效果的提升,因此在如何
- 下一篇
2019年1月&2月云栖技术活动汇总:50+直播与Meetup资料下载
刚刚过完节日,云栖社区的线上直播和线下沙龙已经陆续展开啦,辗转之间,我们即将告别二月的寒冬,迎来三月的阳春,下面为大家汇总了一月二月份的直播和沙龙资料大全,最好的学习时机就是现在,速速收藏吧~ 阿里开发者技术社群全向图 全网首发!一站加入阿里各个技术领域的技术社群,和顶级专家面对面!键盘图详细信息,请点击这里 PostgreSQL: 线上直播: 直播主题:PostgreSQL多场景阿里云沙箱实验(第9讲):PostgreSQL 时空业务实践 直播回顾: https://yq.aliyun.com/live/794 讲师:德哥 — 阿里云数据库专家,PostgreSQL中国社区校长 学习资料: https://yq.aliyun.com/articles/683057 直播主题:PostgreSQL多场景阿里云沙箱实验(第10讲):PostgreSQL 时空调度数据库实践直播回顾: https://yq.aliyun.com/live/807讲师:德哥 — 阿里云数据库专家,PostgreSQL中国社区校长学习资料:https://yq.aliyun.com/articles/68433...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS7,8上快速安装Gitea,搭建Git服务器