Spark SQL 性能优化再进一步：CBO 基于代价的优化

2019-02-14 999

转载请务必将下面这段话置于文章开头处。

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/cbo/

Spark CBO 背景

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

Spark CBO 原理

CBO 原理是计算所有可能的物理计划的代价，并挑选出代价最小的物理执行计划。其核心在于评估一个给定的物理执行计划的代价。

物理执行计划是一个树状结构，其

微信关注我们

原文链接：https://yq.aliyun.com/articles/690358

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark排序算法系列之GBTs使用方式介绍

01 — 前言【Spark排序算法系列】主要介绍的是目前推荐系统或者广告点击方面用的比较广的几种算法，和他们在Spark中的应用实现，本篇文章主要介绍GBDT算法，本系列还包括（持续更新）： Spark排序算法系列之LR（逻辑回归） Spark排序算法系列之模型融合（GBDT+LR） Spark排序算法系列之XGBoost Spark排序算法系列之FTRL（Follow-the-regularized-Leader） Spark排序算法系列之FM与FFM 在本篇文章中你可以学到： Spark MLLib包中的GBDT使用方式模型的通过保存、加载、预测 PipeLine ML包中的GBDT 02 — 概述 LR因为其容易并行最早应用到推荐排序中的，但学习能力有限，需要大量的特征工程来增加模型的学习能力。但大量的特征工程耗时耗力，且不一定带来效果的提升，因此在如何

2019-02-14

789

刚刚过完节日，云栖社区的线上直播和线下沙龙已经陆续展开啦，辗转之间，我们即将告别二月的寒冬，迎来三月的阳春，下面为大家汇总了一月二月份的直播和沙龙资料大全，最好的学习时机就是现在，速速收藏吧～阿里开发者技术社群全向图全网首发！一站加入阿里各个技术领域的技术社群，和顶级专家面对面！键盘图详细信息，请点击这里 PostgreSQL：线上直播：直播主题：PostgreSQL多场景阿里云沙箱实验（第9讲）：PostgreSQL 时空业务实践直播回顾： https://yq.aliyun.com/live/794 讲师：德哥 — 阿里云数据库专家，PostgreSQL中国社区校长学习资料： https://yq.aliyun.com/articles/683057 直播主题：PostgreSQL多场景阿里云沙箱实验（第10讲）：PostgreSQL 时空调度数据库实践直播回顾： https://yq.aliyun.com/live/807讲师：德哥 — 阿里云数据库专家，PostgreSQL中国社区校长学习资料：https://yq.aliyun.com/articles/68433...

2019-02-14

677

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

Spark SQL 性能优化再进一步：CBO 基于代价的优化

Spark CBO 背景