SparkSQL自适应执行
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能。
解决哪些问题
SparkSQL自适应执行解决以下问题:
shuffle partition个数
目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition
(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。
而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很大,比如reduce阶段要处理的数据可能是10MB,也有可能是100GB, 如果使用同一个值对实际运行效率会产生很大影响,比如10MB的数据一个task就可以解决,如果spark.sql.shuffle.partition
使用默认值200的话,那么10MB的数据就要被分成200个

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
学hadoop需要什么基础
最近一段时间一直在接触关于hadoop方面的内容,从刚接触时的一片空白,到现在也能够说清楚一些问题。这中间到底经历过什么只怕也就是只有经过的人才会体会到吧。前几天看到有个人问“学hadoop需要什么基础”,这个问题好像至今还没好好细想过,可能是因为身边有大神在带着我学习hadoop的缘故,也就没想过这样的一个简单的问题。 我们目前在用的hadoop版本并不是原生态的版本,我们在用的是国内的一款商业发行版,叫DKhadoop。大快搜索推出的一款原生态开发的Hadoop集成生态环境。从使用的效果上看DKhadoop与开源环境是可以做到完全兼容的。准备过段时间抽个空,试着写一下以DKhadoop为切入点关于学习hadoop需要掌握什么基础。 【DKhadoop基础技术架构图】 关于学hadoop需要什么基础这样的问题,看到一篇关于介绍学习原生hadoop的分享,个人觉得还是很不错的一篇文章。这里也分享给大家,供参考之用。 关于学习hadoop需要具备什么基础知识,首先应该从整体了解hadoop,包括hadoop是什么,能够帮助我们解决什么问题,以及hadoop的使用场景等。在有了整体上的了解...
- 下一篇
开源大数据周刊-第100期
资讯 领英开源TonY:构建在Hadoop YARN上的TensorFlow框架领英在 YARN 上构建了一个 TensorFlow 框架 TonY 并将其开源。本文介绍了 TonY 的内部细节、领英实现并用来在 Hadoop 上扩展分布式 TensorFlow 的功能以及实验结果。 Databricks:96%的企业在执行AI项目时面临着数据相关的问题Databricks发布了美国和欧洲大型公司的AI难题的调查结果。只有1/3的人工智能项目取得了成功,更重要的是企业从概念转向生产需要六个多月。这些挑战背后的主要原因是96%的企业面临着数据相关的问题,如孤岛和不一致的数据集。80%的企业引发了重大的组织摩擦,如数据科学家和数据工程师之间缺乏协作。90%的受访者表示在整个机器学习生命周期中统一数据科学和数据工程的方法将克服AI难题。 Sp
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- Mario游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8