浅析Hive/Spark SQL读文件时的输入任务划分
作者:
王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。
Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。而Hive和Spark SQL作为Map-Reduce模型的分布式执行引擎,其执行过程首先就涉及到如何将输入数据切分成一个个任务,分配给不同的Map任务。在本文中,我们就来讲解Hive和Spark SQL是如何切分输入路径的。
Hive
Hive是起步较早的SQL on Hadoop项目,最早也是诞生于Hadoop中,所以输入划分这部分的代码与Hadoop相关度非常

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
102万行代码,1270 个问题,Flink 新版发布了什么?
阿里妹导读: Apache Flink 是公认的新一代开源大数据计算引擎,可以支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。 2019 年 1 月,阿里巴巴实时计算团队宣布将经过双十一历练和集团内部业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码,此后的一年中,阿里巴巴实时计算团队与 Apache Flink 社区密切合作,持续推进 Flink 对 Blink 的整合。 2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。文末更有 Flink 实践精选电子书,现已开放免费下载~ Flink 实践精选电子书,现已开放免费下载~ 下载地址 https://flink.apache.org/downloads.html Flink 1.10 是迄今为止规模最大的一次版本升级...
- 下一篇
DataWorks 2020-1 产品月刊
尊敬的DataWorks用户:您好,为了您更好地使用DataWorks产品,从2020年1月开始,Dataworks将每月推出产品月刊,为您提供最新的产品活动、功能更新、灰度功能邀测、大数据技术文章等各类信息,希望DataWorks为您提供高效的,一站式的大数据开发操作系统级体验。 【产品活动】 【2020】DataWorks云上直播周开启,连续开启线上直播内容,让在家期间也能通过通过线上的形式了解产品最佳实践与最新功能。活动回顾(不断更新中) 【产品功能更新】 1.DataWorks数据保护伞功能开启商业化点击查看DataWorks数据保护伞功能将于2020年1月10日开启商业化,根据DataWorks目前增值版本的分级,数据保护伞也将提供不同的功能,您可以根据自身的业务场景,选择最合适的版本进行购买。 2.DataWorks数据质量功能更新点击查看DataWorks数据质量模块是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。这次数据质量发布包括质量报告自定义、规则模板库、动态阈值、问题处理及反馈等新功能,得让规则创建更加便捷、数据质量更加可控! 3.DataWorks钉...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6