SparkSQL DatasourceV2 之 Multiple Catalog
原文链接
作者:马骏杰
问题
SparkSQL是Spark的一个子模块,主要功能是用于处理结构化数据,目前在大数据OLAP领域已经有了广泛的应用。Iceberg作为一个通用的表格式,也已经在数据湖的解决方案中逐渐展现了它的优势。
那该如何将这2者相结合,使得应用SparkSQL + Iceberg可以和SparkSQL + Hive一样方便,如,基于SQL直接访问数据或进行DDL操作:
select c1 from iceberg_db.t; drop table iceberg_db.t;
SparkSQL 基本原理
先来看下SparkSQL处理SQL的基本流程:
如上图所示,在提交SQL后,spark内部会经历语法解析生成逻辑计划,解析逻辑计划,优化逻辑计划,生成执行计划,执行。在解析逻辑计划的过程中,引入了catalog,它的作用是来判断S
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
初探未来十年,Cloudera 对待数据的全新方式
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 1977 年 9 月 5 日,旅行者一号发射升空,携带了一张镀金铜质磁盘唱片记载着人类的声音,科学,影像,音乐,思想和情感,驶入了浩瀚的宇宙。这是人类具有历史意义的一次数据的时空迁移,将数据从地球发向宇宙深处,发送给未来的数据接收者。 时隔 50 多年后的今天,随着计算机技术,传感器技术以及互联网技术的发展,人类的数据总量已经达到了前所未有的规模。数据充斥着每个人的日常生活,对企业的每天都面临着管理数据以及使用数据的挑战。 随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断的演进。企业用户对数据价值的预期也不断增加。因此企业用户期望通过数据能快速带来商业价值,同时对数据的安全,数据隐私与合规等要求越来越高。 根据哈佛的商业评论最近的一份的研究报告显示,越来越多的企业在寻求企业级的成熟稳定的平台解决方案,在完成基本的数据摄取、数据整合批处理以及数据仓库的功能的基础上,还能面向业务人员提供即时互动的分析工具, 以及提供建模、数据科学、机器学习,甚至是一些深度...
- 下一篇
让AI赋能数据,金融业准备好了吗?
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 金融业是国民经济的命脉,随着移动互联、在线支付的兴起,数据成为企业越来越重要的资产,金融产业也发生了翻天覆地的变化。特别是金融+科技的结合,让金融产业提供的能力正在从过去围绕资金的服务逐步向围绕数据服务转变。 于此同时,金融业面临着整个市场饱和和互联网金融等新兴金融服务的竞争,特别是对中小商业银行、证券和保险等行业带来了巨大的挑战。如何借助科技的力量来实现自身竞争力。成为金融企业面对的最大挑战。因此金融业在积极构建现代数据架构和借助强大智能的平台,来加速开创业务应用,并发挥数据价值,最终实现运营成本降低和营销精准化。 海量应用无法得到有效管理 对于中国区域银行来讲,面对整个市场增长趋向饱和,不仅面临互联网银行的竞争,也面临各大商业银行的竞争。某城商银行也在积极向着数字化、网络化和智能化的方向发展,希望向着服务更丰富、更普惠的大众金融模式转变,能够提高金融服务效率。 某城商银行在个人、公司存款、贷款类、信用卡,理财等线下服务的基础上,也逐步开发出基金代销、信用授权、电子银行、外汇服务、金融...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装