您现在的位置是:首页 > 文章详情

扩展Spark Catalyst,打造自定义的Spark SQL引擎

日期:2018-11-19点击:685

Apache Spark是大数据处理领域最常用的计算引擎之一,被应用在各种各样的场景中,除了易用的API,稳定高效的处理引擎,可扩展性也是Spark能够得到广泛应用的一个重要原因。Spark中最常见的扩展就是基于DataSource API添加对新数据源的支持,除了Spark内置的HDFS,S3,Kafka等数据源,Parquet,Orc,Avro等数据类型,还有很多第三方的DataSource Plugin使得Spark成为大数据领域可以处理数据源类型最丰富的计算引擎。当然,除了DataSource,Spark还有支持很多其他的扩展点,今天我们要介绍的是Spark SQL Catalyst的扩展点,以及如何通过这些扩展点实现一些有意思的功能,打造自定义的Spark SQL引擎。

在Spark2.2版本中,引入了新的扩展点,使得用户

原文链接:https://yq.aliyun.com/articles/672130
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章