E-MapReduce中Spark 2.x读写MaxCompute数据
最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute.
0. DataSource
a)DataSource提供了一种插件式的外部数据接入SparkSQL的方式,数据源只要实现相应的DataSource API即可以整合进SparkSQL,它的特点如下:
- 通过DataSet/DataFrame/sparkSQLText等标准方式来访问数据源
- SparkSQL引擎优化
- scala语言接入后,Spark支持的其它语言也可以进行访问,如pyspark等
Spark 2.x内置支持的数据源:
- json
- csv
- parquet
- orc
- text
- jdbc
Spark 2.x 访问数据源示例: