Spark读写OSS并使用OSS Select来加速查询
Spark读写OSS
基于这篇文章搭建的CDH6以及配置,我们来使Spark能够读写OSS(其他版本的Spark都是类似的做法,不再赘述)。
由于默认Spark并没有将OSS的支持包放到它的CLASSPATH里面,所以我们需要执行如下命令
下面的步骤需要在所有的CDH节点执行
进入到$CDH_HOME/lib/spark目录, 执行如下命令
[root@cdh-master spark]# cd jars/
[root@cdh-master jars]# ln -s ../../../jars/hadoop-aliyun-3.0.0-cdh6.0.1.jar hadoop-aliyun.jar
[root@cdh-master jars]# ln -s ../../../jars/aliyun-sdk-oss-2.8.3.jar aliyu