《深入理解Spark:核心思想与源码分析》——3.5节Hadoop相关配置及Executor环境变量
本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第3章,第3.5节Hadoop相关配置及Executor环境变量,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看
3.5 Hadoop相关配置及Executor环境变量
3.5.1 Hadoop相关配置信息
默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下。
val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration(conf)
获取的配置信息包括:
将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration;
将SparkConf中所有以spark.hadoop.开头的属