《Spark大数据分析实战》——2.2节远程调试Spark程序
本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章,第2.2节远程调试Spark程序,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看
2.2 远程调试Spark程序
本地调试Spark程序和传统的调试单机的Java程序基本一致,读者可以参照原来的方式进行调试,关于单机调试本书暂不赘述。对于远程调试服务器上的Spark代码,首先请确保在服务器和本地的Spark版本一致。需要按前文介绍预先安装好JDK和Git。
(1)编译Spark
在服务器端和本地计算机下载Spark项目。
通过下面的命令克隆一份Spark源码:
git clone https:// github.com/apache/spark
然后针对指定的Hadoop版本进行编译:
SPARK_HADOOP_VERSION=2.3.0 sbt/sbt