Apache Spark技术实战(一)Standalone部署模式下的临时文件清理&日志级别修改
<一>Standalone部署模式下的临时文件清理 概要 在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答。 从资源使用的方面来看,一个进程运行期间会利用到这四个方面的资源,分别是CPU,内存,磁盘和网络。进程退出之后,CPU,内存和网络都会由操作系统负责释放掉,但是运行过程中产生临时文件如果进程自己不在退出之前有效清除,就会留下一地鸡毛,浪费有效的存储空间。 部署时的第三方依赖 再提出具体的疑问之前,先回顾一下standalone的部署模式。 在standalone下又分为client模式和cluster模式,其中client模式下,driver和client运行于同一JVM中,不由worker启动,该JVM进程直到spark application计算完成返回结果后才退出。如下图所示。 而在cluster模式下,driver由worker启动,client在确认spark application成功提交给cluster后直接退出,并不等待spark applicat...