Tuning Spark
Data Serialization 数据序列化,对于任意分布式系统都是性能的关键点 Spark默认使用Java serialization,这个比较低效 推荐使用,Kryo serialization,会比Java序列化,更快更小, Spark使用Twitter chilllibrary(Kryo的scala扩展) conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") conf.set("spark.kryoserializer.buffer.mb“, 2), 需要大于最大的需要序列化的对象size 之所以,spark不默认使用Kryo,因为Kryo需要显式的注册program中使用到的class,参考 val conf = new SparkConf().setMaster(...).setAppName(...) conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2])) val sc = new Spar...