Spark RDDs vs DataFrames vs SparkSQL
简介 Spark的 RDD、DataFrame 和 SparkSQL的性能比较。 2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解决上面的2个问题,对比性能。 Using RDD’s Using DataFrames Using SparkSQL 数据源 在HDFS中3个文件中存储的9百万不同记录 每条记录11个字段 总大小 1.4 GB 实验环境 HDP 2.4 Hadoop version 2.7 Spark 1.6 HDP Sandbox 测试结果 原始的RDD 比 DataFrames 和 SparkSQL性能要好 DataFrames 和 SparkSQL 性能差不多 使用DataFrames 和 SparkSQL 比 RDD 操作更直观 Jobs都是独立运行,没有其他job的干扰 2个操作 Random lookup against 1 order ID from 9 Million unique order ID's GROUP all the different products with their...
