《Spark大数据分析:核心概念、技术及实践》一 1.3 列存储
1.3 列存储
数据可以面向行或面向列的格式来存储。在面向行格式中,一行的所有列或字段存储在一起。这里的一行,可以是CSV文件中的一行,或者是数据库表中的一条记录。当数据以面向行格式保存时,第一行后面是第二行,接着是第三行,以此类推。面向行存储对于主要执行数据的CRUD(创建、读取、更新、删除)操作的应用来说是完美的。这些应用一次操作数据中的一行。
然而,面向行存储对于分析类应用来说不够高效。这样的应用要对数据集的列进行操作。更重要的是,这些应用只读取和分析跨越多行的列的一个小子集。因此,读取所有列是对内存、CPU周期和硬