《Spark与Hadoop大数据分析》——第1章 从宏观视角看大数据分析
第1章
从宏观视角看大数据分析
本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具。大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战。本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spark和Hadoop使用的各种工具。本书还会讨论所有Spark组件—Spark Core、Spark SQL、DataFrame、Dataset、Spark Streaming、Structured Streaming、MLlib、GraphX