大数据分析平台解析:什么是Apache Spark?
Apache Spark是一款快速、灵活且对开发者友好的工具,也是大型SQL、批处理、流处理和机器学习的领先平台。 2009年,Apache Spark从美国U.C. Berkeley的 AMPLab为起步,现在已经成为世界上主要的大数据分布式处理框架之一。Spark可以以各种方式进行部署,为Java、Scala、Python和R编程语言提供本地绑定,并支持SQL、流数据、机器学习和图形处理。已经被银行、电信公司、游戏公司、政府以及苹果、Facebook、IBM和微软等领域的企业和科技巨头所使用。 Spark开箱即用,可以在独立的集群模式中运行,只需要在集群中的每台计算机上使用Apache Spark框架和JVM即可。然而,用户更希望利用资源或集群管理系统负责分配需求到员工手中。在企业中,这通常都是在Hadoop YARN上运行(这是Cloudera和Hortonworks发行版运行Spark作业的方式),但Apache Spark也可以在Apache Mesos上运行。同时,其在为Kubernetes添加本地支持方面也取得了进展。 如果正在处理一个托管解决方案,那么可以在Amaz...