想成为云计算大数据Spark高手，看这里！-低调大师

想成为云计算大数据Spark高手，看这里！

2019-04-24 691

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。

伴随Spark技术的普及推广，对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热，轻而易举可以拿到百万的薪酬。而要想成为Spark高手，也需要一招一式，从内功练起：通常来讲需要经历以下阶段：

第一阶段：熟练的掌握Scala语言
Spark框架是采用Scala语言编写的，精致而优雅。要想成为Spark高手，你就必须阅读Spark的源代码，就必须掌握Scala,;
虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发，但是最快速的和支持最好的开发API依然并将永远是Scala方式的API，所以你必须掌握Scala来编写复杂的和高性能的Spark分布式程序;
尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等;
第二阶段：精通Spark平台本身提供给开发者API
掌握Spark中面向RDD的开发模式，掌握各种transformation和action函数的使用;
掌握Spark中的宽依赖和窄依赖以及lineage机制;
掌握RDD的计算流程，例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等
第三阶段：深入Spark内核
此阶段主要是通过Spark框架的源码研读来深入Spark内核部分：

通过源码掌握Spark的任务提交过程;
通过源码掌握Spark集群的任务调度;
尤其要精通DAGScheduler、TaskScheduler和Worker节点内部的工作的每一步的细节;
第四阶级:掌握基于Spark上的核心框架的使用
Spark作为云计算大数据时代的集大成者，在实时流处理、图技术、机器学习、NoSQL查询等方面具有显著的优势，我们使用Spark的时候大部分时间都是在使用其上的框架例如Shark、Spark Streaming等：

Spark Streaming是非常出色的实时流处理框架，要掌握其DStream、transformation和checkpoint等;
Spark的离线统计分析功能，Spark 1.0.0版本在Shark的基础上推出了Spark SQL，离线统计分析的功能的效率有显著的提升，需要重点掌握;
对于Spark的机器学习和GraphX等要掌握其原理和用法;
第五阶级:做商业级别的Spark项目
通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面，包括项目的架构设计、用到的技术的剖析、开发实现、运维等，完整掌握其中的每一个阶段和细节，这样就可以让您以后可以从容面对绝大多数Spark项目。

第六阶级：提供Spark解决方案
彻底掌握Spark框架源码的每一个细节;
根据不同的业务场景的需要提供Spark在不同场景的下的解决方案;
根据实际需要，在Spark框架基础上进行二次开发，打造自己的Spark框架;
前面所述的成为Spark高手的六个阶段中的第一和第二个阶段可以通过自学逐步完成，随后的三个阶段最好是由高手或者专家的指引下一步步完成，最后一个阶段，基本上就是到”无招胜有招”的时期，很多东西要用心领悟才能完成。
来源商业新知网，原标题：如何成为云计算大数据Spark高手

微信关注我们

原文链接：https://yq.aliyun.com/articles/699957

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里靠什么支撑EB级计算力

BigData 概念在上世纪90年代被提出，随Google的3篇经典论文（GFS，BigTable，MapReduce）奠基，已经发展了超过10年。这10年中，诞生了包括Google大数据体系，微软Cosmos体系，开源Hadoop体系等优秀的系统，这其中也包括阿里云的飞天系统。这些系统一步一步推动业界进入“数字化“和之后的“AI化”的时代。同时，与其他老牌系统相比（如，Linux等操作系统体系，数据库系统，中间件，很多有超过30年的历史），大数据系统又非常年轻，随云计算普惠，正大规模被应用。海量的需求和迭代推动系统快速发展，有蓬勃的生机。（技术体系的发展，可以通过如下Hype-Cycle概述，作者认为，大数据系统的发展进入技术复兴期/Slope of Enlightenment，并开始大规模应用Plateau of Productivity。）上图来自Gartner 如果说，0到1上线标志一个系统的诞生，在集团内大规模部署标志一个系统的成长，在云上对外大规模服务标志一个系统的成熟。MaxCompute这10年已经走向成熟，经过多次升级换代，功能、性能、服务、稳定性已经有一个体系化...

2019-04-24

647

在前面文章里面我们使用了下面语句创建了一张名为 iteblog_user 的表： cqlsh> use iteblog_keyspace; cqlsh:iteblog_keyspace> CREATE TABLE iteblog_user (first_name text , last_name text, PRIMARY KEY (first_name)) ; 建表语句里面有个 PRIMARY KEY 关键字，我们在初次使用 Apache Cassandra 的时候可能见过诸如 Composite Key、Partition key 以及 Clustering key，这么多种 key 它和上面的 PRIMARY KEY 有什么关系呢？看看本文你就明白了。 Single column Primary Key 在 Cassan

2019-04-24

721

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。