Spark快速入门（72集视频+源码+笔记）-低调大师

Spark快速入门（72集视频+源码+笔记）

2019-11-22 732

Spark快速入门（72集视频+源码+笔记）
1、什么是Spark？
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2、Spark具有哪些优点？
（1）高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。
（2）Spark 很快，支持交互式计算和复杂算法。
（3）Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。

3、Spark计算方法
（1）Bagel: Pregel on Spark，可以用Spark进行图计算，这是个非常有用的小项目。Bagel自带了一个例子，实现了Google的PageRank算法。
（2）当下Spark已不止步于实时计算，目标直指通用大数据处理平台，而终止Spark，开启SparkSQL或许已经初见端倪。
（3）近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析，Spark 提供了一个称为 SparkR 的编程接口，使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。

4、2019好程序员大数据教程-如何快速入门Spark？（72集视频+源码+笔记）
（1）本课适用人群：
具有一定大数据基础的人群
（2）学完本视频能掌握什么？
本节课能够掌握Spark的环境搭建，任务调度流程，以及RDD代码的应用。
（3）课程目录：
第1章 Spark知识讲解
01_为什么学习Spark
02_Spark和MapReduce的对比
03_Spark框架体系
04_Spark下载
05.Spark运行模式介绍
06.Spark集群安装
07.Spark程序执行流程
08.Spark相关名词解释
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2和Spark1.6Shell对比

第2章 Maven和IDEA
12_Maven和IDEA下载
13_Maven安装
14_IDEA安装
15_IDEA中配置Maven
16_Scala环境安装和IDEA中配置Scala插件
17_IDEA创建Spark工程
18_Spark开发WordCount程序
19_Spark程序打包
20_Spark集群运行打包程序

第3章 RDD知识讲解
21_RDD概念
22_RDD执行流程
23_RDD属性
24_RDD弹性
25_RDD的两种创建
26_RDD编程API

第4章 Transformation算法
27_Transformation算法
28_Action算法
29_Map
30_filter
31_flatMap
32_sample
33 union
34 intersection
35 distinct
36 join
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey

第5章 Action算法
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_其他算子之countByKey
62_其他算子之countByValue
63_其他算子之filterByRange
64_其他算子之flatMapValues
65_其他算子之foreachPartition
66_其他算子之keyBy
67_其他算子之keys和values
68_其他算子之collectAsMap
69_RDD函数传递
70_RDD的依赖关系
71_RDD任务划分
72_Lineage血统

微信关注我们

原文链接：https://yq.aliyun.com/articles/727932

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Isito从懵圈到熟练 - 半夜两点Ca证书过期问题处理惨况总结

11月22号半夜2点，被值班同学的电话打醒。了解下来，大概情况是，客户某一台K8s集群节点重启之后，他再也无法创建Istio虚拟服务和Pod了。一来对Istio还不是那么熟悉，二来时间可能有点晚，脑子还在懵圈中，本来一个应该比较轻松解决掉的问题，花了几十分钟看代码，处理的惨不忍睹。最终还是在某位大神帮助下，解决了问题。鉴于此问题，以及相关报错，在网上找不到对应的文章，所以这里分享下这个问题，避免后来的同学，在同样的地方踩坑。另外谨以此篇致敬工作中遇到过的大神！不断重启的Citadel Citadel是istio的证书分发中心。证书即某个实体的身份证明，直接代表着实体本身参与信息交流活动。Citadel作为证书分发中心，负责替服务网格中每个服务创建身份证书，方便服务之间安全交流。这个问题的现象是，Citadel再也无法启动了，导致无法

2019-11-24

859

前言在 Flink最佳实践（一）流式计算系统概述中，我们详细讨论了流式计算系统中时域、窗口、时间推理与正确性工具等概念。本文将以这些概念为基础，逐一介绍 Flink 的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API 等内容，让开发人员对 Flink 有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景 1.1 数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实性，且数据的时效性往往比较低，延迟大。除了批处理之外，人们为了达到数据生成的高时效性，在数据处理架构中也常常使用微服务来解决，其特点是延迟低、无状态、服务与存储分离。但是微服务无状态的约束很大程度上决定了其并不能很好的应用于现代实时数据处理的需求中，比如准确一次的语义、乱序数据流的处理能力等，它无法满足人们对一个先进的流处理器的想象（在无状态的业务需求中，微服务仍然是最佳选择）。而要满足人们的这些想象，数据处理架构恰恰需要有「...

2019-11-24

898

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。