Spark入门到精通视频学习资料--第二章:Spark生态系统介绍,Spark整体概述与Spark编程模型(2讲)
概述
什么是Spark
◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:
Spark的适用场景
◆ Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小
◆ 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
◆ 总的来说Spark的适用面比较广泛且比较通用。
详细内容请参考视频:
Spark概述与编程模型(上) http://pan.baidu.com/s/1kT9okBl
Spark概述与编程模型(下) http://pan.baidu.com/s/16OEjc
另外给个相关的PDF文件供参考:
Spark概述与编程模型.pdf http://pan.baidu.com/s/1mg64rMw
==========================================================
申明:视频资料已过期,建议不要再下载了。
==========================================================

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hadoop入门 -- 简介,安装,示例
(1) Hadoop简介 Hadoop是Apache基金会旗下开源项目,是一款开源的可靠、可扩展的分布式计算软件平台。 Hadoop可以看做是实现分布式计算的一个框架。可利用其提供的函数接口进行简单编程,对数据进行分布式处理。 分布式处理系统关键是保证系统的高可靠性(一般分布式系统均使用廉价,配置不高的机器作为节点,所以单一的节点出现问题的几率较高),Hadoop利用软件在应用层发现与处理错误。 Hadoop实现分布式处理的思想主要体现在MapReduce框架上,MapReduce框架是Hadoop中的一个模块。 Hadoop作为处理分布式数据的平台,实现了HDFS(Hadoop Distributed File System)文件系统,用于分布式数据的存储。 (2) Hadoop安装 Hadoop一般在linux系统下使用,若在Windows系统下需模拟Unix系统来实现。 Hadoop一般使用Java函数接口,进行Java编程,也有C语言等接口可用。 最通用的就是linux+java。 Hadoop作为分布式处理系统,不仅可以应用在多台机器上,它也提供了伪分布式模式供单台机器使用。...
- 下一篇
ssh免密码登陆配置及注意事项
在配置hadoop完全分布式模式时,需设置ssh免密码登陆,研究查询一番,记录如下: 设置ssh免密码登陆,首先生成公私密钥,在当前用户主目录下(即/home/xxx,xxx为用户名),执行命令 执行上述命令后会在当前目录下生成 .ssh 文件夹(ls -l可查看隐藏文件夹),该文件夹下包含文件如图 将本机的公钥复制到验证密钥文件中,用于被登陆时利用公钥解密,执行命令 注意,执行以上命令后,可能执行无密码登陆会不成功,需修改文件authorized_keys的权限,改为600,执行命令 此时无密码登陆本机测试 此时登陆,首次需输入yes,二次登陆时可直接进入无需输入任何信息。 在该机器登陆通过ssh登陆其他机器时,只需将 .ssh 文件夹下id_dsa.pub文件中的内容复制到欲被登陆其他机器的 .ssh文件夹下的authorized_keys文件中,可先通过scp将文件id_dsa.pub传到其他机器上的.ssh文件夹中(注意与本机的公钥文件不重名,可在scp传送时重命名,假设重命名为other_dsa.pub),在其上执行cat ~/.ssh/other_dsa.pub ~/.ss...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2整合Thymeleaf,官方推荐html解决方案