颠覆大数据分析之RDD的表达性-低调大师

颠覆大数据分析之RDD的表达性

2017-05-21 552 89

正如前面在比较Spark及DSM系统时所提到的，由于RDD只支持粗粒度的操作，因此它有一定的局限性。但是RDD的表达性对于大多数程序而言其实已经足够好了。AMPLabs团队他们仅花了数百行代码就开发出了整个Pregel，这是Spark上的一个小的库。可以通过RDD及相关的操作来表示的集群计算模型列举如下：

Map-Reduce：如果存在混合器的话，这个可以使用RDD上的flatMap和reduceByKey操作来表示。简单点的话可以表示成flatMap和groupByKey操作。运算符则对应于Spark中的转换操作。
DryadLINQ:DryadLINQ(Yu等2008)通过结合了声明性及命令式编程提供了MR所没有的操作。大多数操作符都能对应上Spark中的转换操作。Dryad中的apply结构就类似于RDD的map转换，而Fork结构则类似于flatMap转换。
整体同步并行（BSP）：Pregel (Malewicz等 2010)中的计算由一系列称为超步骤的迭代所组成。图中的每个顶点都关联上一个用户定义的计算函数;Pregel会确保在每一个超步骤中，用户定义的函数都会并行地在每一条边上执行。顶点可以通过边来发送消息并与其它的顶点交互数据。同样的，还会有一个全局的栅栏——当所有的计算函数都终止的时候它就会向前移动。熟悉BSP的读者可能会知道，Pregel是一个完美的BSP的典范——一组实体在并行地计算用户定义的函数，它们有全局的同步器并可以交换消息。由于同一个用户函数会作用于所有的顶点，这种情况可以这样实现，将所有顶点存储在一个RDD中并在上面运行flatMap操作来生成一个新的RDD。把它和跟顶点的RDD连接到一块，这样就可以实现消息传递了。
迭代式Map-Reduce：HaLoop项目也同样扩展了Hadoop来支持迭代式机器学习算法。HaLoop不仅为迭代式应用提供了编程抽象，同时它还用到了缓存的概念来在迭代间进行数据共享和固定点校验（迭代的终止）以便提升效率。Twister (Ekanayake等2010)是另一个类似HaLoop的尝试。这些在Spark中都可以很容易实现，因为它本身非常容易进行迭代式计算。AMPLabs团队实现HaLoop仅花了200行代码。
转载自并发编程网 - ifeve.com

微信关注我们

原文链接：https://yq.aliyun.com/articles/88249

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2017-05-22 00:00:00

5月22日云栖精选夜读：PHP学习路线图

网上有些错误的学习路线图，让学完HTML、CSS后立马去学Javascript和jQuery等，这种课程简直是对牛弹琴。你特么的怎么不去搞个前端工程师培训或者是吹牛逼的全栈工程师培训呀。本人在互联网公司工作十余年，也带了很多PHP入门的新手，将他们的一些问题和学习路线图为大家整理出来，希望很多小白少走弯路。 PHP PHP学习路线图作者： kaiwenli PHP优化杂烩作者：薯条汪 PHP 性能分析与实验：性能的宏观分析作者：寒凝雪知识整理 Nodejs进阶：Express常用中间件body-parser实现解析作者：程序猿小卡 PostgreSQL 锁等待监控珍藏级SQL - 谁堵塞了谁作者：德哥发表在：阿里云数据库ApsaraDB NGINX 简明教程作者：waylau PgSQL · 应用案例 · "写入、共享、存储、计算" 最佳实践作者：db匠发表在：阿里云数据库ApsaraDB java容器类的继承结构作者：茶花盛开美文回顾《Spark_官方文档》Spark_SQL,_DataFrames_以及_Datasets_编程指南作者：青衫无名网络...

563

2017-05-22 00:00:00

颠覆大数据分析之Spark VS分布式共享内存系统

Spark可以看作是一个分布式共享集合系统，和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存（DSM）系统则略有不同。DSM系统允许单独读写内存，而Spark只允许进行粗粒度的RDD转换。尽管这限制了能够使用Spark的应用种类，但它对于实现高效的容错性却很有帮助。DSM系统可能会需要检查点相互协作来完成容错，比如说使用Boukerche等人（2005）所提出的协议。相反的，Spark只需要存储世系图来进行容错。恢复需要在RDD丢失的分区上进行重构操作——但这个可以并行地高效完成。Spark与DSM系统的另一个根本的不同在于，由于RDD的只读特性，Spark中可以使用流浪者缓解策略——这使得备份任务可以并行地完成，这类似于MR中的推测执行（Dinu和Ng 2012）。而在DSM中则很难缓解流浪者或者备份任务，因为这两者都可能会产生内存竞争。Spark的另一个优点是当RDD的大小超出集群的所有内存时可以优雅地进行降级。它的缺点就是RDD的转换本质上是粗粒度的，这限制了能够开发的应用的种类。比如说，需要细粒度共享状态访问的应用，像WEB...

587

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。