实现R与Hadoop联合作业的三种方法-低调大师

实现R与Hadoop联合作业的三种方法

2017-07-31 651

为了满足用R语言处理pb量级数据的需求，我们需要把它和Hadoop联合起来使用。本文的目的就是阐述实现二者联合作业的不同技术。

方法一：利用Streaming APIs

Hadoop支持一些 Streaming API来将R语言中的函数传入，并在MapReduce模式下运行这些函数。这些Streaming API可以将任意能在map-reduce模式下访问和操作标准I/O接口的R脚本传入Hadoop中。因此，你不需要额外开启一些客户端之类的东西。如下是一个例子：

方法二：使用Rhipe包

Rhipe包允许用户在R中使用MapReduce。在使用这一方法前，要做相应的前期准备工作。R需要被安装在Hadoop集群中的每一个数据节点上，此外每个节点还要安装Protocol Buffers(更多资料请参考 http://wiki.apache.org/hadoop/ProtocolBuffers)，Rhipe也需要在每个节点上都可以被使用。

下面是在R中利用Rhipe应用MapReduce框架的范例：

方法三：使用RHadoop

RHadoop是Recolution Analytics下的一个开源库，与Rhipe类似，它的功能也是在MapReduce模式下执行R函数。后续列举的都是该库中的一些包。plyrmr 包可以在Hadoop中对大数据集进行一些常用的数据整理操作。rmr包提供了一些让R和Hadoop联合作业的函数。rdfs包提供了一些函数来连接R 和分布式文件系统(HDFS)。rhbase包中的函数则能连接R和HBase。

下面这个例子中，我们会演示如何使用rmr包中的一些函数来让R与Hadoop联合作业。

方法总结

总的说来，上述三种方法都能很容易地实现R与Hadoop的联合作业，这样一来R就拥有了在分布式文件系统(HDFS)上处理大数据的能力。但同时，这三种方法也各有利弊。

关键结论：

1、使用Streaming APIs最为简单，它的安装和设置都很方便。Rhipe和RHadoop都需要对R进行一些设置，并且也需要Hadoop集群上一些包的支持。但在执行函数方面，Streaming APIs 需要将函数依次map和reduce，而Rhipe和RHadoop允许开发者在R函数中定义并调用MapReduce函数。

2、与Rhipe和RHadoop不同，使用Streamings APIs也不需要客户端。

3、除此之外，我们也可以使用Apache Mahout，Apache Hive，Segue框架与其他来自Revolution Analytics的商业版R来实现大规模机器学习。

本文作者：雪晴数据网

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/196036

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MongoDB集群和实战详解

1.概述最近有同学和网友私信我，问我MongoDB方面的问题;这里我整理一篇博客来赘述下MongoDB供大家学习参考，博客的目录内容如下：基本操作 CRUD MapReduce 本篇文章是基于MongoDB集群(Sharding+Replica Sets)上演示的，故操作的内容都是集群层面的，所以有些命令和单独的使用MongoDB库有异样。 2.基本操作常用的 Shell 命令如下所示： db.help()#数据库帮助 db.collections.help()#集合帮助 rs.help()#helponreplicaset showdbs#展示数据库名 showcollections#展示collections在当前库 usedb_name#选择数据库查看集合基本信息，内容如下所示：＃查看帮助 db.yourColl.help(); ＃查询当前集合的数据条数 db.yourColl.count(); ＃查看数据空间大小 db.userInfo.dataSize(); ＃得到当前聚集集合所在的 dbdb.userInfo.getDB(); ＃得到当前聚集的状态 db....

2017-07-31

542

最近因为手抖，在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题，顺便研究了下Spark分区器的原理，趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分区可以5个人一起并行干活，结果四个人不怎么干活，工作全都压到一个人身上了。遇到这种问题，网上有很多的解决办法。但是如果是底层数据的问题，无论怎么优化，还是无法解决数据倾斜的。比如你想要对某个rdd做groupby，然后做join操作，如果分组的key就是分布不均匀的，那么真样都是无法优化的。因为一旦这个key被切分，就无法完整的做join了，如果不对这个key切分，必然会造成对应的分区数据倾斜。不过，了解数据为什么会倾斜还是很重要的，继续往下看吧! 分区的作用在PairRDD即(key,value)这种格式的rdd中，很多操作都是基于key的，因此为了独立分割任务，会按照key对数据进行重组。比如groupbykey 重组肯定是需要一个规则的，最常见的就是基于Hash，Spark还提...

2017-07-31

608

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。