Spark基本的RDD算子之groupBy，groupByKey，mapValues-低调大师

Spark基本的RDD算子之groupBy，groupByKey，mapValues

2018-11-28 693

1. groupby

def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])]
def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])]
def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])]

groupBy算子接收一个函数，这个函数返回的值作为key，然后通过这个key来对里面的元素进行分组。

val a = sc.parallelize(1 to 9, 3)
a.groupBy(x => { if (x % 2 == 0) "even" else "odd" }).collect
//返回的even或者odd字符串作为key来group RDD里面的值，
res42: Array[(String, Seq[Int])] = Array((even,ArrayBuffer(2, 4, 6, 8)), (odd,ArrayBuffer(1, 3, 5, 7, 9)))

2. groupbykey

def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

这个算子和group类似，不过和它不同的是他不接收一个函数，而是直接将键值对类型的数据的key作为group的key 值。同样的，他也可以接收其他参数比如说partitioner

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length) //将字符串的长度作为key值。
b.groupByKey.collect //根据相同key值来进行group操作

res11: Array[(Int, Seq[String])] = Array((4,ArrayBuffer(lion)), (6,ArrayBuffer(spider)), (3,ArrayBuffer(dog, cat)), (5,ArrayBuffer(tiger, eagle)))

3. mapValues

同基本转换操作中的map，只不过mapValues是针对[K,V]中的V值进行map操作。

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)  
val b = a.map(x => (x.length, x))  
b.mapValues("x" + _ + "x").collect  



//结果 
Array( 
(3,xdogx), 
(5,xtigerx), 
(4,xlionx), 
(3,xcatx), 
(7,xpantherx), 
(5,xeaglex) 
)

微信关注我们

原文链接：https://yq.aliyun.com/articles/674009

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《叶问》第4期

2018年7月4日，周三如何优化Linux操作系统用于MySQL环境？一、初级玩法 1、在BIOS及内核层面关闭NUMA 2、在BIOS层面将CPU、内存均设置最大性能模式 3、在BIOS层面关闭CPU节能模式 4、修改IO Scheduler为deadline 或 noop 5、使用xfs文件系统，挂载选项noatime、nodiratime、nobarrier 6、在内核层面设置vm.swappiness<=5，vm.dirty_ratio<=10， vm.dirty_background_rati<=5 7、在内核层面修改用户可最大打开文件数和线程数为65535 8、禁用SWAP分区二、高端玩法 1、使用最新稳定Linux发行版 2、升级各个硬件设备到最新稳定firmware版本 3、使用SSD时，开启TRIM功能，并且可以的话文件系统block size和SSD对齐 4、当磁盘I/O存在瓶颈时，除了常规因素外，还需要关注中断不均衡的可能性 2018年7月5日，周四 MySQL 8.0 InnoDB哪些新特性你最期待，为什么？ 1、数据字典全部采用I...

2018-11-28

663

搞架构的人，Google的架构论文是必看的，但好像大家都不愿意去啃英文论文。故把自己的读书笔记，加入自己的思考，分享给大家。第二篇，Google MapReduce架构启示（上）。很多时候，定义清楚问题比解决问题更难。什么是MapReduce？它不是一个产品，而是一种解决问题的思路，它有多个工程实现，Google在论文中也给出了它自己的工程架构实现。 MapReduce这个编程模型解决什么问题？能够用分治法解决的问题，例如： ● 网页抓取 ● 日志处理 ● 索引倒排 ● 查询请求汇总 ● … 画外音：能够发现，现实中有许多基于分治的应用需求。为什么是Google，发明了这个模型？ Google网页抓取，分析，倒排的多个应用场景，当时的技术体系，解决不了Google大数据量高并发量的需求，Google被迫进行技术创新，思考出了这个模型。画外音：谁痛谁想办法。为什么MapReduce对“能够用分治法解决的问题”特别有效？分治法，是将一个大规模的问题，分解成多个小规模的问题(分)，多个小规模问题解决，再统筹小问题的解(合)，就能够解决大规模的问题。画外音：分治法...

2018-11-29

711

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。