首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/57256

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark 的键值对(pair RDD)操作,Scala实现

一:什么是Pair RDD? Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。 二:Pair RDD的操作实例 1:创建Pair RDD 在saprk中有很多种创建pairRDD的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD,此外需要把一个普通的RDD转化为pair RDD时,可以调用map函数来实现,传递的函数需要返回键值对。 scala> var lines = sc.parallelize(List("i love you")) lines: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at <console>:27 scala> val pairs = lines.map(x=>(x,1)) pairs: org.apache.spark.rdd.RDD[(S...

从分析性数据库ADS中导出数据

ADS是阿里云提供的分析性数据库,实现百亿数据毫秒级计算。 将ADS中的数据导出,有2种思路,通过select或dump实现。这两种方法各有优缺点。 select导出 因为ADS支持MySQL客户端,通过客户端,可以编写select进行数据导入。 在这个过程中需要解决1个问题: select在公共云上查询的返回行数最大为10000行,所以无法通过select无法一次获取所有的数据 如果想通过分区的方式,分多次,一次10000行将数据导出,需要解决分区的问题: limit语法只支持[0,n],不支持[m,n] 没有提供rownum或者其它可以获取行数的函数 所以,使用select的方式还是挺麻烦的。 dump导出 语法 dump可以导出海量的数据,语法如下: DUMP DATA [OVERWRITE] INTO 'odps://project_name/table_name' SELECT C1, C2 FROM DB1.TABLE1 WHERE C1 = 'xxxx' LIMIT 100000 在导入之前需要先在ODPS对garuda_data@aliyun.com赋权, 对于项目,需...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册