spark rdd median 中位数求解-低调大师

spark rdd median 中位数求解

2017-11-13 563

lookup(key)

Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching the partition that the key maps to.

>>> l = range(1000) >>> rdd = sc.parallelize(zip(l, l), 10) >>> rdd.lookup(42) # slow [42] >>> sorted = rdd.sortByKey() >>> sorted.lookup(42) # fast [42] >>> sorted.lookup(1024) [] >>> rdd2 = sc.parallelize([(('a', 'b'), 'c')]).groupByKey() >>> list(rdd2.lookup(('a', 'b'))[0]) ['c']

You need to sort RDD and take element in the middle or average of two elements. Here is example with RDD[Int]:

  import org.apache.spark.SparkContext._

  val rdd: RDD[Int] = ???

  val sorted = rdd.sortBy(identity).zipWithIndex().map {
    case (v, idx) => (idx, v)
  }

  val count = sorted.count()

  val median: Double = if (count % 2 == 0) {
    val l = count / 2 - 1
    val r = l + 1
    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
  } else sorted.lookup(count / 2).head.toDouble



实验：

all_data = sc.parallelize([25,1,2,3,4,5,6,7,8,100])
all_data.sortBy(lambda x:x).zipWithIndex().map(lambda x: (x[1],x[0])).collect
[(0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 25), (9, 100)]

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7154234.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/396690

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop伪分布式安装Spark

应用场景搭建部署了hadoop环境后，使用MapReduce来进行计算，速度非常慢，因为MapReduce只是分布式批量计算，用于跑批的场景，并不追求速率，因为它需要频繁读写HDFS，并不能实时反馈结果，这种跑批的场景用的还是比较少的。一般客户最想看到的是输入后立马有结果反馈。那此时我们就需要在Hadoop伪分布式集群上部署Spark环境了！因为Spark是内存计算，它把计算的中间结果存到了内存中，不用频繁读取HDFS，做了极大的优化，当然Spark也是今后的潮流，慢慢将取代Hadoop的很多组件，Spark还有一个优势就是，它是天然与Hadoop完美结合的！操作步骤 1. 下载Scala和Spark SCALA2.10.4下载地址 spark1.6.1下载地址 2. 解压并配置环境变量下载解压scala，添加配置环境变量： export SCALA_HOME=/opt/scala-2.10.4 export PATH=$JAVA_HOME/bin$HADOOP_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$PATH 下载解压spark，添加配...

2017-11-14

514

　这是书籍《从零开始学Storm》赵必厦 2014年出版的配套代码！ storm-starter项目包含使用storm的各种各样的例子。项目托管在GitHub上面，其网址为:http://github.com/nathanmarz/storm-starter 或者　storm-starter项目的包结构： storm-starter项目的拓扑结构：新建maven项目的方式以“新建Maven项目的方式”导入storm-starter项目的步骤如下： 1、新建一个Maven项目，项目名称可以随意，如storm-starter。 2、把storm-starter项目根目录的src\jvm目录中的全部文件复制到Maven项目的src/main/java目录下。 storm-starter-master\src\jvm\storm\starter下的BasicDRPCTopology.java package storm.starter; import backtype.storm.Config; import bac...

2017-11-14

408

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。