Java,Python,Scala比较（三）wordcount-低调大师

Java,Python,Scala比较（三）wordcount

2017-11-16 501

　　众所周知，wordcount在大数据中的地位相当于helloworld在各种编程语言中的地位。本文并不分析wordcount的计算方法，而是直接给出代码，目的是为了比较Spark中Java，Python，Scala的区别。
　　显然，Java写法较为复杂，Python简单易懂，Scala是Spark的原生代码，故即为简洁。
Java完整代码：

import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaPairRDD; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.FlatMapFunction; 
import org.apache.spark.api.java.function.Function2; 
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
public class wordcount {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("wc");
        JavaSparkContext sc = new JavaSparkContext(conf);
        //read a txtfile
        JavaRDD<String> text = sc.textFile("/home/vagrant/speech.txt");
        //split(" ")
        JavaRDD<String> words = text.flatMap(new FlatMapFunction<String, String>() {
            private static final long serialVersionUID = 1L;
            @Override
            public Iterator<String> call(String line) throws Exception {
                return Arrays.asList(line.split(" ")).iterator();
            }
        });
        //word => (word,1)
        JavaPairRDD<String,Integer> counts=words.mapToPair(
                new PairFunction<String, String, Integer>() {
                    public Tuple2<String, Integer> call(String s) throws Exception {
                        return new Tuple2(s, 1);
                    }
                }
        );
        //reduceByKey
        JavaPairRDD <String,Integer> results=counts.reduceByKey(
                new Function2<Integer, Integer, Integer>() {
                    public Integer call(Integer v1, Integer v2) throws Exception {
                        return v1 + v2;
                    }
                }
        ) ;
        //print
        results.foreach(new VoidFunction<Tuple2<String, Integer>>(){
              @Override
              public void call(Tuple2<String, Integer> t) throws Exception { 
                              System.out.println("("+t._1()+":"+t._2()+")");
              }
              });           
    }
}

Pyspark完整代码：

# Imports the PySpark libraries
from pyspark import SparkConf, SparkContext  
# Configure the Spark context to give a name to the application
sparkConf = SparkConf().setAppName("MyWordCounts")
sc = SparkContext(conf = sparkConf)
# The text file containing the words to count (this is the Spark README file)
textFile = sc.textFile('/home/vagrant/speech.txt')
# The code for counting the words (note that the execution mode is lazy)
# Uses the same paradigm Map and Reduce of Hadoop, but fully in memory
wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
# Executes the DAG (Directed Acyclic Graph) for counting and collecting the result
for wc in wordCounts.collect():
    print(wc)

Scala完整代码：

import org.apache.spark.{SparkContext,SparkConf}

object test{
  def main(args:Array[String]){
    val sparkConf = new SparkConf().setMaster("local").setAppName("MyWordCounts")
    val sc = new SparkContext(sparkConf)
    sc.textFile("/home/vagrant/speech.txt").flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_).foreach(println)
  }
}

本次分享到此结束，欢迎大家批评与交流~~

微信关注我们

原文链接：https://yq.aliyun.com/articles/615273

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

KVM实例应用

一、需求公司近一台DELL T460机器回来，虚拟30台来跑hadoop集群测试的，虚拟化用的KVM技术，这当中第一次使用，在部署安装过程，入了不少坑。故把整个过程写下来。二、部署步聚 1、所需要软件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 [root@KVMqemu] #rpm-qa|grep-E'qemu|libvirt|virt' virt-what-1.11-1.2.el6.x86_64 libgovirt-0.3.2-1.el6_7.2.x86_64 libvirt-0.10.2-54.el6_7.6.x86_64 virt-viewer-2.0-7.el6.x86_64 libvirt-python-0.10.2-54.el6_7.6.x86_64 qemu-kvm-0.12.1.2-2.479.el6_7.4.x86_64 virt-manager-0.9.0-29.el6_7.1.x86_64 virt- top -1.0.4-3.15.el6.x86_64 python-virtinst-0.600.0-29.el6.noarch gpx...

2017-11-17

587

Zookeeper是hadoop的一个子项目，虽然源自hadoop，但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper，本文不谈如何使用zookeeper，而是zookeeper到底有哪些实际的运用，哪些类型的应用能发挥zookeeper的优势，最后谈谈zookeeper对分布式网站架构能产生怎样的作用。 Zookeeper是针对大型分布式系统的高可靠的协调系统。由这个定义我们知道zookeeper是个协调系统，作用的对象是分布式系统。为什么分布式系统需要一个协调系统了？理由如下：开发分布式系统是件很困难的事情，其中的困难主要体现在分布式系统的“部分失败”。“部分失败”是指信息在网络的两个节点之间传送时候，如果网络出了故障，发送者无法知道接收者是否收到了这个信息，而且这种故障的原因很复杂，接收者可能在出现网络错误之前已经收到了信息，也可能没有收到，又或接收者的进程死掉了。发送者能够获得真实情况的唯一办法就是重新连接到接收者，询问接收者错误的原因，这就是分布式系统开发里的“部分失败”问题。 Zookeeper就是解决分布式系统...

2017-11-17

531

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。