Intellij idea配置Spark开发环境，统计哈姆雷特词频(2)-低调大师

Intellij idea配置Spark开发环境，统计哈姆雷特词频(2)

2018-07-25 679

idea 新建maven 项目

输入maven坐标

maven 坐标
编辑maven文件

Spark 体系

中间层Spark，即核心模块Spark Core，必须在maven中引用。
编译Spark还要声明java8编译工具。

<properties>
        <java.version>1.8</java.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>${java.version}</source>
                    <target>${java.version}</target>
                </configuration>
            </plugin>
        </plugins>
    </build>

idea自动加载引用，在窗口左侧Project导航栏-->External Libraries中看到引用org.apache.spark中spark-core_2.11-2.1.0.jar文件。

idea Externel Libraries

注：Spark Streaming是流式计算框架、SparkSQL数据库工具、Mlib机器学习框架、GraphX图计算工具。

Java 8 lambda函数风格的wordCount

//定义单词总数累加器、和停用词累加器
Accumulator countTotal = jsc.accumulator(0);
Accumulator stopTotal = jsc.accumulator(0);
// 文件初始化RDD
JavaRDD<String> stopword = jsc.textFile("data/text/stopword.txt");
JavaRDD<String> rdd = jsc.textFile("data/text/Hamlet.txt");
// RDD 转换为List
List<String> stopWordList = stopword.collect();
// Broadcast 广播变量，task共享executor的变量
Broadcast<List<String>> broadcastedStopWordSet = jsc.broadcast(stopWordList);

rdd.filter(l->l.length()>0)
        .flatMap(l-> Arrays.asList(l.trim().split(" ")).iterator()) 
        // 将line分割展成词向量，词向量在连接，返回Rdd<String>
        .map(v->v.replaceAll("['.,:;?!-]", "").toLowerCase())
        // 特殊字符处理， Rdd<String>
        .filter(v->{
            boolean isStop = false;
            countTotal.add(1);
            if(broadcastedStopWordSet.value().contains(v)){
                stopTotal.add(1);
                isStop = true;
            }
            return !isStop;
        })
        //遍历总数计数、停用词计数，过滤停止词， Rdd<String>
        .mapToPair(v-> new Tuple2<>(v,1))
        .reduceByKey((v1,v2)->v1+v2)
        //统计个数
        .mapToPair(p-> new Tuple2<>(p._2,p._1))
        .sortByKey(false)
        //排序
        .take(10).forEach(e->{
            System.out.println(e._2+":"+e._1);
        });

将line分割展成词向量，词向量连接，flatmap返回Rdd<String>
特殊字符处理，返回 Rdd<String>
遍历总数计数、停用词计数，过滤停止词，返回Rdd<String>
Reduce Rdd<String,1>，返回Rdd<String,total>
排序 SortByKey，返回 Rdd<String,total>

后期有更多案例介绍Java 8 lambda风格的RDD开发

微信关注我们

原文链接：https://yq.aliyun.com/articles/635553

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

CentOS 7.x 安装JDK和Hadoop

下载tar包解压tar包设置环境变量 export JAVA_HOME=/home/fantj/jdk export PATH=$PATH:$JAVA_HOME/bin export HADOOP_HOME=/home/fantj/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$PATH:$HADOOP_HOME/sbin 查看java版本 [root@localhost ~]# java -version java version "1.8.0_171" Java(TM) SE Runtime Environment (build 1.8.0_171-b11) Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode) 查看hadoop版本 [root@localhost ~]# hadoop version Hadoop 2.7.0 Subversion Unknown -r Unknown Compiled by root on 2015-05-21T03:49Z Co...

2018-07-25

672

这些书籍适合中级前端开发者阅读，初级前端开发人员买来除了自我安慰和垫高显示器以外可能没什么用处。说是推荐书单，实际上是笔者自己的读书计划。欢迎你在阅读中与我交流。 1.《企业IT架构转型之道阿里巴巴中台战略思想与架构实践》推荐理由：曾经有一个前端大神说过，如果你想成为前端架构师，首先你得忘记自己是个前端。 2. 《Redis实战》推荐理由: Redis是服务端的缓存技术。缓存可以说只在性能优化阶段才有明显的作用，项目初期往往用不到。大多数使用node.js进行后端开发的前端开发者实际上更多地是做中间层或者直接做后端服务，缓存技术对自己来说是技术盲区，私以为对许多开发者来说也是盲区。 3. 《大话数据结构》推荐理由：技术决定你能走多快，数据结构和算法决定你能走多远。 4. 《算法图解》推荐理由：技术决定你能走多快，数据结构和算法决定你能走多远。 5. 《CSS世界》推荐理由：CSS和javascript一样，都是很容易上手，却很难精通的。CSS几乎可以说是我们全团队的软肋，包括前端人员在内，敢说自己精通js的大有人在，但敢说自己精通CSS的寥寥无几。这本是前端知名博主张鑫旭...

2018-07-25

612

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。