spark (java API) 在Intellij IDEA中开发并运行

2017-02-06 595

概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。
分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码

图1，直接在intellij IDEA(社区版)中开发调试，直接run。

图2，直接在intellij IDEA(社区版)中用hadoop YARN模式。

Github项目源码

1.(第一部分)使用intellij IDEA创建一个Java的Maven项目。Github项目源码

初始化的MAVEN项目如下

2.根据Spark官网实例做二次开发Github项目源码

2.1.创建SimpleApp.java文件 `SimpleApp.java`

/**
 * MIT.
 * Author: wangxiaolei(王小雷).
 * Date:17-2-7.
 * Project:SparkJavaIdea.
 */
import org.apache.spark.api.java.*;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.Function;

public class SimpleApp {
    public static void main(String[] args) {
        String logFile = "file:///opt/spark-2.1.0-bin-hadoop2.7/README.md"; // Should be some file on your system
        SparkConf conf = new SparkConf().setAppName("Simple Application");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> logData = sc.textFile(logFile).cache();

        long numAs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("a"); }
        }).count();

        long numBs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("b"); }
        }).count();

        System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

        sc.stop();
    }
}

2.2.修改pom.xml文件 `pom.xml`

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>wangxiaolei</groupId>
    <artifactId>SparkJavaIdea</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency> <!-- Spark dependency -->
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>
    </dependencies>

</project>

3.在intellij IDEA中运行Spark程序

3.1 设置IDEA运行项的Configuration中的VM opthion 增加`-Dspark.master=local`

3.2.右键SimpleApp.java 点击运行，稍等片刻看到运行成功。

已经将Readme.md中的单词a和b统计出来了Lines with a: 62, lines with b: 30

至此，Spark在intellij IDEA中开发，并在IDEA中运行成功！

4.(第二部分)将intellij IDEA中的Spark java程序打包成jarGithub项目源码

5.spark local模式运行

5.1.使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/SparkJavaIdea-1.0-SNAPSHOT.jar

至此，Spark local模式程序开发和运行成功！

6.YARN集群模式（或伪分布式）运行.——需要有集群环境或者提前配置好了伪分布式环境，伪分布式环境搭建参考另一篇博文Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

6.1.开启hadoop集群，开启Spark。

# 初次搭建集群需要格式化namenode（已经初始化过可省略）
/opt/hadoop-2.7.3/bin/hdfs namenode -format
#开启hadoop集群（伪分布式）
/opt/hadoop-2.7.3/sbin/start-all.sh
#开启Spark
/opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh
#查看开启状态
jps

6.2 使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit   --class SimpleApp   --master yarn --deploy-mode cluster   target/SparkJavaIdea-1.0-SNAPSHOT.jar

至此，Spark在intellij IDEA中开发，并在hadoop YARN模式下运行成功！

6.3.在Web中查看Github项目源码

http://localhost:8088/cluster/apps

至此，Spark在intellij IDEA中开发，并在hadoop YARN模式下运行成功！

微信关注我们

原文链接：https://yq.aliyun.com/articles/70596

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于MaxCompute的图计算实践分享-图加载过程

免费开通大数据服务：https://www.aliyun.com/product/odps 一、前言 MaxComputeGraph 是基于飞天平台实现的面向迭代的图处理框架，为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph（以下简称 Graph ）作业包含图加载和计算两个阶段：加载，将存储在表中的数据载入到内存中，以点和边的形式存在；计算，遍历内存中的点，经过不断的迭代，直至达到迭代终止； Graph 模型有点（vertex）和边（edge）组成，以邻接表的形式进行组织，如下图：图的原始数据存在于MaxCompute的表（table）中，每个 table 包含多个记录（record），每个 record 又包含多个列（field），图加载就是将这种形式的数据，转换成 vertex 和 edge的过程

2017-02-05

637

表与表之间的关联基本上是所有业务系统都存在的，RDBMS通过外键实现，MongoDB通过嵌入式子文档解决，那么Elasticsearch怎么解决这个问题呢？答案就是Parent-Child关联（参考文档）业务场景有一个广告的分发系统，为了更精准的做广告的推送，除了自身积累的数据以外，还会从其他合作方通过数据交换（当然这些都是脱敏的数据）的方式获取更多用户行为数据，例如从音乐网站获取听的音乐列表、从购物网站获取最近的购物类别、从书评网站获取最近浏览的图书等等。这些来自于外部的数据，有以下几个问题：并不是每个用户都有全部的数据，比如有些用户只有书评和音乐信息，而有些用户没有任何外部信息某一类外部的数据源可能包含几个网站，比如音乐网站有A、B、C三个网站，它们提供的数据格式也并不一致在进行广告推送时，需要实时查询一个用户的信息完成精准推荐。比如实时查询满足下面条件的用户：最近一个月，经常在早上、傍晚或者晚上连续一个小时的音乐；购买过跑鞋、运动手表等跑步装备且购买过或点评过运动类书籍再继续下面的（十分简化）解决方案之前，可以先思考下解决方案这是典型应用大数据进行个性化精...

2017-02-06

616

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

spark (java API) 在Intellij IDEA中开发并运行

1.(第一部分)使用intellij IDEA创建一个Java的Maven项目。Github项目源码

2.根据Spark官网实例做二次开发Github项目源码

2.1.创建SimpleApp.java文件 `SimpleApp.java`

2.2.修改pom.xml文件 `pom.xml`

3.在intellij IDEA中运行Spark程序

3.1 设置IDEA运行项的Configuration中的VM opthion 增加`-Dspark.master=local`

3.2.右键SimpleApp.java 点击运行，稍等片刻看到运行成功。

4.(第二部分)将intellij IDEA中的Spark java程序打包成jarGithub项目源码

5.spark local模式运行

5.1.使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

6.YARN集群模式（或伪分布式）运行.——需要有集群环境或者提前配置好了伪分布式环境，伪分布式环境搭建参考另一篇博文Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

6.1.开启hadoop集群，开启Spark。

6.2 使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

6.3.在Web中查看Github项目源码

基于MaxCompute的图计算实践分享-图加载过程

Elasticsearch——利用Parent-Child关系解决大数据场景下的实时查询

相关文章

发表评论

资源下载

Spring

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！

spark (java API) 在Intellij IDEA中开发并运行

1.(第一部分)使用intellij IDEA创建一个Java的Maven项目。Github项目源码

2.根据Spark官网实例做二次开发Github项目源码

2.1.创建SimpleApp.java文件 SimpleApp.java

2.2.修改pom.xml文件 pom.xml

3.在intellij IDEA中运行Spark程序

3.1 设置IDEA运行项的Configuration中的VM opthion 增加-Dspark.master=local

3.2.右键SimpleApp.java 点击运行，稍等片刻看到运行成功。

4.(第二部分)将intellij IDEA中的Spark java程序打包成jarGithub项目源码

5.spark local模式运行

5.1.使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

6.YARN集群模式（或伪分布式）运行.——需要有集群环境或者提前配置好了伪分布式环境，伪分布式环境搭建参考另一篇博文Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

6.1.开启hadoop集群，开启Spark。

6.2 使用intellij IDEA的Terminal或者是系统（博主是Ubuntu）的Terminal，在当前项目路径（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）执行如下代码。

6.3.在Web中查看Github项目源码

基于MaxCompute的图计算实践分享-图加载过程

Elasticsearch——利用Parent-Child关系解决大数据场景下的实时查询

相关文章

发表评论

资源下载

Spring

Rocky Linux

Sublime Text

WebStorm

欢迎您来访！

2.1.创建SimpleApp.java文件 `SimpleApp.java`

2.2.修改pom.xml文件 `pom.xml`

3.1 设置IDEA运行项的Configuration中的VM opthion 增加`-Dspark.master=local`