深入理解Spark：核心思想与源码分析. 1.2　Spark初体验-低调大师

深入理解Spark：核心思想与源码分析. 1.2　Spark初体验

2017-05-01 528

1.2　Spark初体验

本节通过Spark的基本使用，让读者对Spark能有初步的认识，便于引导读者逐步深入学习。

1.2.1　运行spark-shell

要运行spark-shell，需要先对Spark进行配置。

1）进入Spark的conf文件夹：

cd ~/install/spark-1.2.0-bin-hadoop1/conf

2）复制一份spark-env.sh.template，命名为spark-env.sh，对它进行编辑，命令如下：

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

3）添加如下配置：

export SPARK_MASTER_IP=127.0.0.1

export SPARK_LOCAL_IP=127.0.0.1

4）启动spark-shell：

cd ~/inst

微信关注我们

原文链接：https://yq.aliyun.com/articles/82129

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Spark大数据分析：核心概念、技术及实践》一3.6　惰性操作

本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.6节，作者[美]　穆罕默德·古勒（MohammedGuller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.6　惰性操作 RDD的创建和转换方法都是惰性操作。当应用调用一个返回RDD的方法的时候，Spark并不会立即执行运算。比如，当你使用SparkContext的textFile方法从HDFS中读取文件时，Spark并不会马上从硬盘中读取文件。类似地，RDD转换操作（它会返回新RDD）也是惰性的。Spark会记录作用于RDD上的转换操作。让我们考虑如下示例代码。上面三行代码看起来很快就会执行完，哪怕textFile方法读取的是一个包含了10TB数据的文件。这其中的原因是当你调用textFile方法时，它并没有真正读取文件

2017-05-02

700

1.3　阅读环境准备准备Spark阅读环境，同样需要一台好机器。笔者调试源码的机器的内存是8 GB。源码阅读的前提是在IDE环境中打包、编译通过。常用的IDE有IntelliJ IDEA、Eclipse。笔者选择用Eclipse编译Spark，原因有二：一是由于使用多年对它比较熟悉，二是社区中使用Eclipse编译Spark的资料太少，在这里可以做个补充。在Windows系统编译Spark源码，除了安装JDK外，还需要安装以下工具。（1）安装Scala 由于Spark 1.20版本的sbt里指定的Scala版本是2.10.4，具体见Spark源码目录下的文件\project\plugins.sbt，其中有一行：scalaVersion := "2.10.4"。所以选择下载scala-2.10.4.msi，下载地址：http://ww

2017-05-02

592

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。