Spark 2.4.0 编程指南--快速入门
Spark 2.4.0 编程指南--快速入门
更多资源
视频
- Spark 2.4.0 编程指南--快速入门(bilibili视频) : https://www.bilibili.com/video/av38193405/?p=2
文档
- (官网文档): http://spark.apache.org/docs/2.4.0/quick-start.html
- (英译中)(官网文档)Spark 2.4.0 编程指南(快速入门)(pdf): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/module/pdf/%E7%BC%96%E7%A8%8B%E6%8C%87%E5%8D%97%E5%BF%AB%E9%80%9F%E5%85%A5%E9%97%A8%20-%20Spark%202.4.0%E6%96%87%E6%A1%A3.pdf
前置条件
- 已安装好java(选用的是java 1.8.0_191)
- 已安装好scala(选用的是scala 2.11.121)
- 已安装好hadoop(选用的是Hadoop 3.1.1)
- 已安装好spark(选用的是spark 2.4.0)
技能标签
- Spark 2.4.0 Spark session available as 'spark'
- 在Spark 2.0之后,RDD被数据集(Dataset)取代
- Spark session 读取HDFS文件做为数据集
- 数据集函数,count(),first(),filter(),reduce()
- 统计所有行单词总个数
- 计算行中最多单词的个数
- 计算最多单词个数的行
- 按单词分组统计个数(WordCount)
- 官网: http://spark.apache.org/docs/2.4.0/quick-start.html
示例
- Spark session 读取HDFS文件做为数据集
val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")
- 数据集调用count()函数
dataSet.count()
- 数据集调用first()函数
//其实调用的是head()函数 dataSet.first()
- 数据集调用show()函数
dataSet.show() //默认取前20行数据,并进行20个字符的截断 dataSet.show(10,false) //取前20行数据,并且不进行截断
- 数据集调用filter()函数
dataSet.filter(line => line.contains("spark"))
- 统计所有行单词总个数
import spark.implicits._ val lineWordLength = dataSet.map( line => line.split(" ").size) val result = lineWordLength.reduce((a,b) => a + b)
- 计算行中最多有多少个单词
import spark.implicits._ val lineWordLength = dataSet.map( line => line.split(" ").size) val result = lineWordLength.reduce((a,b) => Math.max(a,b))
- 计算最多单词个数的行
import spark.implicits._ val result = dataSet.reduce((a,b) => { if(a.split(" ").size > b.split(" ").size) a else b })
- 按单词分组统计单词个数(WorldCount)
import spark.implicits._ val distFile = spark.read.textFile("hdfs://standalone.com:9000/home/liuwen/data/word.txt") //方式一 //val dataset = distFile.flatMap( line => line.split(" ")).groupByKey(x => x ).count() //方式二 val dataset = distFile.flatMap( line => line.split(" ")).map(x => (x,1)).groupByKey(x => x).reduceGroups((a,b) => (a._1,a._2+b._2)) //方式三 //val dataset = distFile.flatMap( line => line.split(" ")).groupByKey(identity ).count()
end

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark 2.4.0 standalone 模式安装
Spark 2.4.0 standalone 模式安装 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 视频 Spark 2.4.0 standalone 模式安装(bilibili视频) : https://www.bilibili.com/video/av38193405/?p=1 官网文档 https://spark.apache.org/docs/2.4.0/spark-standalone.html 技能标签 学会安装Spark 2.4.0 standalone模式环境安装 Spark 集群环境maste,worker,history server 启动停止命令 Spark master,worker,history server 配置和管理界面查看 Spark shell 终端执行交互式命令,Spark shell 作业监控 WorldCount案例运行,界面查看 Spark master,worker,history,executor 日志查看 官网: http://spark...
- 下一篇
Spark 2.4.0编程指南--spark dataSet action
Spark 2.4.0编程指南--spark dataSet action 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 视频 Spark 2.4.0编程指南--spark dataSet action(bilibili视频) : https://www.bilibili.com/video/av38193405/?p=3 文档 (官网文档): http://spark.apache.org/docs/2.4.0/sql-getting-started.html 前置条件 已安装好java(选用的是java 1.8.0_191) 已安装好scala(选用的是scala 2.11.121) 已安装好hadoop(选用的是Hadoop 3.1.1) 已安装好spark(选用的是spark 2.4.0) 技能标签 Spark session 创建 在Spark 2.0之后,RDD被数据集(Dataset)取代 ,保留RDD旧api 数据集数据集介绍 读取本地文件(txt,json),HDFS文件...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Linux系统CentOS6、CentOS7手动修改IP地址
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- 2048小游戏-低调大师作品