【求助】scala运行时报错ArrayIndexOutOfBoundsException
主程序代码如下:
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
//todo:利用scala语言开发spark的wordcount程序(本地运行)
object WordCount {
def main(args: Array[String]): Unit = {
//1、创建SparkConf对象 设置applicationName和master地址 local[2]表示本地采用2个线程
val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
//2、创建SparkContext对象,它是所有spark程序执行入口,它内部会构建DAGScheduler和TaskScheduler
val sc = new SparkContext(sparkConf)
//设置日志输出级别
sc.setLogLevel("warn")
//3、读取文件数据
val data: RDD[String] = sc.textFile("E:\\words.txt")
//4、切分每一行,获取所有的单词
val words: RDD[String] = data.flatMap(x=>x.split(" "))
//5、每个单词计为1
val wordAndOne: RDD[(String, Int)] = words.map(x =>(x,1))
//6、相同单词出现的1累加
val result: RDD[(String, Int)] = wordAndOne.reduceByKey((x:Int,y:Int)=>x+y)
//按照单词出现的次数降序排列 默认第二个参数是true,在这里表示升序,改为false就是降序
val sortedRDD: RDD[(String, Int)] = result.sortBy(x => x._2,false)
//7、收集数据打印
val finalResult: Array[(String, Int)] = sortedRDD.collect
finalResult.foreach(x=>println(x))
//8、关闭sc
sc.stop()
}
}
pom.xml文件:
<properties>
<!--<scala.version>2.11.8</scala.version>-->
<hadoop.version>3.1.0</hadoop.version>
<!--<spark.version>2.1.3</spark.version>-->
</properties>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.12.7</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>2.4.0</version>
</dependency>
</dependencies>
<build>
<sourceDirectory>src/main/scala</sourceDirectory>
<testSourceDirectory>src/test/scala</testSourceDirectory>
<plugins>
<plugin>
<groupId>net.alchim31.maven</groupId>
<artifactId>scala-maven-plugin</artifactId>
<version>3.2.2</version>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
<configuration>
<args>
<arg>-dependencyfile</arg>
<arg>${project.build.directory}/.scala_dependencies</arg>
</args>
</configuration>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.4.3</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
<transformers>
<transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass></mainClass>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
程序启动后报错内容如下:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
HBase+Spark技术双周刊 第二期
精彩直播 HBase生态+Spark社区钉钉大群直播往期回顾——视频回看及PPT下载 Phoenix = HBase+SQL:让HBase插上了翅膀在本期分享中,阿里多模型数据库专家张赟将为大家分享Phoenix 基本介绍及二级索引。 HBase备份恢复在本期分享中,阿里多模型数据库专家玄陵将为大家介绍阿里云HBase 备份恢复的设计背景、原理、实现以及与业内大数据数据库的备份恢复机制的异同。 线下活动 阿里云栖开发者沙龙-数据库技术专场(最全资料下载) 阿里云栖开发者沙龙希望通过技术干货分享来打通线上线下专家和开发者的连接。沙龙每期将定位不同的技术方向,逐步覆盖云计算,大数据,前端,PHP,android,AI,运维,测试 等技术领域,并会穿插一些特别专场(开源专场,女性开发者专场,开发者成长专场等)。 优质博文 HBase在新能源汽车监控系统中的应用 本文介绍的是重庆博尼施科技有限公司如何使用阿里云HBase来实现新能源车辆监控系统。该系统主要用于东风轻卡等新能源商用车监控服务,目前该系统正在阿里云线上稳定运行。本文中主要介绍了为何选用阿里云HBase、系统架构设计以及设计难点。 ...
-
下一篇
数据集成到MaxCompute的N种最佳实践(持续更新)
本文汇总数据集成到MaxCompute的各种最佳实践,希望可以帮助到正在或者即将使用MaxCompute的企业和开发者们。 | Hadoop数据迁移MaxCompute| 理论与实践:如何从Hadoop迁移到MaxCompute| Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南| RDS迁移到MaxCompute实现动态分区最佳实践 | MaxCompute_2_MaxCompute数据迁移文档| JSON数据从OSS迁移到MaxCompute最佳实践| JSON数据从MongoDB迁移到MaxCompute最佳实践 更多交流可扫码加入“MaxCompute开发者社区” 钉钉群
相关文章
文章评论
共有0条评论来说两句吧...