spark-submit报错:Exception in thread "main" java.sql.SQLException:No sui...-低调大师

spark-submit报错:Exception in thread "main" java.sql.SQLException:No sui...

2018-05-08 746

我的原创地址：https://dongkelun.com/2018/05/06/sparkSubmitException/

前言

最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序，在本地eclipse里运行没有问题，想在集群上跑一下，看看在集群上性能如何，但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver，一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。

1、猜测是否是缺失oracle驱动

由于在本地没有问题，所以不会想到是代码问题，根据提示想到的是spark-submit找不到oracle驱动，因为maven或sbt仓库里没有oracle驱动，在本地跑的时候，是将oracle驱动下载到本地，然后在eclipse设置build path就可以了。

但是我在spark-submit 里已经通过–jars 加载oracle驱动了：

spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo --jars ojdbc5-11.2.0.3.jar spark-scala_2.11-1.0.jar

开始以为自己用法不对，但是上网搜了一下，发现就是这么用的~
然后尝试用–driver-class-path、–driver-library-path等都没成功。

2、sbt-assembly打包

网上查的sbt-assembly打包可以将所有依赖的jar包包括你写的代码全部打包在一起，于是尝试了一下
首先在项目目录中project/plugins.sbt添加

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.5")
resolvers += Resolver.url("bintray-sbt-plugins", url("http://dl.bintray.com/sbt/sbt-plugin-releases"))(Resolver.ivyStylePatterns)

其中0.14.5为版本号，需要与自己sbt对应上，否则报错，可在http://dl.bintray.com/sbt/sbt-plugin-releases/com.eed3si9n/sbt-assembly/查看版本
然后在项目对应目录下执行sbt,然后输入plugins，即可看到sbtassembly插件了，如下：

$ sbt
[info] Loading settings from plugins.sbt ...
[info] Loading global plugins from C:\Users\14123\.sbt\1.0\plugins
[info] Loading settings from assembly.sbt,plugins.sbt ...
[info] Loading project definition from D:\workspace\spark-scala\project
[info] Loading settings from spark-scala.sbt ...
[info] Set current project to spark-scala (in build file:/D:/workspace/spark-scala/)
[info] sbt server started at local:sbt-server-8b6c904d40b181717b3f
sbt:spark-scala> plugins
In file:/D:/workspace/spark-scala/
        sbt.plugins.IvyPlugin: enabled in spark-scala
        sbt.plugins.JvmPlugin: enabled in spark-scala
        sbt.plugins.CorePlugin: enabled in spark-scala
        sbt.plugins.JUnitXmlReportPlugin: enabled in spark-scala
        sbt.plugins.Giter8TemplatePlugin: enabled in spark-scala
        com.typesafe.sbteclipse.plugin.EclipsePlugin: enabled in spark-scala
        sbtassembly.AssemblyPlugin: enabled in spark-scala
sbt:spark-scala>

但是这样执行sbt-assembly打包会报错，需要解决jar包冲突(deduplicate)问题
在项目的bulid.sbt里添加如下即可（只是其中一种解决策略，可根据自己项目实际情况自己设定）

assemblyMergeStrategy in assembly := {
    case m if m.toLowerCase.endsWith("manifest.mf") => MergeStrategy.discard
    case m if m.startsWith("META-INF") => MergeStrategy.discard
    case PathList("javax", "servlet", xs @ _*) => MergeStrategy.first
    case PathList("org", "apache", xs @ _*) => MergeStrategy.first
    case PathList("org", "jboss", xs @ _*) => MergeStrategy.first
    case "about.html"  => MergeStrategy.rename
    case "reference.conf" => MergeStrategy.concat
    case _ => MergeStrategy.first
}

其中不同旧版本和新版本sbt写法不一样，具体可上网看一下别人的博客或者在官网查看。

这样就可以sbt-assembly进行打包了，发现这样打的jar包确实很大，用sbt package打的jar包大小1.48MB,sbt-assembly打的jar包大小194MB,将spark-scala-assembly-1.0.jar上传到服务器，然后执行submit,发现还是报同样的错，查看一下sbt-assembly日志，发现确实将oracle驱动加载上了~

3、真正原因

这样就猜想不是缺少oracle驱动，于是上网查了好多，偶然发现可能是代码问题，下面是我写的从oracle取数的部分代码

val allTablesDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:oracle:thin:@192.168.44.128:1521:orcl")
  .option("dbtable", "(select table_name,owner from all_tables where  owner  in('BIGDATA'))a")
  .option("user", "bigdata")
  .option("password", "bigdata")
  .load()

写法和我之前写的spark连接mysql的博客里的写法是一样的：Spark Sql 连接mysql
这样写在eclipse运行是没问题的，但是在spark-submit提交时是不行的，需要加上驱动信息

.option("driver", "oracle.jdbc.driver.OracleDriver")

重新打包，再运行，发现果然没问题

4、总结

4.1

其实在用spark提交之前写的spark连接mysql的程序也会报统一的错(如果$SPARK_HOME/jars没有mysql驱动)，和oracle驱动不在sbt仓库里没关系。
但是之前在spark-shell里测试spark连接hive时已经将mysql驱动拷贝过去了，所以mysql没有报错

4.2

在代码里加上driver之后再提交如果没有oracle驱动会报不同的错

Exception in thread "main" java.lang.ClassNotFoundException: oracle.jdbc.driver.OracleDriver

4.3

通过–jars指定jar和sbt assembly打包都可以，看自己习惯，但通过–jars需要注意先后顺序
正确：

spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo --jars ojdbc5-11.2.0.3.jar spark-scala_2.11-1.0.jar 
spark-submit --jars ojdbc5-11.2.0.3.jar --class com.dkl.leanring.spark.sql.Oracle2HiveDemo  spark-scala_2.11-1.0.jar

错误：

spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo  spark-scala_2.11-1.0.jar --jars ojdbc5-11.2.0.3.jar
spark-submit --jars ojdbc5-11.2.0.3.jar spark-scala_2.11-1.0.jar --class com.dkl.leanring.spark.sql.Oracle2HiveDemo 
...

也就是通过sbt package和sbt assembly生成的项目jar包一定要放在最后面

4.4

通过–driver-class-path也可以实现加载额外的jar

spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo --driver-class-path lib/*  spark-scala_2.11-1.0.jar

4.5

将oracle驱动拷贝到$SPARK_HOME/jars,就可以不在代码里指定driver选项了，而且也不用通过–jars添加oracle驱动，一劳永逸.

cp ojdbc5-11.2.0.3.jar $SPARK_HOME/jars
spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo  spark-scala_2.11-1.0.jar

具体这样设置可根据实际情况和偏好习惯使用。

附完整代码（测试用）

比较简单就不加注释~

package com.dkl.leanring.spark.sql

import org.apache.spark.sql.SparkSession

object Oracle2HiveDemo {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Oracle2HiveDemo")
      .master("local")
      .enableHiveSupport()
      .getOrCreate()

    val allTablesDF = spark.read
      .format("jdbc")
      .option("url", "jdbc:oracle:thin:@192.168.44.128:1521:orcl")
      .option("dbtable", "(select table_name,owner from all_tables where  owner  in('BIGDATA'))a")
      .option("user", "bigdata")
      .option("password", "bigdata")
      .option("driver", "oracle.jdbc.driver.OracleDriver")
      .load()
    import spark.implicits._
    import spark.sql
    sql("use oracle_test")
    allTablesDF.rdd.collect().foreach(row => {
      val tableName: String = row(0).toString()
      val dataBase: String = row(1).toString()

      println(dataBase + "." + tableName)
      val df = spark.read
        .format("jdbc")
        .option("url", "jdbc:oracle:thin:@192.168.44.128:1521:orcl")
        .option("dbtable", dataBase + "." + tableName)
        .option("user", "bigdata")
        .option("password", "bigdata")
        .option("driver", "oracle.jdbc.driver.OracleDriver")
        .load()
      df.write.mode("overwrite").saveAsTable(tableName)

    })

    spark.stop

  }
}

微信关注我们

原文链接：https://yq.aliyun.com/articles/676208

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

eBPF监控工具bcc系列九bcc Python

接下来看下python方面的知识。 1. 初始化 1.1 BPF 语法： BPF({text=BPF_program | src_file=filename} [, usdt_contexts=[USDT_object, ...]]) 创建一个BPF对象，能通过交互来产生输出。 1.2 USDT 语法：USDT({pid=pid | path=path}) 创建对象来使用USDT，可以指定进程ID,路径。 2. 事件 2.1 attach_kprobe 语法：BPF.attach_kprobe(event="event", fn_name="name") 使用函数入口的内核动态跟踪，关联Ｃ函数name和内核函数event()。 2.2 attach_kretprobe 语法：BPF.attach_kretprobe(event="event", fn_name="name") 关联Ｃ函数name和内核函数event，在内核函数返回的时候调用函数name. 2.3 attach_tracepoint 语法：BPF.attach_tracepoint(tp="tracepoint", fn...

2018-05-08

918

Caused by: org.springframework.beans.factory.NoUniqueBeanDefinitionException: No qualifying bean of type 'org.apache.ibatis.session.SqlSessionFactory' available: expected single matching bean but found 3: sqlSessionFactoryMicrotek,sqlSessionFactorySinfo,sqlSessionFactoryValue at org.springframework.beans.factory.config.DependencyDescriptor.resolveNotUnique(DependencyDescriptor.java:173) at org.springframework.beans.factory.support.DefaultListableBeanFactory.doResolveDependency(DefaultListableBea...

2018-05-08

892

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。