急中生智~利用Spark core完成"ETL"!-低调大师

急中生智~利用Spark core完成"ETL"!

2018-05-10 480

背景介绍：
今天接到老板分配的一个小任务：开发一个程序，实现从数据库中抽取数据并生成报表（这是我们数据库审计平台准备上线的一个功能）。既然是要生成报表，那么首先得有数据，于是便想到从该业务系统的测试环境抽取业务表的数据，然后装载至自己云主机上的Mysql中。
本来以为只要"select ...into outfile"和"load data infile..."两个命令就可以搞定的，可是还是出了意外。测试环境导出的
txt文件在云主机load时，报了"Row 1 doesn't contain data for all columns"这样的warning，表中的数据自然也是凌乱且不完整的。
仔细分析，感觉可能是两个方面出了问题：
1.由于测试环境的网段是隔离的，所以为了拿到"select ...into outfile"时生成的数据，我是打开CRT的日志，然后执行
"cat xxx.txt"，变相地将数据获取到了本地，然后上传至云主机的；
2.测试环境的Mysql和云主机上Mysql的小版本不一致。
这两个问题看似都没法解决，现在只有文本文件，怎么办？使用Spark不就得了！
之前也写过一篇使用Spark分析Mysql慢日志的博文，自己对Spark core的各种算子比较熟悉，所以决定试一试。

实战演练：
表结构如下：

mysql> desc claims_case_loss_document;
+---------------+-------------+------+-----+---------+----------------+
| Field         | Type        | Null | Key | Default | Extra          |
+---------------+-------------+------+-----+---------+----------------+
| id            | int(11)     | NO   | PRI | NULL    | auto_increment |
| case_id       | varchar(22) | NO   |     | NULL    |                |
| case_times    | varchar(2)  | NO   |     | NULL    |                |
| document_list | text        | NO   |     | NULL    |                |
| create_time   | timestamp   | YES  |     | NULL    |                |
| update_time   | timestamp   | YES  |     | NULL    |                |
+---------------+-------------+------+-----+---------+----------------+
6 rows in set (0.00 sec)

文本结构如下：

1147    90100002700021437455    1       100100_收款方账户信息;001003_事故证明;001001_驾驶证;100000_收款方×××明;001002_索赔申请书     2017-11-16 12:08:08     2017-11-16 12:08:08

观察文本结构可知，每个字段间都有数个空格，而且两两字段间的空格数并不一致，所以得先使用Spark core将文本中字段提取出来，以便后续插入。
闲话少说，直接上程序！（以下程序均使用scala在eclipse ide for scala中编写和执行）

package cn.spark.study.sql

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import scala.collection.mutable.ArrayBuffer
import java.sql.DriverManager

object insert2Mysql {
  def main(args: Array[String]): Unit = {
    val t1=System.nanoTime()
    val conf = new SparkConf()
        .setAppName("insert2Mysql")
        .setMaster("local")
    val sc = new SparkContext(conf)
    //textFile方法只能读取字符集为utf-8的文件，否则中文会乱码。windows下，将文件另存为时，可以选择utf-8字符集
    //也可在代码中实施转换，但比较繁琐
    val lines = sc.textFile("D://Users//GAOZHONGZHENG186//Desktop//text001.txt", 1);
    val words = lines.map { line => line.split(" ") }
    val wordsNotNull = words.map{ word =>
                       val wordArray_raw = new ArrayBuffer[String]()
                       val wordArray = new ArrayBuffer[String]()
                       for(i<-0 until word.length){
                         if (word(i)!=""){
                           wordArray_raw+=word(i)
                         }
                       }
                       for(i<-0 until wordArray_raw.length-4){
                         wordArray+=wordArray_raw(i)
                       }
                       wordArray+=wordArray_raw(4)+" "+wordArray_raw(5)
                       wordArray+=wordArray_raw(6)+" "+wordArray_raw(7)
                       wordArray
                      }

    wordsNotNull.foreach { word =>
                           Class.forName("com.mysql.cj.jdbc.Driver")
                           val conn = DriverManager.getConnection("jdbc:mysql://10.25.80.7:3306/db1", "root", "123456")
                           try {
                                val statement = conn.createStatement()
                                val sql="insert into claims_case_loss_document values ("+
                                        word(0)+","+
                                        "'"+word(1)+"'"+","+
                                        "'"+word(2)+"'"+","+
                                        "'"+word(3)+"'"+","+
                                        "'"+word(4)+"'"+","+
                                        "'"+word(5)+"'"+")"
                                //执行插入
                                //println(sql)
                                statement.executeUpdate(sql)
                                } catch{
                                        case e:Exception =>e.printStackTrace
                                       }
                                  finally {
                                          conn.close
                                          }
                         }
    val t2=System.nanoTime()
        //打印程序运行时间
    println((t2-t1)/1000000000 +"s")
  }
}

在插入的过程中，第一条记录总是会报错（后续语句插入正常），将eclipse中打印出的报错的insert语句手工粘贴至mysql执行时，仍报相同错误：

从报错看是遇到了bug，并且1147这个值有问题，将相邻语句放入Notepad对比：

从图中可看出，1147的千位上的1确实发生了异常改变，而第二条语句中的1148是正常的，猜测可能是某个未知bug导致了第一条记录发生了异常改变。这个猜测在后续得到了证实：当把1147所在行从文本中删除后（此时1148所在行为第一条记录），1148所在行也报出同样的错误，而后续语句均可正常插入。
由于数据是作分析用的，所以丢失一条无伤大雅，而且这个bug实在诡异，这里就不再深究了。

细心的童鞋在看了代码后应该会问：数据插入的效率如何？实不相瞒，效率很差！5000条的数据足足用了近半个小时，即使是在这样的OLAP场景下，这样的效率也是不可容忍的！
仔细研究代码可发现，在对RDD调用foreach方法进行插入的时候，每一条记录都要创建一个连接，并且每一次insert都会在Mysql中触发一次commit操作（autocommit参数默认是打开的），这些都是很消耗资源的操作，插入效率自然很差。
发现这些问题后，针对代码进行了修改：

package cn.spark.study.sql

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import java.sql.DriverManager
import scala.collection.mutable.ArrayBuffer

object insert2Mysql {
    def main(args: Array[String]): Unit = {
    val t1=System.nanoTime()
    val conf = new SparkConf()
        .setAppName("insert2Mysql")
        .setMaster("local")
    val sc = new SparkContext(conf)
    //textFile方法只能读取字符集为utf-8的文件，否则中文会乱码。windows下，将文件另存为时，可以选择utf-8字符集
    //也可在代码中实施转换，但比较繁琐
    val lines = sc.textFile("D://Users//GAOZHONGZHENG186//Desktop//text01.txt", 1);
    val words = lines.map { line => line.split(" ") }
    val wordsNotNull = words.map{ word =>
                       val wordArray_raw = new ArrayBuffer[String]()
                       val wordArray = new ArrayBuffer[String]()
                       for(i<-0 until word.length){
                         if (word(i)!=""){
                           wordArray_raw+=word(i)
                         }
                       }
                       for(i<-0 until wordArray_raw.length-4){
                         wordArray+=wordArray_raw(i)
                       }
                       wordArray+=wordArray_raw(4)+" "+wordArray_raw(5)
                       wordArray+=wordArray_raw(6)+" "+wordArray_raw(7)
                       wordArray
                      }

    val sqlRDD=wordsNotNull.map{ word =>  
                                    val sql="insert into claims_case_loss_document values ("+
                                             word(0)+","+
                                             "'"+word(1)+"'"+","+
                                             "'"+word(2)+"'"+","+
                                             "'"+word(3)+"'"+","+
                                             "'"+word(4)+"'"+","+
                                             "'"+word(5)+"'"+")"
                                    sql
                                  }

    val sqlArray=sqlRDD.toArray()

    //加载驱动
    Class.forName("com.mysql.cj.jdbc.Driver") 
    val conn = DriverManager.getConnection("jdbc:mysql://10.25.80.7:3306/db1", "root", "123456")                               
    try {
        conn.setAutoCommit(false)
        val statement = conn.createStatement() 
        //这里有bug，处理出来的第一行格式都会报ERROR 1054 (42S22): Unknown column '1147' in 'field list'
        //为了避免程序跳出循环，所以循环从1开始，即从第2条开始插入
        for(i<-1 until sqlArray.length){
           //执行插入
          println(sqlArray(i))
          statement.executeUpdate(sqlArray(i))
          }
        conn.commit()
        } 
    catch{
          case e:Exception =>e.printStackTrace
          }   
    finally{
            conn.close
            }

    val t2=System.nanoTime()
    println((t2-t1)/1000000000 +"s")
  }
}

修改后的代码规避了上述缺陷，在同样插入5000条数据的情况下，只用了221s！效率大大提升！
到Mysql验证数据：

mysql> select count(*) from claims_case_loss_document;
+----------+
| count(*) |
+----------+
|     4999 |  --插入时跳过了第一条，所以为4999条
+----------+
1 row in set (0.00 sec)

mysql> select * from claims_case_loss_document limit 1\G
*************************** 1. row ***************************
           id: 1148
      case_id: 90100002700021437450
   case_times: 1
document_list: 100100_收款方账户信息;001003_事故证明;001001_驾驶证;100000_收款方×××明;001002_索赔申请书
  create_time: 2017-11-16 12:08:08
  update_time: 2017-11-16 12:08:08
1 row in set (0.00 sec)

至此，问题圆满解决！整个过程和数据仓库领域的ETL很接近，抽取-转换-装载，三个环节都有涉及，只是没有使用
kettle之类的工具罢了。

总结：
在大数据时代，DBA应该积极做出改变，掌握一定开发技能，以便更好地适应时代变化，切不可固守自己的一亩三分地！

最后，给我们上海分组自研的数据库审计平台打个广告 ^.^
数据库审计平台是我们分组历时两年打造的产品，可用于Mysql、Oracle、Postgres等多种数据库，具备以下核心工能：
1.审计违规sql，前端一键生成报告
2.对相同功能点的sql可实现自动归类，方便后续统一整改
3.内嵌Percona toolkit，前端一键调用
4.一键抓取低效sql，并自动给出优化建议
还有很多很酷的功能就不一一介绍了，总之，谁用谁说好！感兴趣的DBA童鞋可以留言，可免费试用哦！

微信关注我们

原文链接：https://blog.51cto.com/13476134/2115018

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一文读懂Spring Boot、微服务架构和大数据治理之间的故事(文末有彩蛋！)

微服务架构微服务的诞生并非偶然，它是在互联网高速发展，技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物。互联网时代的产品通常有两类特点：需求变化快和用户群体庞大，在这种情况下，如何从系统架构的角度出发，构建灵活、易扩展的系统，快速应对需求的变化；同时，随着用户的增加，如何保证系统的可伸缩性、高可用性，成为系统架构面临的挑战。如果还按照以前传统开发模式，开发一个大型而全的系统已经很难满足市场对技术的需求，这时候分而治之的思想被提了出来，于是我们从单独架构发展到分布式架构，又从分布式架构发展到 SOA 架构，服务不断的被拆分和分解，粒度也越来越小，直到微服务架构的诞生。微服务架构是 SOA 架构的传承，但一个最本质的区别就在于微服务是真正的分布式的、去中心化的。把所有的“思考”逻辑包括路由、消息解析等放在服务内部，去掉一个大一统的 ESB，服务间轻通信，是比 SOA 更彻底的拆分。微服务架构强调的重点是业务系统需要彻底的组件化和服务化，原有的单个业务系统会拆分为多个可以独立开发，设计，运行和运维的小应用，这些小应用之间通过服务完成交互和集成。大约 2009...

2018-05-10

654

回归，带着满满的干货回来了大家好，我是姜汁啤酒。你可能觉得莫名其妙，从今年二月份这个经常上头版的网工兄弟，居然突然从51cto消失了，博客也不更新了？莫非，哥们，不会，和埃隆马斯克去火星了吧？其实，需要给大家解释解释，我消失了三个月一共完成了两件大事。我在51cto写了一个专栏:《老司机网络运维干货集锦》，里面涵盖了路由、交换、安全、QOS四大模块知识点，大家感兴趣的可以猛戳此链接详细了解：https://blog.51cto.com/cloumn/detail/2 。目前专栏还剩路由篇待更新，其他模块已经完毕。这三个月跳了个槽，从资深工程师摇身一变成为首席设计网络师，事情相对也多了起来。加上刚到一个新地方怎么都得装一装样子，老油条们，你懂的。因为上述两件事，搞得最近忙的没来得及更新博客。今天正式回归后，本来想继续更新我之前的数据中心系列。但是考虑再三，索性想和大家聊聊我对于网络运维的看法，以及写这个专栏的出发点，同时也希望和志同道合的朋友们一起分享分享网络运维的见解。网络运维，痛并快乐着当你因为这篇文章的标题，尤其是网络运维这四个字把你吸引进来时。我大概知道你也是...

2018-05-11

745

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。