SparkSQL项目中的应用-低调大师

SparkSQL项目中的应用

2015-10-09 833

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

从Spark 1.0版本起，Spark开始支持Spark SQL，它最主要的用途之一就是能够直接从Spark平台上面获取数据。并且Spark SQL提供比较流行的Parquet列式存储格式以及从Hive表中直接读取数据的支持。之后，Spark SQL还增加了对JSON等其他格式的支持。到了Spark 1.3 版本Spark还可以使用SQL的方式进行DataFrames的操作。我们通过JDBC的方式通过前台业务逻辑执行相关sql的增删改查，通过远程连接linux对文件进行导入处理，使项目能够初步支持Spark平台，现如今已支持Spark1.4版本。

SparkSQL具有内置的SQL扩展的基类实现Catalyst，提供了提供了解析（一个非常简单的用Scala语言编写的SQL解析器）、执行（Spark Planner,生成基于RDD的物理计划）和绑定（数据完全存放于内存中）。

前台我们使用ThriftServer连接后台SparkSQL,它是一个JDBC/ODBC接口，通过配置Hive-site.xml，就可以使前台用JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer通过调用hive元数据信息找到表或文件信息在hdfs上的具体位置，并通过Spark的RDD实现了hive的接口。对于标签、客户群探索的增、删、改、查都是通过SparkSQL对HDFS上存储的相应表文件进行操作，突破了传统数据库的瓶颈，同时为以后的客户群智能分析作了铺垫。

1.数据的存储格式

我们使用Parquet面向列存存储的文件存储结构，因为Parquet具有高压缩比的特点且适合嵌套数据类型的存储，能够避免不必要的IO性能。Parquet建表如下所示:

CREATE TABLE dw_coclbl_d01_20140512_lzo_256_parquet(op_time string,

join_id double, city_id int, product_no string, brand_id int, vip_level int, county_id int, l2_01_01_04 double, l2_01_01_04_01 double)

ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe'STORED AS

INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat'

OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormat';

2、由于压缩文件占用的空间较少，文件load的速度比较快。故使用压缩文件进行数据的load.使用gzip进行压缩时，单个文件只能在一个节点上进行load,加载时间很长。使用split命令将解压后的csv文件分割成多个256M的小文件，机器上每个block块的大小为128M,故将小文件分割为128M或256M以保证效率。由于Parquet存储格式暂时只支持Gzip，项目中暂时使用Gzip压缩格式。通过在控制台输入set mapreduce.output.fileoutputformat.compress=true指令命令设置压缩格式为true。再执行set mapreduce.output. fileoutput format.compress.codec = org.apache.hadoop.io.compress.GzipCodec;将文件的压缩格式设置为Gzip压缩格式

3、数据的导入。使用的是Apache的一个项目，最早作为Hadoop的一个第三方模块存在，主要功能是在Hadoop(hive)与传统的数据库(mysql、oracle等)间进行数据的传递，可以将一个关系型数据库中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导进到关系数据库中。

由于执行sqoop导入需要通过yarn的任务调度进行mapreduce，由于spark开启后即便在空闲状态下也不释放内存，故修改spark-env.sh配置，分配多余内存以便sqoop执行。

Create job -f 3 -t 4

Creating job for links with from id 3 and to id 4

    Please fill following values to create new job object

    Name: Sqoopy

    From database configuration

    Schema name: hive

    Table name: TBLS

    Table SQL statement:

    Table column names:

    Partition column name:

    Null value allowed for the partition column:

    Boundary query:

    ToJob configuration

    Output format:

      0 : TEXT_FILE

      1 : SEQUENCE_FILE

    Choose: 0

    Compression format:

successfully created with validation status OK  and persistent id 2

     0 : NONE

      1 : DEFAULT

      2 : DEFLATE

      3 : GZIP

      4 : BZIP2

      5 : LZO

      6 : LZ4

      7 : SNAPPY

      8 : CUSTOM

    Choose: 0

    Custom compression format:

    Output directory: hdfs://hadoop000:8020/sqoop2

    Throttling resources

    Extractors:

    Loaders:

    New job was

4、前台与后台交互工具类

工具类提供静态的方法，可以进行相应业务逻辑的调用，由于Hadoop集群存在于服务器端，前台需要实现跨平台服务器的连接，才能执行相应的Hadoop命令，实现对HDFS上文件的操作。此次设计的ShellUtils类，通过jsch连接Linux服务器执行shell命令.

private static JSch jsch;

    private static Session session;

    public static void connect(String user, String passwd, String host) throws JSchException {

        jsch = new JSch();

        session = jsch.getSession(user, host,22);

        session.setPassword(passwd);

        java.util.Properties config = new java.util.Properties();

        config.put("StrictHostKeyChecking", "no");

        session.setConfig(config);

通过传入的Linux命令、用户名、密码等参数对远程linux服务器进行连接。由于执行Hadoop命令根据不同文件的大小所需占用的时间是不同的，在hadoop尚未将文件完全从hdfs上合并到本地时，本地会提前生成文件但文件内容为空，至此这里需要多传入前台客户群探索出来的客户群数目与文件条数进行对比，倘若数目相同则说明执行完毕。

CodecUtil类，用来实现不同类型压缩文件的解压工作，通过传入的压缩类型，利用反射机制锁定压缩的类型，由于存储在hdfs上的文件都是以文件块的形式存在的，所以首先需要获取hdfs中文件的二级子目录，遍历查询到每一个文件块的文件路径，随后通过输入输出流进行文件的解压工作。然后将此类打包成jar包放入集群中，通过前台远程连接服务端，执行hadoop命令操作执行，实现类部分代码如下：

public class CodecUtil{

public static void main(String[] args) throws Exception {

//compress("org.apache.hadoop.io.compress.GzipCodec");

String listName = args[0];

String codecType = args[1];

String hdfsPath = args[2];

uncompress(listName,codecType,hdfsPath);

//解压缩

public static void uncompress(String listName,String CodecType,String hdfsPath) throws Exception{

Class<?> codecClass = Class.forName(CodecType);

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

Path listf =new Path(hdfsPath+listName);

FileStatus stats[]=fs.listStatus(listf);

CompressionCodec codec = (CompressionCodec)

ReflectionUtils.newInstance(codecClass, conf);

int i;

for ( i = 0; i < stats.length; i++){

//获得子文件块的文件路径

String Random = findRandom();

Path list = new Path(stats[i].getPath().toString());

InputStream in = codec.createInputStream(inputStream);

FSDataOutputStream output = fs.create(new Path(hdfsPath + listName+"/"+unListName));

IOUtils.copyBytes(in, output, conf);

IOUtils.closeStream(in);

}

5、导入生成客户群

由于sparksql不支持insert into value语句，无法通过jdbc方式连接后台HDFS通过sparksql对文件进行导入数据的操作。于是将需要导入的csv文件通过ftp方式上传到远程服务器，再将文件通过load的方式导入表中，实现导入生成客户群的功能。

// 将文件上传到ftp服务器

CiFtpInfo ftp = customFileRelService.getCiFtpInfoByFtpType(1);

FtpUtil.ftp(ftp.getFtpServerIp(),ftp.getFtpPort(),ftp.getFtpUser(),DES.decrypt

(ftp.getFtpPwd()), ftpFileName, ftp.getFtpPath());

// 将文件load到表中

String ftpPath = ftp.getFtpPath();

if (!ftpPath.endsWith("/")) {

ftpPath = ftpPath + "/";

}

String sql = " LOAD DATA LOCAL INPATH '" + ftpPath + fileName

+ "' OVERWRITE INTO TABLE " + tabName;

log.info("loadSql=" + sql);

customersService.executeInBackDataBase(sql);

log.info("load table=" + tabName + " successful");

6、数据表或文件下载的实现

由于存储在hdfs上的数据为Gzip压缩格式，首先通过执行事先编好的解压代码对文件块进行解压，这里需要传入需要解压的文件名、解压类型、hdfs的完全路径，解压完毕后通过执行hadoop文件合并命令将文件从hdfs上合并到本地服务器，合并完毕后由于解压缩后的文件会占用hdfs的空间，同时执行hadoop文件删除命令将解压后的文件删除，再通过ftp传到前台服务器，完成客户群清单下载。

String command = "cd " + ftpPath + ";" + hadoopPath + "hadoop jar "+hadoopPath+"CodecTable.jar " + listRandomName +" "+ CodecType

+" " + " "+ hdfsWholePath + ";" + hadoopPath + "hadoop fs -cat '" + hdfsPath + listRandomName + "/*'>" + listName1+".csv;" + hadoopPath +"hadoop fs -rm -r " + hdfsPath + listRandomName + ";" + "wc -l " + listName1 +".csv;";

LOG.debug(command);

flag = ShellUtils.execCmd(command, user, passwd, host,num);

清单的推送也是通过文件合并传输的方式进行其他平台的推送，大大降低了读取数据插入表数据所消耗的时间。

微信关注我们

原文链接：https://yq.aliyun.com/articles/609186

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop系统架构

一、Hadoop系统架构图 Hadoop1.0与hadoop2.0架构对比图 YARN架构: ResourceManager –处理客户端请求 –启动/监控ApplicationMaster –监控NodeManager –资源分配与调度 NodeManager –单个节点上的资源管理 –处理来自ResourceManager的命令 –处理来自ApplicationMaster的命令 ApplicationMaster –数据切分 –为应用程序申请资源，并分配给内部任务 –任务监控与容错 YARN作业处理流程: 步骤1　用户向YARN 中提交应用程序，其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。步骤2　ResourceManager 为该应用程序分配第一个Container，并与对应的NodeManager 通信，要求它在这个Container 中启动应用程序的ApplicationMaster。步骤3　ApplicationMaster 首先向ResourceManager 注册，这样用户可以直接通过R...

2015-10-09

798

1．配置多个executor 在项目中，由于数据量为几百万甚至千万级别，如果一个executor装载的对象过多，会导致GC很慢。项目中，我们使一个worker节点执行app时启动多个executor，从而加大并发度，解决full GC慢的问题。同时，由于启动了多个exeucute，在内存与核数不变的情况下，需要调整分配给每个execute的内存数及核数。 2．配置数据序列化 Spark默认序列化方式为Java的ObjectOutputStream序列化一个对象，速度较慢，序列化产生的结果有时也比较大。所以项目中我们使用kryo序列化方式，通过kryo序列化，使产生的结果更为紧凑，减少内存的占用空间，同时减少了对象本身的元数据信息与基本数据类型的开销，从而更好地提高了性能。 3．优化缓存大小 Spark默认用于缓存RDD的空间为一个executor的60%，项目中由于考虑到标签数量为成百个，使用同样规则与数量的标签进行客户群探索及客户群生成的概率很小。所以修改spark.storage.memoryFaction=0.4，这样使百分之60%的内存空间可以在task执行过程中缓存创建...

2015-10-09

717

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。