如何正确使用FlinkStreamSQL-新手篇-低调大师

如何正确使用FlinkStreamSQL-新手篇

2021-03-18 641

一、前期准备

项目路径：https://github.com/DTStack/flinkStreamSQL

官方文档：https://github.com/DTStack/flinkStreamSQL/blob/1.11_release/docs/quickStart.md

官方视频：b站（欢迎各位多多三连）

https://www.bilibili.com/video/BV1GA411J7RL?from=search&seid=9301258683583870508 《FlinkStreamSQL初步介绍》

https://www.bilibili.com/video/BV14f4y1D7yR?from=search&seid=9301258683583870508 《FlinkStreamSQL的使用和贡献》

Git Clone 项目

首先，需要将项目从Github上导入到IDEA中（导入方法较多，这里介绍一种常用的）

从IDEA菜单栏里，Git 选项 -> Clone -> FlinkStreamSQL 项目地址，点击Clone即可获取FlinkStreamSQL 源码一份！

项目下载好后，默认分支是 1.11_release，对应的Flink版本是Flink 1.11.x（FlinkStreamSQL 的 release版本对应着 Flink 的 release 版本），需要其他版本的自行切换，推荐使用 1.10_release。

项目编译

项目下载下来后，第一次编译之前，先将整个项目maven reimport 一次

如果有缺少JAR包，在某度或某歌上搜索即可（项目本身并不依赖什么独有的JAR包，毕竟是开源项目），或者在官方钉钉群的文件中搜索看看，会有意外发现。

上面操作没有问题后，就可以开始编译了。

编译命令：

mvn clean package -DskipTests

打包结束后会生成对应的插件包文件夹，1.8 版本对应的是plugins，1.10 及之后的版本对应的sqlplugins

如果有用不到的插件，可以在项目的root路径下的pom中，注释掉不需要使用的插件

【！！！注意！！！】【！！！注意！！！】【！！！注意！！！】

部分插件之间有依赖关系，所以在注释的时候，请小心别把相关依赖的插件注释掉

rdb模块被所有关系型数据库所依赖，包括impala 模块（虽然它不是关系型数据库，但是它使用了JDBC）

core模块是所有模块所依赖的，不能注释！！

Launcher模块是任务提交必备，不能注释！！

Kafka-base模块是kafka插件的基础，如果使用了kafka插件（不管什么版本），不能注释！！

1.10 及之后的版本，新增了dirtyData模块，是用来提供脏数据指定存储功能（比如将脏数据存储到指定mysql数据库中），不能注释！！

【！！！注意！！！】【！！！注意！！！】【！！！注意！！！】

任务提交

项目编译完之后，就可以提交任务了。任务提交的方式有local、standalone、yarn-session、yarn-per-job模式，后续会支持application（需要等到1.12版本）

从idea提交任务

如果以下概念中，有不懂的，自行查资料了解（学会查资料，比问别人更有效率）

使用的idea版本是2020.3 公开版，有不一样的地方自行修改

这里以yarn-per-job模式为例，其他模式类似，可以看文档自行配置任务提交参数

1.配置idea-application

有个快捷的方法，找到LauncherMain，然后运行，在idea自动生成的application中修改，或者直接"Modify Run Configuration"

这里贴下自己一直使用的任务提交参数，需要的自行修改，每个参数具体什么意思，在官方参数文档中也有详细说明。

-name
Test
-mode
yarnPer
-sql
/dtstack/sql/test/JoinDemoFour.sql
-localSqlPluginPath
/IdeaProjects/StreamSQLOne/sqlplugins
-flinkconf
/dtstack/conf/flink
-yarnconf
/dtstack/conf/yarn
-flinkJarPath
/dtstack/flink-1.10.1/lib
-confProp
{\"metrics.latency.interval\":\"30000\",\"metrics.latency.granularity\":\"operator\",\"time.characteristic\":\"ProcessingTime\",\"disableChain\":\"true\"}
-pluginLoadMode
shipfile
-queue
b

任务SQL怎么写？这个根据自己的插件，去看对应的插件文档，最基本的任务SQL框架是：

CREATE Source（源表） -> CREATE Side（维表，根据自己业务来确定是否需要） -> CREATE Sink（结果表） -> INSERT INTO Sink blablabla...（实际执行的业务SQL，这个必须要，不然任务执行个🔨）

这里也贴下日常使用的SQL，需要自行修改。

CREATE TABLE SourceOne
(
    id        int,
    name      varchar,
    age       bigint,
    phone     bigint,
    birth     timestamp,
    todayTime time,
    todayDate date,
    money     decimal,
    price     double,
    wechat    varchar,
    proName   varchar
) WITH (
      type = 'kafka11',
      bootstrapServers = 'kudu1:9092',
      zookeeperQuorum = 'kudu1:2181/kafka',
      offsetReset = 'latest',
      topic = 'tiezhu_in_one',
      enableKeyPartitions = 'false',
      topicIsPattern = 'false',
      parallelism = '1'
      );

CREATE TABLE DimOne
(
    id    int,
    age   bigint,
    name  varchar,
    birth timestamp,
    PRIMARY KEY (id, age, name),
    period for system_time
) WITH (
      type = 'mysql',
      url = 'jdbc:mysql://k3:3306/tiezhu?useSSL=false',
      userName = 'root',
      password = 'admin123',
      tableName = 'TestOne',
      parallelism = '1',
      cache = 'LRU',
      asyncCapacity = '100',
      asyncTimeout = '1000',
      errorLimit = '10',
      cacheTTLMs = '1000'
      );

CREATE VIEW ViewOne AS
SELECT DO.age       as age,
       SO.todayTime as todayTime,
       SO.todayDate as todayDate,
       SO.name      as name,
       DO.id        as id,
       DO.birth     as birth,
       SO.proName   as proName
FROM SourceOne SO
         LEFT JOIN DimOne DO
                   ON SO.id = DO.id;

CREATE TABLE DimTwo
(
    id         int,
    proName    varchar,
    createDate date,
    createTime time,
    PRIMARY KEY (id),
    period for system_time
) WITH (
      type = 'mysql',
      url = 'jdbc:mysql://k3:3306/tiezhu?useSSL=false',
      userName = 'root',
      password = 'admin123',
      tableName = 'TestDemoTwo',
      parallelism = '1',
      cache = 'LRU',
      asyncCapacity = '100',
      errorLimit = '10'

      );

CREATE View ViewTwo AS
SELECT DimTwo.proName    as proName,
       DimTwo.createDate as createDate,
       DimTwo.createTime as createTime,
       ViewOne.todayTime as todayTime,
       ViewOne.todayDate as todayDate,
       ViewOne.name      as name,
       ViewOne.birth     as birth,
       ViewOne.age       as age,
       DimTwo.id         as id
FROM ViewOne
         LEFT JOIN DimTwo DimTwo
                   ON ViewOne.id = DimTwo.id
                       and '2020-10-28' = DimTwo.createDate
                       and DimTwo.id >= 2;

CREATE TABLE SinkOne
(
    id         int,
    name       varchar,
    age        bigint,
    birth      timestamp,
    todayTime  time,
    todayDate  date,
    createTime time,
    createDate date,
    proName    varchar
) WITH (
      type = 'kafka11',
      bootstrapServers = 'kudu1:9092',
      topic = 'tiezhu_out',
      parallelism = '1',
      updateMode = 'upsert'
      );

INSERT INTO SinkOne
SELECT *
FROM ViewTwo;

如果需要远程调试，那么需要在flink-conf.yaml中增加Flink 的远程调试配置，然后在idea中配置”JVM Remote“，在代码块中打断点（这种方法还能调试Flink 本身的代码）

env.java.opts.jobmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005
env.java.opts.taskmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5006

只需要修改标记的这两个地方，如果是HA集群，需要根据日志修改（怎么看日志，怎么修改，自行查资料）

至此，任务远程提交流程就这些。

本地调试

如果嫌弃远程调试，那么可以试试FlinkStreamSQL的本地调试，LocalTest模块（这个模块默认是注释掉的，如果有需要，自行打开即可），使用方法很简单，修改对应的参数，然后执行RUN 即可

但是【注意！！！】LocalTest模块的pom文件中有大部分常用的插件模块，但是如果出现了类似"ClassNotFoundException"，大概率是pom中没有对应的插件模块，同时需要注意，Kafka模块因为有类冲突的存在，所以在LocalTest模块中，Kafka模块只能存在一种

微信关注我们

原文链接：https://my.oschina.net/u/3803378/blog/4990373

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度推荐模型之Wide & Deep

1 背景在CTR预估任务中，线性模型仍占有半壁江山。利用手工构造的交叉组合特征来使线性模型具有“记忆性”，使模型记住共现频率较高的特征组合，往往也能达到一个不错的baseline，而且可解释性强。但这种方式有着较为明显的缺点：首先，特征工程需要耗费太多精力。其次，因为模型是强行记住这些组合特征的，所以对于未曾出现过的特征组合，权重系数为0，无法进行泛化。为了加强模型的泛化能力，研究者引入了DNN结构，将高维稀疏特征编码为低维稠密的Embedding vector，这种基于Embedding的方式减轻了特征工程的负担，而且能够有效提高模型的泛化能力。但是，基于Embedding的方式可能因为数据长尾分布，导致长尾的一些特征值无法被充分学习，其对应的嵌入向量是不准确的，这便会造成模型泛化过度，当基础query-item矩阵稀疏且评分较高时，例如具有特定偏好的用户或具有狭窄吸引力的商品，很难学习有效的query和item的低维表示形式。在这种情况下，大多数query-item对之间不应存在任何交互，但是密集的嵌入向量将导致所有query-item组合的预测都不为零，因此可能...

2021-03-18

830

网易数帆旗下易数大数据团队开源的 Kyuubi，和 Spark 社区的Spark Thrift Server，都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项目。本文从企业大数据应用场景关注的问题出发，对比了 Kyuubi 与 Spark Thrift Server 的差异与优劣，并引入HiveServer2 进行全面的分析。 1. Spark Thrift Server 介绍 Spark Thrift Server 是Apache Spark社区基于HiveServer2实现的一个Thrift服务，旨在无缝兼容HiveServer2。它通过JDBC接口将Spark SQL的能力以纯SQL的方式提供给终端用户。这种“开箱即用”的模式可以最大化地降低用户使用Spark的障碍和成本。我们先从传统的 Spark 作业提交方式入手，谈谈 Spark Thrift Server 具备的优势。 1.1 传统作业方式在没有 Spark Thrift Server 的情况下，Spark 作为大数据处理工具，可能并不是对所有人都那么“友好”。 1.1.1 门槛高用户通过Spar...

2021-03-19

696

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。