实时开发平台建设实践,深入释放实时数据价值丨04期直播回顾
视频回顾:点击这里
课件获取:点击这里
一、实时数仓建设背景
随着整体行业的数字化转型不断深入以及技术能力的不断提高,传统的 T+1 式(隔日)的离线大数据模式越来越无法满足新兴业务的发展需求,开展实时化的大数据业务,是企业深入挖掘数据价值的一条必经之路。
面对数字化转型下的数据快速产生、“小步快跑”的精细化运营及实时化和自动化的决策需求,如何提高实时数据处理能力将成为企业提升竞争力的一大因素。
而企业在建设实时数据应用时,又往往面临诸多困难:
-
实时开发技术门槛高,学习难度大,开发过程依赖各种引擎,链路复杂
-
开发数据效率低,代码调试复杂
-
建设成本、使用成本高
-
数据建模及开发规范不统一,问题难监控,管理困难
为了解决这些问题,我们在实时建设过程中需要确定建设方式和建设目标,帮助企业更好的实现实时数仓建设。
二、实时数仓建设方法论
如何帮助企业建设实时数仓,我们主要从以下四个步骤入手:
1、明确需求
企业进行实时数仓建设的第一步是明确需求,需求需要业务需求和技术需求想结合。
1)业务需求方面:
-
详细梳理各类实时计算应用场景
-
详细梳理每个实时指标的具体需求
2)技术需求方面:
- 详细梳理每个实时指标的数据来源信息
2、技术选型
第二步技术选型阶段,技术选型包括四个方面的选型:
a、整体技术路线
b、采集工具
c、消息中间件+计算引擎及
d、维表、结果表的存储数据库
3、数仓设计与开发
第三步是数仓设计与开发,包含一下三个方面:
a、实时数仓分层设计
b、开发规范
c、代码开发与调试
4、管理与监控
第四步是管理与监控,可以从任务发布、运行监控与告警、实时数据治理这3个部分入手。
三、基于数栈实时开发平台建设实时数仓
分享完实时数仓的建设方法论,接下来来为大家分享实时数仓的建设流程。
第一步:实时采集
基于Chunjun(原FlinkX)对数据库进行CDC采集,实现采集工具化,可对主流数据源进行CDC(日志数据)和通过JDBC(间隔轮询)两种实时采集方式。
1、CDC读取
读取数据库日志的方式,对源库无压力
2、JDBC读取
面向不开放数据库日志的场景,通过高频率的JDBC轮询读取数据,要求有自增字段
第二步:数据开发
1、数据开发基础功能
现在展示的是数据开发的一些基础功能,包括:WEB SQL IDE、可视化建表、维表缓存策略及系统&自定义函数,丰富的底层组件封装,界面化操作,降低开发门槛,使开发人员专注于业务逻辑处理。
2、数据开发高阶功能
除了数据开发的基础功能之外,还有面向特定行业或场景的高阶配置,包括自动重试、自动启停、脏数据管理。
第三步:发布上线
开发完毕之后就是任务的发布上线,发布上线包括任务调试和任务导入导出两个方面。
第四步:任务运维
任务运维就是全局掌控任务的运行,对于一些异常或紧急情况进行处理的过程。
上述的实时数仓建设过程,其实正是袋鼠云自研的数栈实时开发StreamWorks产品的落地实践过程。
云原生一站式大数实时开发平台(StreamWorks),面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、任务监控运维的全链路覆盖。支持Flink多版本引擎、Kubernetes资源调度,提供丰富的运维监控曲线,助力企业实时化转型。 图片
同时产品具备以下特点:
- 采集+计算+运维一体化
内含实时开发全链路工具,采集、计算、运维一体,降低客户使用成本,降低实时计算门槛。
- 统一元数据管理
支持输出自研Hadoop集群,同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎;节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。
- 批流一体
支持Flink批流一体式采集+开发, 集成Iceberg,赋能一体式湖仓建设模式。
- 功能丰富
平台提供任务跨环境发布、代码调试、SQL校验、提交检查、自动启停、批量连接现存任务等丰富功能
- 云原生支持
在支持YARN+HDFS的基础上,同时支持Kubernetes资源调度、MinIO、OSS等对象存储
同时产品具备3大价值:
- 降低开发门槛
兼容了多版本引擎、适配多种数据源,封装集成为可视化操作界面。基于Web IDE,图像化配置表信息并使用SQL语言进行开发,降低整体上手门槛
- 全面运维保障
提供任务全生命周期的可视化运维。全链路拓扑、丰富Metirc曲线展示、多方式多渠道任务告警,帮助用户搭建全面运维体系,提高运维保障。
- 促进数据规范
协助企业构建实时数仓,建设实时数据标准及规范。搭建一套实时任务调度、任务运行监控及实时任务可靠恢复机制于一体的实时数据平台,保障数据质量,提供统一标准的数据出口。
四、实时数仓建设案例
接下来我们分享两个使用客户的实际案例,为大家介绍实时开发平台如何切实的帮助客户解决问题。
- 某国有专业经济信息服务机构
- 某证券客户
五、数栈批流一体架构解析
最后我们为大家介绍一段拓展资料,关于数栈批流一体架构的解析。
- 批流一体整体架构
- 批流一体核心价值
- 批流一体数据建设链路
- 批流一体采集技术架构
原文来源:VX公众号“数栈研习社”
袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
什么是走索引?
索引是一种利用某种规则的数据结构与实际数据的关系加快数据查找的功能。我们的数据库中存储有大量的内容,而索引能够通过数据节点,根据特定的规则和算法快速查找到节点对应的实际文件的位置。简单来说索引就像书的目录,能够帮助我们准确定位到书籍具体的内容。 最近在学习索引的时候遇到了一个问题,下面我们通过重现的方式来看一下。 首先建立一个如下测试表: CREATE TABLE `simple_table` ( `id` int NOT NULL AUTO_INCREMENT, `c1` datetime DEFAULT NULL, `c2` datetime DEFAULT NULL, PRIMARY KEY (`id`), KEY `c2__idx` (`c2`), KEY `fun_c1_idx` ((cast(`c1` as date))) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci; fun_c1_idx: 是mysql8开始支持的函数索引 然后往这个表里随机插入1000 条数据。 select * ...
- 下一篇
Golang 实现的远程桌面 Vnc 代理组件 Vprix-VncProxy发布 v1.0.0 稳定版本
软件简介 VprixVncProxy 是 Golang 实现的 Vnc 远程桌面代理组件,完全解析 rfb 协议,支持远程桌面代理,rbs 文件录屏,rbs 文件回放,截图,录制视频。 全协议支持的 VncProxy。 支持 Tcp 代理 支持 WebSocket 代理 支持远程桌面操作保存为rbs文件。 支持使用rbs文件作为重播服务,通过 vnc 客户端连接 player 服务,回放远程桌面的操作。 支持实时录制视频。 支持通过rbs文件录制视频 支持屏幕截图 应用场景 远程桌面中间人角色,可以进行审计。 需要对远程桌面更多权限控制的场景。 内网隔离场景 组件说明 Proxy 启动 `server` 接受 `vnc viewer` 的链接. 启动 `client` 连接到指定的 `vnc server`. 为 `vnc viewer` 和 `vnc server` 之间建立起消息转发通道。 因为 `rfb` 协议被完全解析,可以针对通信的消息进行转发处理,产生了后续的功能。 Recorder 1. 启动 `client` 连接到指定的 `vnc server`. 2. 发送帧缓冲区...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7设置SWAP分区,小内存服务器的救世主
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境