建设实时数仓之前的思考与方案-低调大师

建设实时数仓之前的思考与方案

2020-11-29 676

导读：本文由作者LittleMagic总结分享授权发布，主要阐述建设实时数仓之前的思考与方案记录。详细分为以下几个方面：

动机背景
指导思想
技术选型
架构分层
元数据管理
SQL作业管理
数据质量

☞ 关注公众号『数据仓库与Python大数据』，获取更多优质资源与干货文章。

作者：LittleMagic

编辑：紫霞仙子

正文

前言

随着这次新冠疫情带来的机遇，业务数据规模飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。

本文简单地记录一下建设实时数仓之前的一些思考和方案想法，不涉及维度建模方法论的事情。如果有兴趣请移步：系列 | 漫谈数仓第二篇NO.2 数据模型（维度建模）

一、动机背景

随着业务快速增长，时效性越显重要，传统离线数仓的不足暴露出来：

运维层面——所有调度任务只能在业务闲时（凌晨）集中启动，集群压力大，耗时越来越长；
业务层面——数据按T+1更新，延迟高，数据时效价值打折扣，无法精细化运营与及时感知异常。

实时数仓即离线数仓的时效性改进方案，从原本的小时/天级别做到秒/分钟级别。底层设计变动的同时，需要尽力保证平滑迁移，不影响用户（分析人员）之前的使用习惯。

实时数仓的建设应早日提上日程，未来企业对数据时效性的要求会越来越高（如实时大屏、实时监控、实时风控等），实时数仓会很好的解决该问题。

二、指导思想：Kappa架构

一图流，可品

参考大数据数据仓库架构演进：

关于数仓架构，可回顾我们之前分享的文章，更多请移步：系列 | 漫谈数仓第一篇NO.1『基础架构』

三、计算/存储技术选型

3.1 计算引擎

硬性要求：

批流一体化——能同时进行实时和离线的操作；
提供统一易用的SQL interface——方便开发人员和分析人员。

可选项：Spark、Flink

较优解：Flink

优点：

严格按照Google Dataflow模型实现；
在事件时间、窗口、状态、exactly-once等方面更有优势；
非微批次处理，真正的实时流处理；
多层API，对table/SQL支持良好，支持UDF、流式join等高级用法。

缺点：

生态系统没有Spark强大（不太重要）；
1.10版本相比1.9版本的改动较多，需要仔细研究。

3.2 底层（事实数据）| 存储引擎

硬性要求：

1. 数据in-flight——不能中途落地，处理完之后直接给到下游，最小化延迟；

2. 可靠存储——有一定持久化能力，高可用，支持数据重放。

可选项：各种消息队列组件（Kafka、RabbitMQ、RocketMQ、Pulsar、...）
较优解：Kafka
1. 吞吐量很大；
2. 与Flink、Canal等外部系统的对接方案非常成熟，容易操作；
3. 团队使用经验丰富。

3.3 中间层（维度数据）| 存储引擎

硬性要求：

支持较大规模的查询（主要是与事实数据join的查询）；
能够快速实时更新。

可选项：RDBMS（MySQL等）、NoSQL（HBase、Redis、Cassandra等）
较优解：HBase
优点：

实时写入性能高，且支持基于时间戳的多版本机制；
接入业务库MySQL binlog简单；
可以通过集成Phoenix获得SQL能力。

3.4 高层（明细/汇总数据）| 存储/查询引擎

根据不同的需求，按照业务特点选择不同的方案。

当前已大规模应用，可随时利用的组件：

Greenplum——业务历史明细、BI支持、大宽表MOLAP
Redis——大列表业务结果（PV/UV、标签、推荐结果、Top-N等）
HBase——高并发汇总指标（用户画像）
MySQL——普通汇总指标、汇总模型等

当前未有或未大规模应用的组件：

ElasticSearch（ELK）——日志明细，也可以用作OLAP
Druid——OLAP
InfluxDB/OpenTSDB——时序数据

四、实时数仓分层架构

参照离线数仓分层，尽量扁平，减少数据中途的lag。

image1

image2

五、元数据管理

5.1 必要性

Kafka本身没有Hive/GP等传统数仓组件的metastore，必须自己维护数据schema。
（Flink 1.10开始正式在Table API中支持Catalog，用于外部元数据对接。）

5.2 可行方案

外部存储（e.g. MySQL） + Flink ExternalCatalog
Hive metastore + Flink HiveCatalog（与上一种方案本质相同，但是借用Hive的表描述与元数据体系）
Confluent Schema Registry (CSR) + Kafka Avro Serializer/Deserializer

CSR是开源的元数据注册中心，能与Kafka无缝集成，支持RESTful风格管理。producer和consumer通过Avro序列化/反序列化来利用元数据。

六、SQL作业管理

6.1 必要性

实时数仓平台展现给分析人员的开发界面应该是类似Hue的交互式查询UI，即用户写标准SQL，在平台上提交作业并返回结果，底层是透明的。
但仅靠Flink SQL无法实现，需要我们自行填补这个gap。

6.2 可行方案

AthenaX（由Uber开源）

该项目比较老旧，是基于Flink 1.5构建的，预计需要花比较多的时间精力来搞二次开发。

6.3 流程

用户提交SQL → 通过Catalog获取元数据 → 解释、校验、优化SQL → 编译为Flink Table/SQL job → 部署到YARN集群并运行 → 输出结果

重点仍然是元数据问题：如何将AthenaX的Catalog与Flink的Catalog打通？

需要将外部元数据的对应到Flink的TableDescriptor（包含connector、format、schema三类参数），进而映射到相应的TableFactory并注册表。

另外还需要控制SQL作业对YARN资源的占用，考虑用YARN队列实现，视情况调整调度策略。

七、数据质量

7.1 性能监控

使用Flink Metrics，主要考虑两点：

算子数据吞吐量（numRecordsInPerSecond/numRecordsOutPerSecond）
Kafka链路延迟（records-lag-max）→ 如果搞全链路延迟，需要做数据血缘分析

其他方面待定（术业有专攻，可专业搞监控系统的同学支持）

7.2 数据质量

手动对数——旁路写明细表，定期与数据源交叉验证
自动监控——数据指标波动告警，基线告警，表级告警 etc.

欢迎加入 数据分析|数仓技术交流群 。

进群方式：请加微信（微信号：dataclub_bigdata），回复：数据，通过审核会拉你进群。

(备注：行业-职位-城市)

历史好文推荐

福利时刻

01. 后台回复「数据」,即可领取大数据经典资料。

02. 后台回复「转型」,即可传统数据仓库转型大数据必学资料。

03. 后台回复「加群」,或添加一哥微信ID：dataclub_bigdata 拉您入群（大数据|数仓|分析）或领取资料。

Q: 关于大数据，你还想了解什么？

欢迎大家扫描下方二维码订阅「数据社」内容并推荐给更多数据方向的朋友，希望有更多机会和大家交流。

！关注不迷路~ 各种福利、资源定期分享！

你也「在看」吗？ 👇

本文分享自微信公众号 - 数据社（DataClub）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/dataclub/blog/4760731

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大厂面试超高频MySQL题目（含答案）：基础+索引+事务+锁

MySQL基础篇公众号：Java架构师联盟，每日更新技术好文说一下 MySQL 执行一条查询语句的内部执行过程？客户端先通过连接器连接到 MySQL 服务器。连接器权限验证通过之后，先查询是否有查询缓存，如果有缓存（之前执行过此语句）则直接返回缓存数据，如果没有缓存则进入分析器。分析器会对查询语句进行语法分析和词法分析，判断 SQL 语法是否正确，如果查询语法错误会直接返回给客户端错误信息，如果语法正确则进入优化器。优化器是对查询语句进行优化处理，例如一个表里面有多个索引，优化器会判别哪个索引性能更好。优化器执行完就进入执行器，执行器就开始执行语句进行查询比对了，直到查询到满足条件的所有数据，然后进行返回。 MySQL 提示“不存在此列”是执行到哪个节点报出的？此错误是执行到分析器阶段报出的，因为 MySQL 会在分析器阶段检查 SQL 语句的正确性。 MySQL 查询缓存的功能有何优缺点？ MySQL 查询缓存功能是在连接器之后发生的，它的优点是效率高，如果已经有缓存则会直接返回结果。查询缓存的缺点是失效太频繁导致缓存命中率比较低，任何更新表操作都会清空查询缓存，因...

2020-11-30

741

摘要：山西鲲鹏开发训练营主要分为鲲鹏生态介绍、鲲鹏应用代码迁移指导、C/C++和 Java 代码迁移沙箱实践及微认证几大环节。 8 月 27 日，华为 DevRun 开发者沙龙来到太原，在山西转型综合改革示范区管委会一层西厅会议室举办了“山西鲲鹏开发训练营”活动。本次鲲鹏开发训练营是在山西省工信厅和山西综改示范区管委会创新发展部的指导下，由山西鲲鹏生态创新中心举办的鲲鹏技术赋能活动。训练营主要分为鲲鹏生态介绍、鲲鹏应用代码迁移指导、C/C++和 Java 代码迁移沙箱实践及微认证几大环节。鲲鹏生态概况介绍山西鲲鹏生态创新中心COO于超为与会者介绍了鲲鹏生态的发展现状。于超提到，今天的人类社会正在迎来第四次工业革命，其代表性产业就是智能技术。在这一领域，华为鲲鹏芯片以 ARM 技术路线为主，在高性能计算、安全可靠和开放生态方面持续演进。鲲鹏架构在大数据、数据库、云服务、分布式存储和原生应用等场景已经有了规模化商业应用。华为鲲鹏秉持硬件开放、软件开源、使能合作伙伴的理念，为各行业提供“鲲鹏芯片+昇腾 AI”的多样化算力支撑，建设鲲鹏计算产业生态。目前，全国已有 800 多家厂商和 2...

2020-11-30

526

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。