实时计算Flink —— 独享模式 —— Data Lake典型场景-低调大师

实时计算Flink —— 独享模式 —— Data Lake典型场景

2018-11-13 955

数据湖

Data Lake并不是一个新的概念，早在2011年就被提出，作为数仓的补充。数据湖是一个中心化的存储，能够存储任意规模的结构化与半结构化数据。数据湖中的数据，不必经过结构化过程，即可进行各种类型的分析。如可视化，大数据处理，实时数据分析和机器学习。

数据湖与数仓区别

与数仓相比，数据湖中数据有以下几个特点。

数据存储多样化

RDBMS：RDS/ADS…
数仓：Hive/ODPS…
Queue：SLS/MQ/Kafka…
文件存储：OSS/HDFS…

数据格式多样化

RDBMS中结构化数据
JSON/XML/CSV等半结构化数据
图像/音频/视频等非结构化数据

数据计算多样化

数据Schema不固定
异构数据源计算，无需将数据导入统一存储。
支持SQL进行大数据分析，同时也可直接对数据进行全文检索/机器学习等。

在数据湖场景中，实时计算有其独特优势，可完美解决数据湖场景下，结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明数据湖的优势。

具体场景

典型工业化IoT场景，传感器采集厂房中各地点的温度，湿度，压力等信息，并上传到云端做环境监控及数据分析。整体业务架构如下。

场景数据流

IoT场景中，整个系统数据分为几类：

IoT Device的运行日志，以文件的形式存储在OSS中。
IoT Device采集的数据，上传到SLS，MQ，Kafka等各种数据通道类系统。
MySQL，HBase，Redis等RDBMS，NoSQL中保存的重点监控区域设备白名单。

场景业务逻辑

根据以上三种数据类型，整个数据链路可分为两部分。

实时链路
- 实时BI
  - 链路：IoT Device -> SLS/MQ/Kafka… -> SC
  - 相关业务指标：
    - 实时查看在线设备状态，设备个数。
    - 实时查看工厂各区域温度/湿度/压力等报警情况。
    - 重要设备的在线情况查看（流式维表Join）。
    - 工厂重要区域指标查看（流式维表Join）。
- 实时监控（CEP）
  - 链路：IoT Device -> SLS/MQ/Kafka… -> SC
  - 相关业务指标：
    - 设备状态异常报警。
    - 厂区各监控指标(温度/湿度/压力)等报警。
离线链路
- DataLake ETL
  - 链路：IoT Device -> SLS/MQ/Kafka… -> SC -> Hive/ODPS
  - 链路作用：
    - 将IoT采集到的数据经过清洗，上传到数仓中做持久存储及分析。
- DalaLake分析
  - 链路1：IoT Device -> OSS -> SC。链路作用：直接分析IoT日志，获取小时/天级别设备运行状态报表。 IoT设备日志量大，如果将所有数据导入数仓，会大大增加存储成本，通过数据湖分析功能可直接通过SQL查询OSS上日志文件。
  - 链路2：IoT Device -> OSS -> SC (OSS JOIN HBase)。链路作用：将OSS上设备运行状态日志与Hbase/MySQL中数据关联并聚合，计算出关键设备某段时间的运行状态。

场景下流计算优势

功能丰富
- 实时计算，数据湖场景下ETL，分析，监控等功能集为一体。
- 20+种connector，无缝对接各种类数据源。
- 异构数据源可计算。可使用标准SQL，对异构数据源直接计算。
节省成本
- 开发成本：实时/离线各种场景中，SQL+UDF即可解决所有问题。一套SQL，实时/离线无缝切换。
- 运维成本：全托管模式，保证高SLA情况下，减轻您的运维负担。
- 存储成本：直接分析OSS，RDBMS，NoSQL，Queue，Hive…中结构化，半结构化数据，与传统数仓中，数据集中后才能分析的模式相比，对于低频查询类场景，可以节省存储成本。
- 计算成本：一个产品，支持多种计算能力，降低您的计算成本。

本文转自实时计算——Data Lake典型场景

微信关注我们

原文链接：https://yq.aliyun.com/articles/669115

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实时计算 Flink> 产品定价——业务流程

在使用阿里云实时计算 Flink前，对流式数据处理整体全链路有初步的认识可以极大方便您梳理业务流程，制定相应的系统设计方案。下面将简单介绍阿里云实时计算全流程系统架构。数据采集广义的实时数据采集指: 用户使用流式数据采集工具将数据实时地采集并传输到大数据Pub/Sub系统，该系统将为下游实时计算提供源源不断的事件源去触发流式计算作业的运行。阿里云大数据生态中提供了诸多针对不同场景领域的流式数据Pub/Sub系统，阿里云实时计算天然集成上图中诸多Pub/Sub系统，以便您可以轻松集成各类流式数据存储系统。例如：您可以直接使用实时计算对接SLS的LogHub系统，以做到快速集成并使用ECS日志。流式计算流数据作为实时计算 Flink的触发源驱动实时计算运行。因此，一个实时计算 Flink作业必须至少使用一个流数据作为数据源。同时，对于一些业务较为复杂的场景，实时计算还支持和静态数据存储进行关联查询。例如:针对每条DataHub流式数据，实时计算将根据流式数据的主键和RDS中数据进行关联查询(即join查询)。同时，阿里云实时计算还支持针对多条数据流进行关联操作，Flink S...

2018-11-14

789

本页目录创建 HDFS 源表什么是HDFS 读HDFS某个路径下所有CSV文件读取HDFS某个目录下所有ORC文件示例 WITH参数创建 HDFS 源表什么是HDFS HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型，目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例，说明hdfs source用法 DDL定义 create table hdfs_source( name varchar, age BIGINT, birthday BIGINT ) with ( type='csv', path='hdfs://root/stest/test.csv', lineDelimiter='\n', fieldDelimiter='|' ); 读HDFS某个路径下所有CSV文件大部分情况下，HDFS上的文件都是以表的形式保存的，表下面还有分区，例如： $hadoop fs -ls /user/hive/warehouse/xxx/table1/ Found 989 items ...

2018-11-14

705

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。