实时计算Flink —— 独享模式 —— Data Lake典型场景
数据湖
Data Lake并不是一个新的概念,早在2011年就被提出,作为数仓的补充。数据湖是一个中心化的存储,能够存储任意规模的结构化与半结构化数据。数据湖中的数据,不必经过结构化过程,即可进行各种类型的分析。如可视化,大数据处理,实时数据分析和机器学习。
数据湖与数仓区别
与数仓相比,数据湖中数据有以下几个特点。
数据存储多样化
- RDBMS:RDS/ADS…
- 数仓:Hive/ODPS…
- Queue:SLS/MQ/Kafka…
- 文件存储:OSS/HDFS…
数据格式多样化
- RDBMS中结构化数据
- JSON/XML/CSV等半结构化数据
- 图像/音频/视频等非结构化数据
数据计算多样化
- 数据Schema不固定
- 异构数据源计算,无需将数据导入统一存储。
- 支持SQL进行大数据分析,同时也可直接对数据进行全文检索/机器学习等。
在数据湖场景中,实时计算有其独特优势,可完美解决数据湖场景下,结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明数据湖的优势。
具体场景
典型工业化IoT场景,传感器采集厂房中各地点的温度,湿度,压力等信息,并上传到云端做环境监控及数据分析。整体业务架构如下。
场景数据流
IoT场景中,整个系统数据分为几类:
- IoT Device的运行日志,以文件的形式存储在OSS中。
- IoT Device采集的数据,上传到SLS,MQ,Kafka等各种数据通道类系统。
- MySQL,HBase,Redis等RDBMS,NoSQL中保存的重点监控区域设备白名单。
场景业务逻辑
根据以上三种数据类型,整个数据链路可分为两部分。
- 实时链路
- 实时BI
- 链路:IoT Device -> SLS/MQ/Kafka… -> SC
- 相关业务指标:
- 实时查看在线设备状态,设备个数。
- 实时查看工厂各区域温度/湿度/压力等报警情况。
- 重要设备的在线情况查看(流式维表Join)。
- 工厂重要区域指标查看(流式维表Join)。
- 实时监控(CEP)
- 链路:IoT Device -> SLS/MQ/Kafka… -> SC
- 相关业务指标:
- 设备状态异常报警。
- 厂区各监控指标(温度/湿度/压力)等报警。
- 实时BI
- 离线链路
- DataLake ETL
- 链路:IoT Device -> SLS/MQ/Kafka… -> SC -> Hive/ODPS
- 链路作用:
- 将IoT采集到的数据经过清洗,上传到数仓中做持久存储及分析。
- DalaLake分析
- 链路1:IoT Device -> OSS -> SC。链路作用:直接分析IoT日志,获取小时/天级别设备运行状态报表。 IoT设备日志量大,如果将所有数据导入数仓,会大大增加存储成本,通过数据湖分析功能可直接通过SQL查询OSS上日志文件。
- 链路2:IoT Device -> OSS -> SC (OSS JOIN HBase)。链路作用:将OSS上设备运行状态日志与Hbase/MySQL中数据关联并聚合,计算出关键设备某段时间的运行状态。
- DataLake ETL
场景下流计算优势
- 功能丰富
- 实时计算,数据湖场景下ETL,分析,监控等功能集为一体。
- 20+种connector,无缝对接各种类数据源。
- 异构数据源可计算。可使用标准SQL,对异构数据源直接计算。
- 节省成本
- 开发成本:实时/离线各种场景中,SQL+UDF即可解决所有问题。一套SQL,实时/离线无缝切换。
- 运维成本:全托管模式,保证高SLA情况下,减轻您的运维负担。
- 存储成本:直接分析OSS,RDBMS,NoSQL,Queue,Hive…中结构化,半结构化数据,与传统数仓中,数据集中后才能分析的模式相比,对于低频查询类场景,可以节省存储成本。
- 计算成本:一个产品,支持多种计算能力,降低您的计算成本。
本文转自实时计算——Data Lake典型场景
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
实时计算 Flink> 产品定价——业务流程
在使用阿里云实时计算 Flink前,对流式数据处理整体全链路有初步的认识可以极大方便您梳理业务流程,制定相应的系统设计方案。下面将简单介绍阿里云实时计算全流程系统架构。 数据采集 广义的实时数据采集指: 用户使用流式数据采集工具将数据 实时地采集并传输到大数据Pub/Sub系统,该系统将为下游实时计算提供源源不断的事件源去触发流式计算作业的运行。阿里云大数据生态中提供了诸多针对不同场景领域的流式数据Pub/Sub系统,阿里云实时计算天然集成上图中诸多Pub/Sub系统,以便您可以轻松集成各类流式数据存储系统。 例如:您可以直接使用实时计算对接SLS的LogHub系统,以做到快速集成并使用ECS日志。 流式计算 流数据作为实时计算 Flink的触发源驱动实时计算运行。因此, 一个实时计算 Flink作业必须至少使用一个流数据作为数据源。同时,对于一些业务较为复杂的场景,实时计算还支持和静态数据存储进行关联查询。例如:针对每条DataHub流式数据,实时计算将根据流式数据的主键和RDS中数据进行关联查询(即join查询)。同时,阿里云实时计算还支持针对多条数据流进行关联操作,Flink S...
- 下一篇
实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建HDFS源表
本页目录 创建 HDFS 源表 什么是HDFS 读HDFS某个路径下所有CSV文件 读取HDFS某个目录下所有ORC文件示例 WITH参数 创建 HDFS 源表 什么是HDFS HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型,目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例,说明hdfs source用法 DDL定义 create table hdfs_source( name varchar, age BIGINT, birthday BIGINT ) with ( type='csv', path='hdfs://root/stest/test.csv', lineDelimiter='\n', fieldDelimiter='|' ); 读HDFS某个路径下所有CSV文件 大部分情况下,HDFS上的文件都是以表的形式保存的,表下面还有分区,例如: $hadoop fs -ls /user/hive/warehouse/xxx/table1/ Found 989 items ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境