实时计算 Flink> 产品定价——业务流程
在使用阿里云实时计算 Flink前,对流式数据处理整体全链路有初步的认识可以极大方便您梳理业务流程,制定相应的系统设计方案。下面将简单介绍阿里云实时计算全流程系统架构。
- 数据采集广义的实时数据采集指: 用户使用流式数据采集工具将数据 实时地采集并传输到大数据Pub/Sub系统,该系统将为下游实时计算提供源源不断的事件源去触发流式计算作业的运行。阿里云大数据生态中提供了诸多针对不同场景领域的流式数据Pub/Sub系统,阿里云实时计算天然集成上图中诸多Pub/Sub系统,以便您可以轻松集成各类流式数据存储系统。例如:您可以直接使用实时计算对接SLS的LogHub系统,以做到快速集成并使用ECS日志。
- 流式计算流数据作为实时计算 Flink的触发源驱动实时计算运行。因此, 一个实时计算 Flink作业必须至少使用一个流数据作为数据源。同时,对于一些业务较为复杂的场景,实时计算还支持和静态数据存储进行关联查询。例如:针对每条DataHub流式数据,实时计算将根据流式数据的主键和RDS中数据进行关联查询(即join查询)。同时,阿里云实时计算还支持针对多条数据流进行关联操作,Flink SQL能够支持如阿里巴巴集团大量级的复杂业务。
- 实时数据集成阿里云实时计算 Flink将计算的结果数据直接写入目的数据存储,从而最大程度降低全链路数据时延,降低数据链路复杂度,保证数据加工的实时性。为了打通阿里云生态,阿里云实时计算 Flink天然集成了OLTP(RDS产品线等)、NoSQL(OTS等)、OLAP(ADS等)、MessageQueue(DataHub、ONS等)、MassiveStorage(OSS、MaxCompute等)。
- 数据消费流式计算的结果数据进入各类数据存储后,您可以运用个性化的应用操控结果数据: 使用数据存储系统访问数据,使用消息投递系统接受信息,或者使用告警系统生成异常结果数据警报。
数据链路情况
对于上图的数据链路,部分数据存储由于和实时计算 Flink模型不能一一匹配,需要使用其他类型的流数据做中转,说明如下:
-
DataHub
DataHub提供了多类数据(包括日志、数据库BinLog、IoT数据流等等)从其他数据存储上传到DataHub的工具、界面,以及一些开源、商业软件的集成,参看DataHub介绍文档,即可获取丰富多样的数据采集工具信息。 -
日志服务(LogService)
LogService是针对日志类数据的一站式服务,经阿里巴巴集团大量大数据场景锤炼而成。LogService提供了诸多针对日志的采集、消费、投递、查询分析等的功能。
请查看LogService采集方式,了解如何使用日志进行流式数据采集。 -
物联网套件(IoTHub)
物联网套件是阿里云专门为物联网领域的开发人员推出的。其目的是帮助开发者搭建安全性能强大的数据通道,方便终端(如传感器、执行器、嵌入式设备或智能家电等等)和云端的双向通信。 使用IoTHub规则引擎可以将IoT数据方便投递到DataHub,并利用实时计算 Flink和MaxCompute进行数据加工计算。
请查看IoT设置规则引擎,了解如何将IoT数据推送到DataHub。 -
数据传输(DTS)
DTS支持以数据库为核心的结构化存储产品之间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。使用DTS的数据传输功能,可以方便您将RDS等BinLog解析并投递到DataHub,并利用实时计算 Flink和MaxCompute进行数据加工计算。 当前DTS传输到DataHub功能已经上线,欢迎使用。
请查看RDS到DataHub数据实时同步,了解具体步骤。
- MQ
阿里云MQ服务是企业级互联网架构的核心产品,基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、定时(延时)、监控报警等一套完整的消息云服务。
本文转自实时计算——业务流程
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
实时计算 Flink> 产品简介——最新动态
时间 特征 类别 描述 使用客户 产品文档 2018.10.26 DDL语句 创建ES结果表 新功能 新增创建ES结果表的说明 所有 创建ElasticSearch(ES)结果表 2018.10.25 查看AccessID、AccessKey信息 新增文档 查看AccessID、AccessKey信息说明 所有 如何查看AccessID、AccessKey信息 2018.10.23 实时计算Flink 共享模式自动续费 新功能 新增实时计算Flink 共享模式下,对是实例的自动续费功能的开启、修改以及关闭。 所有 自动续费 上一篇:公告 下一篇:如何购买 相关文档 自动续费 公告 文档说明 发展历程 服务限制 法律说明 相关产品 实时计算 阿里云实时计算(Alibaba Cloud Realtime Compute)是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等多种场景。阿里云实时计算产品彻底规避繁重的底层流式处理逻辑开发工作,助力中国企业向实时化、智能化大数据计算升级转型。 MaxCompute ...
- 下一篇
实时计算Flink —— 独享模式 —— Data Lake典型场景
数据湖 Data Lake并不是一个新的概念,早在2011年就被提出,作为数仓的补充。数据湖是一个中心化的存储,能够存储任意规模的结构化与半结构化数据。数据湖中的数据,不必经过结构化过程,即可进行各种类型的分析。如可视化,大数据处理,实时数据分析和机器学习。 数据湖与数仓区别 与数仓相比,数据湖中数据有以下几个特点。 数据存储多样化 RDBMS:RDS/ADS… 数仓:Hive/ODPS… Queue:SLS/MQ/Kafka… 文件存储:OSS/HDFS… 数据格式多样化 RDBMS中结构化数据 JSON/XML/CSV等半结构化数据 图像/音频/视频等非结构化数据 数据计算多样化 数据Schema不固定 异构数据源计算,无需将数据导入统一存储。 支持SQL进行大数据分析,同时也可直接对数据进行全文检索/机器学习等。 在数据湖场景中,实时计算有其独特优势,可完美解决数据湖场景下,结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明数据湖的优势。 具体场景 典型工业化IoT场景,传感器采集厂房中各地点的温度,湿度,压力等信息,并上传到云端做环境监控及数据分析。整...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装