Apache Flink 漫谈系列(03) - Watermark
实际问题(乱序)
在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗口(详见Window介绍章节),有一个EventTime是 11秒的数据,在第16秒时候到来了。图示第11秒的数据,在16秒到来了,如下图:
那么对于一个Count聚合的Tumble(5s)的window,上面的情况如何处理才能window2=4,window3=2 呢?
Apache Flink的时间类型
开篇我们描述的问题是一个很常见的Time

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Flink 漫谈系列(02) - 概述
Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。 唯快不破 我们经常听说 "天下武功,唯快不破",大概意思是说 "任何一种武功的招数都是有拆招的,唯有速度快,快到对手根本来不及反应,你就将对手KO了,对手没有机会拆招,所以唯快不破"。 那么这与Apache Flink有什么关系呢?Apache Flink是Native Streaming(纯流式)计算引擎,在实时计算场景最关心的就是"快",也就是 "低延时"。 就目前最热的两种流计算引擎Ap
- 下一篇
阿里云10月多款“老产品”更新计费模式,速看免花冤枉钱
在刚过去的10月份,阿里云多款产品更新了计费模式,有些产品功能开始收费,有些产品功能则改外免费,接下来小编为各位看官详述一番。 MaxCompute 外表功能正式收费 从2018年10月31日开始,MaxCompute SQL外表功能开始计费。通过MaxCompute SQL外表功能直接处理OSS/TableStore(OTS)数据,从而处理音频、视频、图像、气象等非结构化数据以及K-V类型的数据。 外表功能采用的计费标准为一次SQL计算费用=计算输入数据量SQL复杂度SQL价格。SQL价格是0.03元/GB/复杂度 ,复杂度系数为1。当天的所有计量信息在第二天做一次性汇总收费,并直接体现在用户账户账单中。了解详情请戳:https://www.aliyun.com/product/odps?spm=5176.10695662.74765
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8编译安装MySQL8.0.19
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长