Streaming System 第二章:The What- Where- When- and How of Data Processing
本文由《Streaming System》一书第二章的提炼翻译而来,译者才疏学浅,如有错误,欢迎指正。转载请注明出处,侵权必究。
本章主要介绍鲁棒的处理乱序数据的核心概念,这些概念的运用使流处理系统超越批处理系统的关键所在。
路线图
上一章中,我们介绍了两个非常关键的概念:
- 事件时间和处理时间,只有在事件时间维度对数据进行处理,才能保证计算结果的准确性
- 窗口:窗口是处理无界数据流的通用方法,目前共有4类窗口。
接下来我们介绍其他三个同样非常重要的概念: - 触发器(Triggers)
触发器是决定某个窗口何时输出的一种机制。作用跟照相机的快门相同,按下去,就能拿到某个时间点计算结果的快照。通过触发器,也能多次看到某个窗口的输出结果。因此可以实现迟到数据(late event)的处理。 - Watermark(水印)
Watermark是描述事件时间上数据完整

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Streaming System 第一章:Streaming 101
简介 Streaming101起源于在O'really上发表的两篇博客,原文如下:https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-102其中对流式计算的设计理念做了非常透彻的介绍。现存的系统如Flink/Spark Structured Streaming的设计理念都是出自于上述文章。后其作者又写了一本介绍流计算原理的书《Streaming System》,更加详细的介绍了流计算的基本概念及设计框架等。本文即为其开篇第一章的概述。有志于深入研究流计算系统的读者,可以详细读一下两篇博客以及《Streaming System》原文
- 下一篇
人力资源数据可视化技术架构
大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”。大数据可能在国内的起步较晚,但我们可能却是对大数据应用最好的了代表了。前些时候有分享了一个大数据技术在智慧人社上面的应用案例,最近也一直看一些人力资源方面大数据解决方案的案例,比较集中的都是围绕智慧人社的。 智慧人社建设也是近几年大数据技术的重点应用方向之一,15年印发的《促进大数据发展行动纲要》中就明确,通过建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策。 之前分享的一篇关于智慧人社的大数据应用,也仅仅是简单的说了一下当前智慧人社建设中所面临以及要解决的问题。这篇算是补上那篇欠缺的内容吧,把智慧人社大数人力资源据解决方案的大数据平台搭建、技术架构、数据可视化等几个方面的内容给朋友分享一下。 一、智慧人社平台搭建 要建设智慧人社,创建大数据处理平台是首要工作。国内可提供大数据处理平台的厂商百度一下有很多,比如大快搜索、阿里云以及其他云平台。在创建智慧人社平台时一定要考虑到数据安全性的问题。这里看一张DKH版本的一个智慧人社的...
相关文章
文章评论
共有0条评论来说两句吧...