最新消息!Cloudera 全球发行版正式集成 Apache Flink
翻译 | 邱从贤(山智)
摘要:近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。
本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。
(Arun 与 Stephan 的 Twitter 互动)
▼ 以下为 Cloudera 官方博客的原文翻译 ▼
我们再也无法抑制兴奋!在过去的几个月中,Cloudera 的动态数据工程团队一直在努力提供 Cloudera DataFlow(CDF)中引人注目的产品。Cloudera Streaming Analytics(CSA)的 GA 版提供了对 Apache Flink 的支持,从而增强了整个动态数据平台的流处理和分析能力。
由 Apache Flink 支持的 Cloudera Streaming Analytics 是 Cloudera DataFlow(CDF)平台内的一项新产品,可提供 IoT 级数据流和复杂事件的实时状态处理。Cloudera DataFlow(如下图所示)是一个全面的边缘计算到云实时流数据平台。作为 CDF 的关键支柱之一,流处理和分析对于处理来自各种数据源的数百万个数据点和复杂事件非常重要。多年来,我们已经支持了多个流引擎,但是 Flink 的加入使 CDF 成为了一个极具吸引力的平台,可以大规模处理大量流数据。
Cloudera Streaming Analytics 涵盖了 Apache Flink 的核心流功能:
- 在 YARN 上支持 Flink 1.9.1
- 支持在 Cloudera 托管集群上安装 Flink
- 支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群
- 从 Kafka 或 HDFS 读取数据源
- 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义
- 恰好一次的语义
- 基于事件时间的语义
- 数据接收器写入 Kafka,HDFS 和 HBase
- 与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化
这些功能可实现复杂的端到端流传输 pipeline。我们计划在即将发布的 CSA 中提供更多激动人心的功能。
平台集成,可任意扩展 Flink
CSA 将在最近发布的 Cloudera 数据平台(CDP)中心提供服务。利用 CDP 的灵活性和管理选项,可以轻松地对 Flink 进行任意扩展。有了平台集成,Cloudera Manager 可以用于安装,监视和管理 Flink 集群。集中式日志搜索还可以聚合 Flink 应用程序日志,以便于管理和调试。
最重要的是,可以使用指标报告器将 Flink 应用程序指标发送到 Apache Kafka 中。CDF 平台上的指标可以通过 Streams Messaging Manager 将 Flink 的指标收集到 Kafka 中,并以可视化的形式对它们进行分析。
为什么选择 Flink?
Apache Flink 是一个分布式,可扩展的数据分析处理引擎,可以非常轻松地处理数百万级的数据或复杂事件,并提供实时预测功能;为数据流上的大规模计算提供通信,容错和数据分发;可以处理生成的实时数据以及存储在文件系统中的数据。
在过去的几年中,Apache Flink 在全球范围内被广泛应用:
- 电信网络监控:使用复杂的窗口逻辑,基于网络中的流数据,通过预先计算有关停机的响应和修复所需的 ETA 来处理客户投诉
- 内容推荐引擎:在用户加载网页时向其提供推荐和搜索结果的视频流服务,需要复杂的逻辑,同时每天要主动处理数十亿个事件
- 搜索优化:搜索引擎实时优化搜索排名
- 点击流分析:高流量电子商务网站基于实时点击流数据收集并提供最佳的客户体验
- 应用程序监视:大型企业评估了数千个可定制的警报规则,这些警报规则涉及指标和日志流并检测异常
- 欺诈检测:金融组织从各种来源的数百万实时财务数据流中检测欺诈模式
- 游戏分析:要了解游戏平台上数百万每日用户的状态并向业务团队提供分析,需要以极高的规模处理大量数据
尽管 Cloudera 提供了流处理引擎的几种选择:Storm,Spark Structured Streaming 和 Kafka Stream,但将 Flink 添加到 CDF 的意义十分重大。Storm 在市场和开源社区中逐渐失宠,用户正在寻找更好的选择。而 Apache Flink 则是这批用户的最佳选择。Kafka Streams 和 Spark Structured Streaming 则围绕他们自己的用户场景提供了相关的流处理和分析能力。但是,Apache Flink 天然支持流计算(而不是批处理),并且可以大规模处理大量数据流,提供方便的状态支持,恰好一次的语义,原生支持的容错/恢复能力,以及先进的 Window 语义。这使其成为更广泛的流处理引擎的默认选择。
在 2019 年 10 月于柏林举行的 Flink Forward 活动上,Cloudera 的工程主管 Marton Balassi 和 Field CTO Andrew Psaltis 在大会上宣布,Cloudera 承诺将通过 CSA 产品不断给 Apache Flink 社区做出贡献。
相信 Cloudera 对 Apache Flink 的集成将会为社区带来更多创新、为企业及开发者提供更便捷的操作与更友好的使用体验。点击「阅读原文」可查看原版博客~
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
来!PyFlink 作业的多种部署模式
关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。这些都停留在开发阶段,一旦开发完成,我们就面临激动人心的时刻,那就是将我们精心设计开发的作业进行部署,那么问题来了,你知道怎样部署 PyFlink 的作业吗? 本文将为大家全面介绍部署 PyFlink 作业的各种模式。 组件栈回顾 上面的组件栈除了 PyFlink 是第一次添加上去,其他部分大家应该非常熟悉了。目前 PyFlink 基于 Java 的 Table API 之上,同时在 Runtime 层面有 Python 的算子和执行容器。那么我们聚焦重点,看最底层的 Deploy 部分,上图我们分成了三种部署模式,Local/Cluster/Cloud,其中 Local 模式还有 2 种不同方式,一是 SingleJVM,也即是 MiniCluster, 前面博客里面运行示例所使用的就是 MiniCluster。二是 SingleNode,也就是...
- 下一篇
一张照片,几秒get你的所有信息!这个APP的人脸识别数据库远超FBI
云栖号:https://yqh.aliyun.com第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! 一张照片,不用正脸,就能人肉出你的姓名、住址、联系方式,这不是耸人听闻,在美国,这件事正在真实发生。 18日,《纽约时报》报道称,一家AI初创公司Clearview通过自己的APP,从Facebook、Venmo、YouTube和其他网站上收集并创建了拥有30亿张图片的超大容量数据库,比FBI多得多。 没错,和你的大胆猜想一样,Clearview正在协助FBI在内的数百家美国执法机构用面部识别技术抓捕罪犯。 继FBI占据DNA库之后,又拥有了强大的面部识别技术。 Clearview有多强?从不为人知到被执法机构认可 2016年,创始人Hoan Ton-That对人工智能产生了浓厚的兴趣,着手研究面部识别工具,也就是今天Clearview产品的雏形。 2019年年初,Clearview开始向一些执法机构推广。Clearview最有效的销售方式就是“30天免费试用”大法,然后鼓励警察们购买使用。 19年2月,印第安纳州警察就对Clearv...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Red5直播服务器,属于Java语言的直播服务器
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启