Apache Flink:下一代大数据分析框架
Apache Flink以前叫Stratosphere,是用Java写的,但是一直不温不火,近几年经过改良,加入了很多用scala写的功能,知乎上很多网友认为Apache Flink是模(chao)仿(xi)Apache Spark,如果真是这样,就像是上学时代那个天天抄你的答案却比你分高的同桌一样,Apache Flink可能会比Spark更具发展前景。
Apache Flink原本的定义是高吞吐量和低延迟的流处理框架,它也支持批处理。该架构是其他大数据处理架构的翻转,其中主要的概念是批处理框架。这是很多公司在过去十年一直在寻找的东西,也是要求低延迟甚至毫秒延迟都可能导致严重后果的应用平台所需要的。Apache Flink的前景似乎很不错,看起来像流处理的终极框架。
“我认为流式数据分析是Flink最主要的特性。由于其流水线的架构,Flink是Apache堆栈中大数据流处理的最完美搭档。”,柏林技术大学数据库系统和信息管理小组教授Volker Markl说道。
Apache Flink的核心是运行时,架构图如下所示:
Runtime是Flink的核心,一个分布式流式数据流引擎,提供数据分发和通信。流式数据流引擎将每个程序解释为数据流图。
Flink的一些核心特性是:
1、将所有内容作为流执行,并实时处理数据行。
2、支持迭代执行,并遵循分布式数据流方法,这对于实现大数据分析至关重要。
3、引擎是多功能的,允许执行现有的MapReduce或Storm应用程序。
4、它有流和批处理流程的优化器。
5、内存管理由引擎自动优化和管理。
在Runtime之上,有用于Stream处理的DataStream API和用于批处理的DataSet API。 还有关于DatasStream的特定API和库,以及DataSet API的描述:
1、Table API支持对数据使用SQL查询。它们很容易嵌入在DataStream和DataSets API中,并支持关系运算符(如选择,聚合和连接)的使用。
2、Flink ML,是Flink的机器学习库,提供了机器学习Pipelines API并实现了多种机器学习算法。它可通过DataSet API执行机器学习任务,它使用户能够编写ML管道,使其更容易处理机器学习工作流程。ML管道将ML流的不同步骤绑定在一起,使其有效地在生产环境中准备和部署模型。
3、Gelly,Flink的图计算库,提供了图计算的相关API及多种图计算算法实现。它提供了一组操作符来创建和修改图形,图形由边缘的DataSet和顶点的DataSet表示。Gelly仅适用于DataSet API,并且只能用于批处理。
4、Flink CEP是Flink的复杂事件处理库。它允许用户快速检测无尽数据流中的复杂事件模式。Flink CEP仅可用于通过DataStream API的流处理。
此外,Flink也可以方便地和Hadoop生态圈中其他项目集成,例如Flink可以读取存储在HDFS或HBase中的静态数据,以Kafka作为流式的数据源,直接重用MapReduce或Storm代码,或是通过YARN申请集群资源等。
以下是其与Apache Spark的一些关键差异:
1、流处理:Spark是一个面向批处理的系统,它对数据块(称为RDD)进行操作,但Apache Flink是一个能够实时处理行的流处理系统。
2、迭代:通过利用其流架构,Flink允许本地迭代数据,Spark只支持批处理。
3、内存管理:Spark必须优化和适应特定的数据集,因为如果你想要得到正确的结果,你需要手动控制分区和缓存。
4、成熟:Flink仍处于起步阶段,只有少量生产部署案例,而Spark已经相当成熟了。
5、数据流:与过程式编程范例相反,Flink遵循分布式数据流方法。除了事务的常规输入之外还需要中间结果的数据集操作,广播变量用于将预先的计算结果分发给所有工作节点。
Apache Flink不像Apache Spark那么成熟,因为它相对较新,生产部署案例也很少。然而,凭借其强大的流处理功能,它还是被视为下一代大数据分析的最佳框架。
作者:zyy
来源:IT168
原文链接:Apache Flink:下一代大数据分析框架

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
探路者:国外知名产品未必适用
本文讲的是探路者:国外知名产品未必适用,北京探路者户外用品股份有限公司成立于1999年,专业从事户外用品研发设计、组织外包生产、销售。公司通过品牌塑造与推广、产品自主设计与开发、营销网络建设与优化、供应链整合与管理,以外包生产、加盟与直营销售相结合的哑铃型品牌经营模式,在全国建立连锁零售网络,向广大消费者提供高质量且时尚的户外用品。探路者的营销网络遍布全国130多个大中城市,标准化门店近600家。 据探路者信息总监牛小虎介绍,在探路者目前的信息化体系里面,用到的产品主要有门店零售系统、分销系统、财务管理系统,此外还包括人力资源管理系统以及OA办公系统等。其中有些产品探路者已经应用了一年到两年的时间,而有些产品用的时间还相对较短,比如人力资源管理系统,从去年10月份开始立项,今年刚刚开始实际应用。而OA系统现在还在部署之中。 产品选型:国外软件还是国产软件? 在记者问及当初探路者是如何进行产品选型时,牛小虎表示,“自从我加入探路者之后,我们也接触过很多品牌的产品,其中也包括国外知名品牌的一些产品。当时我们选择软件时并不是去考虑选择最贵的和功能最强大的,而是本着企业的实际应用需求去选择。”...
- 下一篇
ON.Lab工程师Jonathan Hart:ONOS概述
以“新技术·新架构·新网络”为主题的“2016全球网络技术大会”于2016年12月7日-9日在北京喜来登长城饭店全面开启。在大会中,产学研用齐头并进,网络通信领域相关代表济济一堂,参会人员超过了1000人,共商全球网络架构重构。 ON.Lab工程师Jonathan Hart ON.Lab工程师Jonathan Hart在大会中发表了题为“ONOS概述”的主题演讲。Jonathan Hart表示,我们也有分工,我们有一个小的团队来进行具体的分工和分配布置,可以看到这个地图上在美国、南美还有其他的地区、澳大利亚等等,这些都是分网络,我们希望在全球范围内建立一个合作性的网络。 以下为Jonathan Hart的演讲实录: Jonathan Hart:非常感谢对我的介绍,我是Jonathan Hart,我在开放网络工作室从事ONOS项目的工作,我会谈一下ONOS的整体印象,以及我们最近的研发项目,特别是我们圈子里发生的事情。 什么是ONOS?ONOS是一个开放网络运营操作系统,我们的目标就是为了让服务提供方能够建立一个真实的SDN/NFV的解决方案,而且我们的任务主要是聚焦于这一类的解决方案,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- Hadoop3单机部署,实现最简伪集群
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,CentOS7官方镜像安装Oracle11G