Flink 专题1 ：搭建Flink 及Flink 简介

2018-11-05 681

Flink 专题1 ：搭建Flink 及Flink 简介

图片来源于网络

Flink 简介

Apache Flink® - 基于数据流的有状态计算

Flink 的优势:

流场景使用案例

数据驱动的应用
批流数据分析
数据通道和ETL

正确性保证

Exactly-once状态一致性保证
事件时间处理
复杂的late date处理更多

API分层体系
统一SQL支持Stream和Batch数据处理

DataStream API & DataSet API
ProcessFunction (Time & State)

Operational Focus

部署灵活
高可用配置
Savepoints

适用于各种应用场景Scales to any use case#

架构可扩展
超大state支持
增量checkpointing

高性能

低延时
高吞吐
内存计算

Flink 安装

安装地址:
flink ： http://mirror.bit.edu.cn/apache/flink/flink-1.6.2/flink-1.6.2-bin-hadoop27-scala_2.11.tgz
hadoop : https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz

hadoop 安装略过

flink 安装步骤

flink 安装包含单点模式，集群模式，flink on yarn 模式，flink on k8s 等模式，flink 通过是基于jvm 进行操作，通过代码可以在单机情况下模拟集群模式数据，以此可以实现本地化的degug 操作。
下面介绍一下集群模式部署:

flink 集群模式结构 :

Flink 集群模式包含 JobManager /TaskManager

配置文件设置:

flink-conf.yaml

jobmanager.rpc.address: test-hadoop01
jobmanager.rpc.port: 6123
 // 设置jobManager 的内存大小 
jobmanager.heap.size: 2048m
 // 设置每个taskManager 的内存大小 
taskmanager.heap.size: 3072m
// 设置每个TaskManager 所占槽位 (最好和当前 机器的 可用核数相同（注意要排除预留给自己自身的核数）)
taskmanager.numberOfTaskSlots: 8 
parallelism.default: 3  // 默认并行度 
// hdfs 地址 
fs.default-scheme: hdfs://test-hadoop02:9000/  
fs.hdfs.hadoopconf: hdfs:///flink/data/     
state.checkpoints.dir: hdfs:///checkpoints/  
//设置checkpoint 保留版本数量（选择）
state.checkpoints.num-retained: 20
// 设置savepoint 地址 （选择 ）
state.savepoints.dir: hdfs://namenode01.td.com/flink-1.5.3/flink-savepoints
//该参数控制了 Flink 是否该重新分配失败的 TaskManager 容器。默认值：true  （选择 ）
yarn.reallocate-failed:true
//ApplicationMaster 能接受最多的失败 container 数，直到 YARN 会话失败。默认：初始请求的 TaskManager 数（-n） （选择 ）
yarn.maximum-failed-containers:10
//ApplicationMaster（以及 TaskManager containers）重试次数。此参数默认值为1，如果 Application master 失败，那么整个 YARN session 会失败。如果想增大 ApplicationMaster 重启次数，可以把该参数的值调大一些。 （选择 ） 
yarn.application-attempts:5

slaves
将集群的所有节点均写入该文件中

test-hadoop01
test-hadoop02
test-hadoop03

添加jobManager/TaskManager

可以使用 bin/jobmanager.sh 和 bin/taskmanager.sh 两个脚本把 JobManager 和 TaskManager 实例添加到正在运行的集群中。
添加 JobManager

./bin/jobmanager.sh ((start|start-foreground) [host] [webui-port])|stop|stop-all

添加 TaskManager

./bin/taskmanager.sh start|start-foreground|stop|stop-all

启动集群

1 集群模式启动

/bin/start-cluster.sh

2. yarn 模式启动

./bin/yarn-session.sh

Usage:
   Required
     -n,--container <arg>   Number of YARN container to allocate (=Number of Task Managers)
   Optional
     -D <arg>                        Dynamic properties
     -d,--detached                   Start detached
     -jm,--jobManagerMemory <arg>    Memory for JobManager Container with optional unit (default: MB)
     -nm,--name                      Set a custom name for the application on YARN
     -q,--query                      Display available YARN resources (memory, cores)
     -qu,--queue <arg>               Specify YARN queue.
     -s,--slots <arg>                Number of slots per TaskManager
     -tm,--taskManagerMemory <arg>   Memory per TaskManager Container with optional unit (default: MB)
     -z,--zookeeperNamespace <arg>   Namespace to create the Zookeeper sub-paths for HA mode

Flink 基于 YARN 的恢复机制
Flink 的 YARN 客户端通过下面的配置参数来控制容器的故障恢复。这些参数可以通过 conf/flink-conf.yaml 或者在启动 YARN session 的时候通过 -D 参数来指定。
yarn.reallocate-failed：该参数控制了 Flink 是否该重新分配失败的 TaskManager 容器。默认值：true
yarn.maximum-failed-containers：ApplicationMaster 能接受最多的失败 container 数，直到 YARN 会话失败。默认：初始请求的 TaskManager 数（-n）
yarn.application-attempts：ApplicationMaster（以及 TaskManager containers）重试次数。此参数默认值为1，如果 Application master 失败，那么整个 YARN session 会失败。如果想增大 ApplicationMaster 重启次数，可以把该参数的值调大一些。

参考地址:
https://flink.apache.org/

微信关注我们

原文链接：https://yq.aliyun.com/articles/665336

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

HBase多模式

本期分享专家：明惠（网名：过往记忆） -阿里云数据架构师本期分享主题：HBase多模式：视频地址：https://yunqivedio.alicdn.com/od/s5xhh1542269262038.mp4 PPT地址：https://yq.aliyun.com/download/3033 PS：欢迎关注HBase+Spark团队号 https://yq.aliyun.com/teams/382 博客，问答，直播，各类HBase资料，线下meetup都会发布到这里。

2018-11-05

773

hadoop入门学习教程--DKHadoop完整安装步骤使用hadoop版本是DKH标准三节点发行版，DKHadoop版本的易用性比较好，环境部署要简单的多，参考此篇安装前请先下载DKHadoop版本，网盘链接：https://pan.baidu.com/s/1-427Sh6lTLrLAPh6KMOYVg 提取码：vg2w 第一部分：准备工作1、大数据平台所需配置：(1) 系统：CentOS 6.5 64位（需默认安装Desktop）(2) CPU ：intel E3及以上。(3) 内存：建议最小8G,用图计算建议32G,推荐128G。(4) 硬盘：256G以上,推荐使用固态硬盘。(5) 系统分区要求：如无特殊需求，除swap分区外，可将剩余空间全部分配到/（根）分区(6) 网络要求：如无特殊情况，尽量可以接入外网。(7) 至少三台服务器（三台服务器名字任意起，密码须一致）。（8）安装使用root用户作为默认用户2、远程上传和远程连接工具：（1）若直接使用个人PC开启的虚拟机作为服务器的基础，直接拷贝到虚拟机下即可。（2）若是使用机房服务器作平台搭建的服务器，如若不能直接接...

2018-11-06

629

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。