网易云音乐基于 Flink + Kafka 的实时数仓建设实践
背景
Flink + Kafka 平台化设计
Kafka 在实时数仓中的应用
问题 & 改进
一、背景介绍
高吞吐,低延迟:每秒几十万 QPS 且毫秒级延迟;
高并发:支持数千客户端同时读写;
容错性,可高性:支持数据备份,允许节点丢失;
可扩展性:支持热扩展,不会影响当前线上业务。
高吞吐,低延迟,高性能;
高度灵活的流式窗口;
状态计算的 Exactly-once 语义;
轻量级的容错机制;
支持 EventTime 及乱序事件;
流批统一引擎。
二、Flink+Kafka 平台化设计
集群 catalog 化;
Topic 流表化;
Message Schema 化。
三、Kafka 在实时数仓中的应用
虽然进行了集群的扩展,但是任务量也在增加,Kafka 集群压力仍然不断上升;
集群压力上升有时候出现 I/O 相关问题,消费任务之间容易相互影响;
用户消费不同的 Topic 过程没有中间数据的落地,容易造成重复消费;
任务迁移 Kafka 困难。
如何感知 Kafka 集群状态?
如何快速分析 Job 消费异常?
集群概况的监控:可以看到不同集群对应的 Topic 数量以及运行任务数量,以及每个 Topic 消费任务数据量、数据流入量、流入总量和平均每条数据大小;
指标监控:可以看到 Flink 任务以及对应的 Topic、GroupID、所属集群、启动时间、输入带宽、InTPS、OutTPS、消费延迟以及 Lag 情况。
四、问题&改进
多 Sink 下 Kafka Source 重复消费问题;
同交换机流量激增消费计算延迟问题。
五、Q & A
本文分享自微信公众号 - Flink 中文社区(gh_5efd76d10a8d)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
还看不懂JDK7 HashMap环的产生原理你来打我
JDK7 分析 JDK7中当我们用头插法 对旧table数据重定位到新table的时候我们知道是会行程环的,环产生的核心函数transfer如下,其中重点关注部分以标出。 头插法正常情况下: 并发情况下,比如我有两个线程在同时进行put数据跟扩容操作,线程1只执行了 Entry<K,V> next = e.next就被挂起了,而线程2 正常执行完毕,结果图如下: 线程2执行完毕后线程1接着从原来的暂停处开始执行下面的语句: 通过逐步分析跟绘图可以知道红色部分会有环产生。JDK中HashMap是不安全的,多线程情况下要用ConcurrentHashMap。 7vs8 7中找 Hash用了4次,8中只用了1次。 7 = 数组 + 链表,8 = 数组 + 链表 + 红黑树 7中是头插法,多线程容易造成环,8中是尾插法。 7的扩容是全部数据重新定位,8中是位置不变+ 移动旧size大小来实现更好些。 7是先判断是否要扩容再插入,8中是先插入再看是否要扩容。 HashMap不管78都是线程不安全的,多线程情况下记得用 ConcurrentHashmap。 ConcurrentHash...
- 下一篇
mongodb内核源码实现、性能调优、最佳运维实践系列-数百万行mongodb内核源码阅读经验分享
关于作者 前滴滴出行技术专家,现任OPPO文档数据库mongodb负责人,负责oppo千万级峰值TPS/十万亿级数据量文档数据库mongodb研发和运维工作,一直专注于分布式缓存、高性能服务端、数据库、中间件等相关研发。后续持续分享《MongoDB内核源码设计、性能优化、最佳运维实践》,Github账号地址:https://github.com/y123456yz 序言 Mongodb内核源码由第三方库third_party和mongodb服务层源码组成,其中mongodb服务层代码在不同模块实现中依赖不同的third_party库,第三方库是mongodb服务层代码实现的基础(例如:网络底层IO实现依赖asio-master库,底层存储依赖wiredtiger存储引擎库),其中第三方库也会依赖部分其他库(例如:wiredtiger库依赖snappy算法库,asio-master依赖boost库)。 虽然Mongodb内核源码数百万行,工程量巨大,但是mongodb服务层代码实现层次非常清晰,代码目录结构、类命名、函数命名、文件名命名都非常一目了然,充分体现了10ge...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- 设置Eclipse缩进为4个空格,增强代码规范