字节跳动流式数仓和实时服务分析的思考与实践
本文整理自火山引擎云原生实时数仓技术专家汪建锋在 DataFun 现代数据栈在线峰会上的演讲,主要介绍字节跳动流式数仓和实时服务分析的思考与实践。 作者|火山引擎云原生实时数仓技术专家-汪建锋 字节跳动旗下有许多产品,每天有大量的数据需要接收和计算。其中,以抖音、头条等为代表的产品以实时推荐和流计算为核心,这些都需要消耗大量的计算资源和存储资源。巨大的数据量和快速准确的计算需求,给技术架构带来了巨大的挑战。 本次分享的 主题 为 “ 字节跳动流式 数仓 和实时服务 分析 的思考和实践 ” , 将 围绕以下3点展开: 字节跳动产品架构的业务困境 流式 数仓 和实时服务 分析 的实践 火山引擎 云原生 计算 业务困境 字节内部场景分析 字节跳动(下称“字节”)旗下拥有 今日头条 、 抖音 等多款产品,每天服务 着 数亿用户,由此产生的数据量和计算量也 非常 大: EB 级别海量的存储空间 每天平均 70PB 数据的增量 每秒钟百万次数的实时推荐请求 超过 400 万核的流式计算资源、500 万核的批式计算资源 在 进行 大数据 分析的时候,对数据通常 有两种处理方式: 1、描述已经...