电信营运商场景下的数据实时分析实践
ByConity 是字节跳动基于 ClickHouse 发展出的存算分离的云原生数仓引擎,2023 年 1 月正式发布开源 Beta 版本,今年 7 月,ByConity 正式发布 1.0 版本。
开源一周年之际,ByConity 已经获得了 2100 + 的 Star 数,issue 数 480+,用户 60+,贡献者 80+。2024 年 5 月 25 日,ByConity 一周年线下 meetup 在北京召开。本期主题是《云原生数仓创新之路》,多位重磅嘉宾出席并分享了 ByConity 的最佳实践。
来自浩鲸云的云大数据底座团队负责人叶禧辉分享了电信营运商场景下的数据实时分析实践。
浩鲸云创于2003年,向全球电信运营商提供 BSS/OSS 产品+服务,目前致力于帮助通信、数字政府、公共安全、工业能源、金融等全行业进行数字化转型。
叶禧辉介绍,在当下,电信运营商的实时数据分析会遇到非常多的挑战。由于运营商存在数据量大、查询与分析场景复杂多变的情况,因此,在运营实施过程中,存在着很多因大数据量、业务复杂度高而导致的处理性能问题:
- 实时分析能力难
较难支持对实时数据的分析,因为它无法对实时数据进行增量聚合计算,不能够支持实时数据的增量聚合计算,不支持实时数据的分析。
- 写入瓶颈
当多个节点同时进行写入操作时,节点的性能可能会成为瓶颈,无法支持高并发写入。
- 并发能力有限
受物理 Master 限制,并发性能相对较低,在实际应用中,可能无法支持超过一定数量的并发请求。
- 查询分析性能慢
数据分析在相同硬件条件下,相对于新型 Mpp 数据要有5-10倍的性能劣势。其中当数据分布倾斜时,会导致整体性能的大幅下降;数据分布由表分区方式决定,在通常表创建的时候指定。
- 集群规模受限
由于集群规模受物理 Master 限制,在实际应用中可能很难超过一定数量的物理节点,限制了其扩展性和可伸缩性。
- 数据加载性能较低
对于大量的小型数据表,数据加载性能相对较低,加载速度较慢。
此前,浩鲸云一直在使用 Hadoop 的技术,基于传统的离线方式发展,在运营商面对的复杂情境中,遇到了诸多瓶颈。
为了解决 Hadoop 生态实时性难题,浩鲸云引入了 ClickHouse,解决了实时 Flink 组件难以解决多表关联的实时处理问题。但实际运行下来,还是遇到了不少挑战:
一来,使用复杂,需多种表引擎,对开发者并不是很友好;
二来,多表关联困难,需要定义好分布键,否则会存在严重的性能问题;但场景经常换,一换原来的表就用不了了;
最后,分布式表的方案很复杂,高频数据写入会存在数据分布和重复性问题,很难大规模推广使用。
去年引入 Byconity 之后,叶禧辉发现,它基本解决了之前的那些痛点问题:
- 统一的表引擎,业务切换简单
- 多表关联性能有了质的提升,可以简单进行多表关联汇总
- 扩展简单,存算分离的模式,可以很容易进行主机的扩缩容
此外,ByConity 是一个同时支持实时和离线导入的自助数据分析平台,能够对 PB 级海量数据进行高效分析,提供极致扩展的统一数据分析的分布式数据库,这给它带来了许多独有的优势:
- 读与写分离高性性能保障:通过不同节点类型,保障读与写分离,在大量写入的时候,不影响到读计算的性能。
- 复杂关联性能更优:对复杂计算具有更优计算与分析效率。
- 高并发多租户:支持高并发访问,同时不同的租户可控制需求的资源。
- 存储计算分离:计算层采用 Shared-nothing 架构,存储层采用 Shared-everything 架构,从而更好地支持计算和存储层的水平扩展。
- 数据均衡:扩展与缩减节点时,数据自动均衡,大规模存储时维护更方便。
叶禧辉介绍,运营商的实时分析场景非常复杂,需要先在B域、O域、M域分别做实时数据采集、增量数据采集和批量数据采集,再经过跨域数据实时融合汇总,制成汇总表,提供跨域业务实时服务。
对此,他们的业务化设计思路是:通过可视化业务对象管理,将相同业务主键的物理模型横向拉通形成统一的业务视图,并通过主外健自动化识别对象关系,最终构建出统一的对象业务视图,为后续的指标,标签,编排提供基础。
完成之后,将会建立分层分级指标分类体系和完善的指标口径,完善基础业务、智家业务、新型业务、 5G专题、客户经营专题、财务政企专题等系列指标,完善指标的创建信息、业务口径、脚本、血缘关系等,并统一对外提供。每个指标,都能反映出运营商的大体情况。
在技术上,浩鲸云做了一个流批一体的方案,即融合了 Hadoop 底座的 MPP 方案。总共分实时计算层和批量计算层两部分,Kafka 接收实时信息流,并进行汇总;其余复杂的情况,则放在批量计算层,进行小时级别的资料汇总。最后统一汇总到 Byconity 做整合,并通过大屏输出,呈现在统一的可视化数据分析看板上。
通过建设数据中台建立数据资产体系,规模化服务业务,提升数据质量,最大限度地发挥了数据的价值,解决了客户缺少系统化的数据安全保障方案和统一的可视化看板管理平台的痛点,让数据中台成为支持公司“数字化进阶”的基础设施,大大提升了企业的效率。
更多直播精彩内容,请点击链接观看:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
《HelloGitHub》第 99 期
兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、Java、Go、C/C++、Swift 等,让你在短时间内感受到开源的魅力,对编程产生兴趣! 以下为本期内容|每个月 28 号更新 C 项目 1、HandBrake:免费的开源视频转码工具。这是一款功能强大、社区驱动的开源视频转码工具,它支持将各种不同格式的视频文件,转换为 MP4 和 MKV 等常见格式。 C# 项目 2、SwashbucklerDiary:记录生活点滴的侠客日记。这个项目的作者因为喜欢写日记,所以开发了这款离线优先的日记应用。它拥有简洁清爽的界面,用户可以选择记录日记时的天气、心情和位置。除了支持 Web 在线使用外,还提供了 Android、Windows、iOS 和 macOS 客户端。 3、SyncClipboard:跨平台的剪贴板同步工具。该项目可以轻松实现不...
- 下一篇
🔥httpsok 新版本 5 分钟,从购买域名到 HTTPS 访问
🔥httpsok新版本5分钟,从购买域名到HTTPS访问 架构师手把手教技术 大家好,最近很多小伙伴咨询关于 安装nginx 和 部署SSL证书 。所以,我决定给大家录制一个视频,方便大家更快速的了解和掌握相关技术。 ok,我们先从购买域名开始。 ①购买域名 首先,登录到腾讯云(如果没有账号,请您先自行注册) 然后选择域名注册,输入一个您自己喜欢的域名。点击【立即购买】,并支付支付相关费用。 ②购买服务器 接下来,购买一个服务器。 为了方便给大家演示,购买的是香港的服务器,这样就可以不需要备案也能访问了。 操作系统选择Linux常用的CentOS,不过CentOS 7于2024年06月30日也将停止维护,所以我们选择官方推荐的 OpenCloudOS。 带宽这里,我们选择 按流量计费 并把带宽调整到 10M 安全组,选择新建安全组,并且把 80 和 443 端口都放开。 确认配置信息,选择开通即可。 ③安装nginx 查看服务的IP,并且登录到服务器 安装nginx yum install -y nginx 安装完成后,我们启动nginx service...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS8编译安装MySQL8.0.19