淘宝质量保障之主动预警能力建设
背景
在业务的质量保障过程中,主动预警是较为重要的一项,可以帮助我们提前发现问题,尤其是权益过期,库存耗尽,资源位过期等问题,等到监控发现时再恢复,再快也快不过提前预警,因此,我们探索在业务各个方面实现主动预警监控的能力。
▐ 预警范围
预警第一步,是要先搞清楚,在我们项目质量保障过程中,需要主动预警的项到底有哪些,这是一种探索发现的过程,最初我们遇到最多的问题,就是活动配置过期,红包库存不足,但随着深入了解业务,我们发现有更多需要预警的点,我们对配置划分以下几类:
第一类是活动/资源位配置过期,不同业务域可能用到了不同的配置后台,有淘宝特价版自建的运营后台,也有集团的各种活动配置、资源位配置平台,这些地方都会存在配置过期的问题。
第二类是权益,权益包含集团统一权益,也有自建运营平台权益,还有其他资格券权益等,权益类主要是库存不足,权益过期问题。
第三类是开发常用的配置平台,有些开发会将一些时间配置在这些平台上,这里的配置过期也会导致业务异常。
第四类是实验,人群这类过期,也会导致业务异常。
第五类是舆情类,包括淘宝特价版和手淘的舆情。
在确定了预警范围后,我们需要确定预警及接手处理的流程。这块我们借鉴了集团技术风险平台的风险预警机制,并结合自己的业务实践,最终确认以下的流程:
其中,预警告警,群内通知,预警升级,预警接手处理结单这部分流程,风险平台已经有了成熟的能力,可以基于我们直接复用了这块能力,剩下的事,就是如何将需要预警的内容接入进来了。
我们基于此搭建了预警数据采集能力,对接各个平台数据,制定适合业务的预警规则,逐步根据我们先制定优先级,对资金相关的,前台资源位等项进行高优先级的覆盖,实现整套主动预警体系。
核心解决方案
在预警能力建设中,遇到的主要问题如下:
-
平台较多,需要对接多个平台,接入方式需要兼容多种数据源
-
不同的预警场景,需要用到不同的预警规则
-
预警后如何接手,如何跟踪数据
-
如何动态识别、维护新增的预警
针对这些问题,给出了一些通用的解决方案来实现
在建设各项预警能力中,不同的预警类型有不同特点,因此我们建设了不同的能力来解决不同的问题。
平台类配置预警方案
平台类配置预警,遇到最大的问题,是平台较多,各个平台获取的数据来源不同,因此,平台需要支持多种数据源获取方式,并定义一个通用的数据模型,来清洗获取到的数据。
平台的接口、离线数据表、消息等获取平台配置数据,在平台上自定义预警规则,根据规则发送告警,利用风险平台的预警接手机制来跟进问题。
权益类预警方案
权益类预警是我们最关注的预警,也是最复杂的场景,里面主要有几个问题:
-
如何获取我们线上配置全部的权益?如果靠手动维护,效率非常低。
-
现有的库存预警,周期性播报,噪声较多,很难引起负责同学关注,直到消耗完了才被发现。
第一个问题,我们从我们的资金监控脚本中找到了灵感,资金监控的离线表是整体业务维度每天的发放的红包,因此,我们只要从这个表中获取全部的权益code,就可以覆盖到线上生效中的全部权益。
第二个问题,在通过接口获取到权益的库存后,通过历史采集的数据,来预测当前的库存够用多少时间,以此来判断是否需要预警,在发出预警工单后,让运营来接手处理。
我们通过实验了多个预警规则来查看问题处理率:
过期预警规则
-
工作日24小时内过期预警
-
周五3天内过期预警
-
自定义日期筛选过期(节假日、大促)
库存预警规则,我们在探索多个预警方式
-
低于固定数值后告警
-
总量低于10%后告警
-
根据流速告警
流速计算公式:
库存剩余可用时间 = 今日x点的剩余库存/( (今日x点的剩余库存-昨日x点剩余库存)/24)
库存剩余可用时间<24,触发告警
预警流程如下:
通过实践发现,24小时级别的流速预警在实际使用过程中接手率最高,误报率最低。
不过,我们发现如果在权益在短时间内消耗特别快,还是无法预警到,这块后续会建设分钟级的极速消耗预警方案。
配置预警方案
部分开发在配置平台中配置了时间字段,因此时间过期也是需要预警的问题,这个核心解法是通过全量扫描制定应用的配置平台配置中的关键字,如time,date等,发现配置的Key和value中存在此字段,就解析对应的值,来检查是否满足过期告警时间。
实验预警
实验平台本身自带了较完善的告警能力,但是随着人员流动较频繁,因此不少实验的owner离职转岗后,告警无法告到对应负责的同学,因此,我们通过扫码本业务实验的离线数据表,找到过期的实验,如果负责人无法预警到,就通知到指定同学。
舆情预警方案
舆情预警,主要是通过算法聚类与场景打标的方式来实现,这个是用了体验引擎现有能力,告警到淘宝特价版的舆情预警群内。
主动预警能力建设是个不断探索的过程,预警项的发现,预警的准确性,覆盖监控是一个持续发掘提升的过程,后续希望能够发现更多的场景,来避免我们业务出现的问题
我们是淘天集团-营销&交易技术团队,是淘天集团核心技术团队,承担淘天电商全链路营销交易技术攻坚,致力于通过技术创新推动业务增长与用户体验升级。过去一年主导了多个高价值项目,包括:支撑618、双11、春晚等亿级流量洪峰、构建业界领先的全网价格力体系、承接淘宝全面接入微信支付、搭建集团最大的Al创新平台-ideaLAB,支撑淘宝秒杀等创新业务的高速增长。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
助力产业升级 | BMC安全启动方案上新了!
近日,OurBMC 社区联合其理事成员单位中移(苏州)软件技术有限公司,在产业化落地SIG发布计算机系统安全可信创新解决方案——《 BMC 安全启动方案》。该方案为开发者提供了清晰、可实现的技术实施路径,可有效助力开发者提升 BMC 技术能力,推动 OurBMC 社区产业化落地的发展和工作,同时也加速了安全可信技术在各行业的应用和推广。 OurBMC 社区产业化落地 SIG包括软硬件及系统解决方案,重点对产业化落地中遇到的困难点进行分析,并贡献解决方案,为产业化做贡献。 中移(苏州)软件技术有限公司2019年实施“云改”,挂牌中国移动云能力中心,是中国移动旗下全资子公司,注册资本总规模 31.72 亿元。公司立足苏州,业务范围辐射全国,聚焦移动云业务发展,承担起移动云的研发、运营、支撑一体化职责,以“云设施构建者、云服务提供者、云生态汇聚者”为定位,抢抓云业务发展的巨大市场空间,业务覆盖政务、金融、制造、交通、医疗等行业。 方案概述 本方案的核心思想是使用一块最高安全等级的安全芯片,在 BMC 和 BIOS 启动前,对 BMC 和 BIOS 的 flash 固件进行全面的校验,校验通过...
- 下一篇
携程集团千亿级全场景业务实践|NebulaGraph 实现 23% QPS 跃升与毫秒级响应
导读: 作者郑皓月,携程集团高级云原生研发工程师,专注于分布式存储领域。 图数据库在携程是首次落地,为接入携程集团研发体系适配现有系统,自 2021 年起,郑老师及其团队对 NebulaGraph 进行了一系列定制化改造。截止 2024 年,已有包括酒店、机票、金融在内的 16 个部门接入 NebulaGraph. 本文从 NebulaGraph 架构、部署及客户端改造等方面,介绍携程集团维护多云集群下多套 NebulaGraph 环境的经验,与三中心、跨域多活的部署策略。 本文首发于「NebulaGraph 技术社区」公众号,更多精彩内容等你来发现~ 一、背景 为了满足越来越多 BU 对知识图谱、地理信息查询,图推理等业务场景的需求,自 2021 年起,我们首次尝试在携程的基础设施中引入了图技术。 在评估多种图数据库产品后,考虑到 NebulaGraph 采用计算存储分离的架构,具有高可扩展性,使用 Raft 协议保证数据的强一致性,支持千亿级超大规模数据集,并且 NebulaGraph 社区活跃,响应速度快,我们最终选择了 NebulaGraph 来构建我们的图数据库平台。 二、N...
相关文章
文章评论
共有0条评论来说两句吧...