每日一博 | 美图是如何搭建压测监控一体化平台的?
美图架构平台团队的主要工作,是给业务提供技术支撑,保障业务的稳定性;在减少故障方面,架构团队和 SRE 团队有比较紧密的配合和较多的实践。此前美图 SRE 团队也在 TakinTalks 稳定性社区分享了故障治理方面的经验和实践;今天换个角度,从架构团队视角,围绕压测平台的搭建,分享美图 2.409 亿月活用户的稳定性保障经验。 作者介绍 美图系统研发技术专家-陈潮兵 TakinTalks 社区专家团成员,2018 年加入美图,系统研发技术专家。目前在美图负责 Java 基础组件和配置中心、压测平台等服务,同时负责内容中台、订阅中台等中台项目。积极参与公司的架构演进,在服务高可用、稳定性保障方面有一定的经验和积累。 温馨提醒:本文约 5000 字,预计花费 8 分钟阅读。 后台回复“交流”进入读者交流群; 背景 起因:全年最严重的故障 2019 年的跨年夜,我们的业务出现了严重故障——由于对节假日的流量预估不足,跨年夜当天,美图核心服务出现了稳定性问题,整个故障持续了接近 2 个小时,是美图全年唯一的一次 A 级故障。 改进:加速压测平台建设 故障的原因有很多方面,根本原因我...
、
