如何构建万级Kubernetes集群场景下的etcd监控平台?
周成,腾讯云工程师,主要负责腾讯etcd监控平台设计、开发、运维工作,具备大规模Kubernetes和etcd集群运维开发经验。 唐聪,腾讯云资深工程师,极客时间专栏《etcd实战课》作者,etcd活跃贡献者, 主要负责腾讯云万级K8s集群和内部业务的公共etcd平台以及serverless产品研发设计工作。 背景 随着 Kubernetes 成为容器编排领域的霸主,越来越多的业务大规模在生产环境使用 Kubernetes 来部署、管理服务。腾讯云TKE正是基于原生 Kubernetes,提供以容器为核心的、高度可扩展的高性能容器管理服务,自从2017年推出后,随着 Kubernetes 的火热,我们的集群规模也增长到万级,在这过程中我们的各基础组件,尤其是etcd面临了以下挑战: 如何通过一套监控系统,采集万级的TKE集群的etcd等组件 metrics 监控数据? 如何高效治理万级集群、主动发现故障及潜在隐患? 如何快速感知异常,实现快速处置、乃至自愈? 为了解决以上挑战,我们基于 Kubernetes 的扩展机制,实现了一套含etcd集群管理、调度、迁移、监控、备份、巡检于一体的...