【直播回顾】1024 守护者之夜：用可观测性点亮系统稳定（附PPT）-低调大师

【直播回顾】1024 守护者之夜：用可观测性点亮系统稳定（附PPT）

2025-10-24 219

当代码融入黑夜，当系统静默运行，是谁在守护着数字世界的稳定与安宁？

又是一年 1024 ，由快猫星云主办的 1024 程序员节特别直播“1024守护者之夜：用可观测性点亮系统稳定”已于前一晚圆满落幕。

在这个充满极客精神的夜晚，快猫星云联创& CMO 秦晓辉、B站 SRE 负责人武安闯、OSCHINA.NET 负责人林师授三位行业大咖，以“系统稳定性建设”为题，从实战体系、高效方法论、社区应对策略等多个维度，为大家带来从硬核技术分享。

直播精彩回顾

分享一：《 SRE 稳定性体系建设分享》

快猫星云联创& CMO 秦晓辉

“ 可观测性，其实最核心应该从 SLO（服务等级目标）着手，需要与业务团队一起率先梳理好 SLO 。”秦晓辉老师表示，SLO 这个指标，是谁拍板呢？其实应该是业务团队来拍，而不是运维人员：根据业务的实际需要，制定出错误预算，以及预估消耗完错误预算之后，系统呈现怎样的行为，这些都是需要提前梳理的内容。

直播中，秦晓辉老师举了一个 Google SRE 的典型案例：以 28 天为周期，形成 SLO 的计算窗口，在这个窗口中，将上线的稳定性着以次之，从而凸显上线效率，以及创新性。一旦消耗完了错误预算，即便窗口还有剩余时间，比如还剩 3 天，也依旧不能上线了。

“通常现在各个公司都是微服务了，每一个服务都应该有自己的 SLI ，并且我们应该建立一个全局、可查的 SLI 指标查询分析系统。”简言之，虽然各个服务都有自己的仪表盘，但是少有企业将这些仪表盘统一在一起，那么就会缺少一个全局的视图，当出现问题的时候，运维人员其实很难定界哪里出了问题。

秦晓辉老师提及，可观测性中目前常用的指标有：

梳理关键指标，如参考 USE、RED、Google 4 Gold Signals 等方法论
业务北极星指标
依赖的基础设施、第三方服务、第三方接口的指标
上游流量的指标
系统内部的一些业务逻辑指标，比如内存队列的长度

而在“日志”上，又有哪些关注点呢？秦晓辉老师提到了以下五个方面：建立中心化的日志平台，把分散日志收集到中心，方便查看日志流；日志统一打印成 JSON ，方便收集、ETL ；遵循 Cannonical log lines 或 Wide events 理念打印日志；各日志字段统一规范（比如统一名称及语义），统一 SDK ；最后，就是建立日志告警规则。

“可观测性，除了以上的几大支柱建设，其实最终还是需要下沉到对数据的分析这一层。”在数据分析层面，秦晓辉老师指出，建立了多套指标、日志、链路系统，有海量数据，但没有洞悉，那就没有什么意义。企业不仅需要建立各个维度的全局视图，建立“总-分”结构的下钻链路，同时也需要着眼于数据特性，而非炫酷的图表。并且，还需要将现有的数据串联起来，比如从日志跳转到链路追踪，最终根据日常故障排查路径组织数据，将经验沉淀到产品力，确保长远的稳定性。

“当然，后续也可以引入 AI ，自动根据人工运维这个路径进行周期性排查。”

相关推荐工具：https://flashcat.cloud/

分享二：《把攻击变成能力——从超大流量到长期稳定》

OSCHINA.NET 负责人 林师授

分享开始前，林师授老师分享了今年 5 月平台遭受恶意攻击的过程，从最开始的流量试探，到后面的可疑 IP 暴涨，加码至千万级伪装浏览器访问，最终导致服务器卡顿、故障。而在本次恶意攻击的防御中，林师授老师分享了当时的应对方式：

止血：扩容、高防、黑名单/限速/限流/JS Challenge ，但此举成本高、容易误杀
稳态：观测先行（误杀率/限流命中率可视化）、战情室协同、防御 TCO 仪表盘
进化：把策略下沉到网关/缓存/对象存储/分发，做自适应挑战与速率重，始终以开发者体验为边界

经历此事之后，林师授团队做了严格的复盘，不仅仅记录了本次防御，同时还从本次防御的过程中制定了保障后续平台稳定的SOP，包括：监控、告警方面，补全本次攻击中所缺乏的指标数据，并在关联告紧，将数据串联起来，同时做到夜间联动（本次攻击发生在中国区夜间时段）；值守、备份方面，指定多角色轮值制度，以 SOP 标准日常进行 15min 救火演练，且常态化；服务器方面，新增应用级降级服务器，及相关预案，同时增加读写分离，而面对高风险接口，增设熔断/灰度开关；在性能方面，借助此次攻击事件，将慢查询集中做了清理，提升底层吞吐能力。

“在原则和取舍方面，我们首先遵循开发者体验优先，首先得让开发者能用到、读到；其次就是可观测优先，可量化才谈得上去优化；最后就是可演进优先，也就是被攻击后的平台升级，修补自身漏洞，建立防御机制。”

在构建平台全链路风险防御网的过程中，林师授老师提到了“三层机制+六环节”：

三层机制：提前感知 / 快速响应 / 精准规划
六环节：监控 | 告警 | 故障响应 | 复盘 | 容量规划 | 扩容

具体怎么去做呢？林师授老师提出：首先得建立全维度数据联动，消除观测盲区，在基础层秒级采样 CPU、内存、宽带、磁盘、队列等，形成稳定性基线；在业务层联动接口错误率、登录成功率、页面加载时长等用户有感指标，先判定“热点/噪声/层级”，再决策动作；在历史层，将多年的时序指标做趋势与季节性分析，最终指导容量及预算。

林师授老师最后表示，实际上，SRE是“稳态”与“进化”的平衡艺术。

分享三：《面向 1-5-10 的稳定性思考与实践》

B站 SRE 负责人 武安闯

武安闯老师的分享，主要围绕“1-5-10”的背景与挑战，以及 B 站的稳定性框架与数据运营。这几年，行业的事故发生的比较多，B 站也不例外，比如说：某服务配置变更，需要两可用区发布，但发布时未严格灰度、观测时间短；某服务代码变更，业务框架设计不完善，大量请求回源 DB 过载，业务异常等......

“分几个角度来讲，业务上的压力增加、历史债的问题爆发、效率优先导致的故障红线管控，以及变更质量降低等等。基于此，B 站指定了 1-5-10 安全生产规范，即：1 分钟发现、5 分钟定界、 10 分钟回复。”

关于故障应急与定界定位，武安闯老师介绍了三个方面：

故障发生：信息协同，人员协同

包括：自动建应急群、通告；SRE、RD、Oncall ，快捷入群；故障应急文案推送；业务自定义故障应急推送；电话升级等。

专家经验下钻定界

包括：上游影响面分析；可用区、应用下钻分析；错误 path 、 code 占比；Top 实例占比分析...

AIOPS 初因推荐

包括：基于链路告警分析；基于变更快速定位变更诱因；基于链路指标分析、初因推荐

而预案平台需要解决哪些问题呢？武安闯老师指出：1、解决预案散落各地，内部文档、在线文档、平台类操作 2、预案可执行性 3、依赖特定执行人 4、和故障、根因分析割裂，预案推荐、联动、预案可观测性缺失。“所以，预案平台能力建设需要考虑以下四个方面：对接内部各个平台，提供通用预案原子能力建设；联动根因分析，预案推荐、执行；支持业务基于原子预案编排业务场景预案；自定义执行时间、灰度策略、预案执行报告推送等等”

*以上为本次直播编辑整理内容

系统稳定之路，道阻且长，关乎生产安全之要事。但正如快猫星云所言：“我们始终相信，一群人的智慧，足以点亮前行的光”，在那些数千万人使用平台、体验服务的背后，总有一群极客为用户守护稳定，保障安全。

今天是 2025 年 1024 ，祝天下所有的程序员：

节日快乐！

————

秦晓辉- 《SRE 稳定性体系建设分享》 PDF下载

林师授-《把攻击变成能力——从超大流量到长期稳定》 PDF下载

武安闯-《面向 1-5-10 的稳定性思考与实践》 PDF下载

微信关注我们

原文链接：https://my.oschina.net/u/4806939/blog/18696996

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Dante Cloud 3.5.7.0 发布，微服务也支持从 Session 便捷获取用户信息了

[一] 项目简介 Dante Cloud 国内首个支持阻塞式和响应式服务并行的、开箱即用的企业级云原生微服务基座。是采用领域驱动模型(DDD)设计思想，以「高质量代码、低安全漏洞」为核心，基于 Spring 生态全域开源技术，高度模块化和组件化设计，支持智能电视、IoT等物联网设备认证，满足国家三级等保要求，支持接口国密数字信封加解密等一系列安全体系的一站式多租户微服务解决方案。独创的可以“一套代码实现微服务和单体两种架构灵活切换”的企业级应用系统。 1、项目理念 Dante Cloud 一直秉承着“简洁、高效、包容、务实”的理念，使用微服务领域及周边相关的各类新兴技术或主流技术进行建设，不断地深耕细作、去粗取精、用心打造。目标是构建一款代码质量高、维护投入低、安全防护强的微服务基座，可以帮助用户快速跨越架构技术选型、技术研究探索、基础架构搭建阶段，直接聚焦业务开发。极大地降低传统项目中因安全漏洞、技术负债、低质代码等潜在隐患所产生的高维护投入。期望像项目名字寓意一样，构建一套可以在在行业变革的时期承上启下，助力企业信息化建设和数字化转型的产品。 Dante Cloud 核心关注点是：...

2025-10-25

212

中国科学技术大学与字节跳动即将联合发布一款具有里程碑意义的端到端长视频生成模型。该模型能够直接生成分钟级长度、480p 分辨率、24帧/秒（fps）的高质量视频，并支持多镜头场景切换，标志着国产视频生成技术在全球生成式 AI 竞赛中实现关键突破。这项成果的核心创新在于其底层算法——MoGA（Modular Global Attention），这是一种全新的注意力机制，专为解决长视频生成中的上下文扩展与算力开销问题而设计。凭借 MoGA 的结构优化，模型可处理长达 580K token 的上下文信息，大幅降低计算成本，使长时间、多场景的视频生成成为可能。研究团队表示，传统视频生成模型往往受限于显存和计算量，只能生成几秒钟的动画 GIF 或短片。而 MoGA 的引入，让模型能够“一次性”生成包含多个镜头切换、视觉叙事连贯的 “迷你短片”，极大拓展了生成式视频模型的应用边界。此外，MoGA 具有高度的模块化与兼容性，可直接与现有的高效加速库（如 FlashAttention、xFormers、DeepSpeed 等）集成，实现更快的训练与推理效率。这意味着该技术不仅具备科研突破意义，...

2025-10-24

188

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。