小天才的云原生 DevOps 选型与落地:挑战、演进与经验分享
作者:小天才内部 IT 运维负责人 汤英杰
一、云原生转型背景与技术栈演进
二、软件交付流水线演进历程(2020-2025)
1. Rancher Pipeline(2020-2022 年)
-
图形化 UI 与 YAML 配置结合,操作简便。
-
与 Rancher K8s 集群深度集成,适合初期快速落地。
-
生产环境管控能力不足,发布流程依赖 Rancher 统一管理。
-
开发者需具备 K8s 基础,学习成本较高。
2. Jenkins(2022-2023 年)
-
本地缓存机制提升构建速度。
-
BlueOcean 界面简洁,支持 UI 与 Jenkinsfile 双模式配置。
-
权限管理依赖插件,精细度不足,缺乏环境管控与版本管理。
-
仅负责构建,需额外平台完成自动化发布,操作复杂度增加。
3. 其他工具尝试
4. Zadig 基础版(2022-2024 年)
-
强大的模板系统(构建、工作流),降低重复配置成本。
-
多集群管理能力,适配 RKE/RKE2 等不同 K8s 环境。
-
90% 业务迁移至此,显著提升交付效率。
-
基础版仅支持测试环境管理,缺乏生产环境管控;
-
工作流模板扩展性有限,难以满足复杂业务需求;
-
接入流程对开发团队规模扩大后仍显复杂。
5. Zadig 企业版(2025 年至今)
核心功能价值:
|
需求场景
|
企业版解决方案
|
收益
|
|
生产环境严格管控
|
环境隔离、发布审批流程、版本锁定
|
降低误操作风险,提升发布可靠性
|
|
模板化与标准化
|
构建模板、工作流模板、代码扫描模板
|
统一交付流程,减少重复配置耗时
|
|
多集群与资源管理
|
跨集群流量调度、资源配额管理
|
优化资源利用率,支持混合云 / 多集群架构
|
|
简化开发团队接入
|
业务目录可视化、自助式服务门户
|
降低新成员学习成本,提升协作效率
|
|
质量环节缺失
|
集成测试、自动化验证插件(待扩展)
|
完善交付质量体系,减少缺陷流入生产
|
三、关键转型总结与启示
-
工具选型逻辑:
-
初期强调快速落地(Rancher Pipeline)
-
中期追求灵活定制(Jenkins)
-
后期聚焦规模化与稳定性(Zadig)
-
云原生场景下,工具需深度集成 Kubernetes 生态,支持多集群和多环境管理。
-
核心痛点解决路径:
-
环境管控:从无差别发布转向测试、预发、生产严格隔离,通过企业版审批流程实现管控。
-
效率瓶颈:模板化显著减少重复配置,业务目录降低协作成本。
-
团队适配:推动“运维驱动”向“开发自助化”转变,降低对 K8s 底层依赖。
-
未来规划方向:
-
结合 Zadig 企业版,推进测试左移能力,如集成单元测试、API 测试等。
-
探索 AIGC 助力流水线自动生成,进一步降低接入门槛。