首页 文章 精选 留言 我的

精选列表

搜索[K8s],共3939篇文章
优秀的个人博客,低调大师

K8S有状态服务-云盘扩容解决方案

介绍 使用云盘创建有状态服务时往往有一个痛点:开始申请云盘的时候不能准确估计服务能用多大存储空间,申请的云盘在服务运行一段时间后空间不够使用!! 本文介绍容器服务使用云盘时,如果进行磁盘扩容; 建议在扩容数据盘之前手动创建快照,以备份数据。 云盘扩容参考文档:https://help.aliyun.com/document_detail/25452.html 创建服务 参考动态云盘服务创建步骤: # kubectl create -f dynamic.yaml # kubectl get pod NAME READY STATUS RESTARTS AGE nginx-dynamic-69f9bd7b8c-hlkxj 1/1 Running 0

优秀的个人博客,低调大师

Kubeflow v1.10 发布,K8s 机器学习工具包

Kubeflow 1.10.0 现已发布,新版本增强了机器学习工作流的灵活性、效率和可扩展性。新功能覆盖多个组件,提升了用户体验和系统性能。 亮点功能 Trainer 2.0 模型注册表的新用户界面 Spark Operator 作为核心 Kubeflow 组件 Kubernetes 和容器安全(CISO 兼容性) 大语言模型的超参数优化 Pipelines 中的循环并行性 Katib 的新参数分布 与 KServe 更深的模型注册表集成 KServe 的新 Python SDK、OCI 存储和模型缓存 Spark Operator 的新安全上下文和无根 Istio-CNI 集成 更多详情可查看官方公告。

优秀的个人博客,低调大师

OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致

12 月 12 日,OpenAI更新服务状态页面,在其中补充了对前一天 ChatGPT、Sora 及 API 服务宕机四个多小时事故的回顾。 OpenAI 表示,此次事件并非安全漏洞或新产品发布导致,而是源于一项内部系统升级。 OpenAI 工程师在 11 日下午部署了一项新的遥测服务,但由于配置失误,导致每个节点同时执行大量 Kubernetes API 操作,最终因服务器不堪重负、控制平面瘫痪。这进而引发 DNS 解析故障,导致服务间无法互相通信。 在此过程中,尽管 OpenAI 的监控系统在问题初期发出警报,但 DNS 缓存机制延迟了问题的暴露,使得故障在更大范围内蔓延。由于 Kubernetes 控制平面陷入死锁,工程师们经历了缩小集群规模、限制对 API 的访问、以及扩容服务器等多个步骤,才最终恢复了部分控制并移除了故障服务。 OpenAI 承认,此次事件暴露了测试和部署流程上的不足,例如只测试了小型预发布环境,没有评估对大型集群的潜在影响。相应地,OpenAI 承诺将采取一系列改进措施,包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。 影响 在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间,所有 OpenAI 服务均出现了严重降级或完全不可用。 这起事故源于我们在所有集群中推出的新遥测服务配置,并非由安全漏洞或近期产品发布所致。 从下午 3:16 开始,各产品性能均出现大幅下降。 •ChatGPT:在下午 5:45 左右开始大幅恢复,并于晚上 7:01 完全恢复。 •API:在下午 5:36 左右开始大幅恢复,于晚上 7:38 所有模型全部恢复正常。 •Sora:于晚上 7:01 完全恢复。 时间线 •2024 年 12 月 10 日:新的遥测服务部署到预发布集群,经测试无异常。 •2024 年 12 月 11 日 下午 2:23:引入该服务的代码合并到主分支,并触发部署流水线。 •下午 2:51 至 3:20:变更逐步应用到所有集群。 •下午 3:13:告警触发,通知到工程师。 •下午 3:16:少量客户开始受到影响。 •下午 3:16:根因被确认。 •下午 3:27:工程师开始把流量从受影响的集群迁移。 •下午 3:40:客户影响达到最高峰。 •下午 4:36:首个集群恢复。 •晚上 7:38:所有集群恢复。 询问AI

优秀的个人博客,低调大师

云原生周刊:K8s 的 13 个最佳开源监控工具

开源项目推荐 Silver Surfer 该项目旨在检查 Kubernetes 对象的 API 版本兼容性,并为其提供迁移路径,以便为集群升级做好准备。 Actions Runner Controller Actions Runner Controller (ARC) 是一个 Kubernetes 操作器,可为 GitHub Actions 编排和扩展自托管运行器。 使用 ARC,您可以创建运行程序规模集,该规模集可根据存储库、组织或企业中运行的工作流数量自动扩展。由于受控运行程序可能是短暂的并且基于容器,因此新的运行程序实例可以快速、干净地扩展或缩减。 helm-mapkubeapis 这是一个 Helm 插件,可将版本中废弃或移除的 Kubernetes API 映射到受支持的 API 中。 文章推荐 掌握 ArgoCD 管理:实现灵活性和规模的高级 GitOps 技术 这篇文章深入探讨了如何利用 ArgoCD 的潜力进行高级 GitOps 管理,通过 ApplicationSet Helm Chart 实现灵活的部署,以及通过扩展 ArgoCD 实例实现可扩展性和多租户支持的未来发展方向。 Kubernetes 的 13 个最佳开源监控工具 这篇文章提供了关于 Kubernetes 的 13 个开源监控工具的概述,并介绍了每个工具的优点和缺点,以帮助读者选择适合其需求的工具。 云原生动态 Linux 基金会推出 OpenTofu Linux 基金会宣布成立 OpenTofu,这是一个开源替代方案,用于 Terraform 广泛使用的基础设施即代码工具。OpenTofu 以前被称为 OpenTF,是对 Terraform 最近宣布的许可证变更(从 Mozilla Public License v2.0(MPLv2)变更为 Business Source License v1.1)的开放和社区驱动的回应,为每个人提供了一个可靠的开源替代方案,采用中立的治理模型。 Fluent Operator 2.5.0 发布:新增多个插件 Fluent Operator v2.5.0 新增 11 个 features, 其中 Fluent Bit 新增支持 7 个插件, Fluentd 新增支持 1 个插件。此外,对 Fluent Operator 也进行了增强,调整了默认参数,以便适应更多场景,并对 helm chart 进行了优化,用户可以更方便的进行安装,并修复了部分 bug。 适用于 Kubernetes 的 HashiCorp Vault Secrets Operator 正式推出 HashiCorp 已将适用于 Kubernetes 的 HashiCorp Vault Secrets Operator 正式投入使用。该 Kubernetes Operator 将 Vault 的 secret 缓存相结合。操作员还处理 Secrets 轮换,并拥有用于各种特定于 Secrets 的自定义资源的控制器。 Vault Secrets Operators 监视其自定义资源定义 (CRD) 集的更改。每个 CRD 都允许操作员将 Vault Secret 同步到 Kubernetes Secret。该运算符将源 Vault secret 直接写入目标 Kubernetes secret。这可确保对源所做的所有更改都能正确复制,并使用 Kubernetes 自定义资源来管理服务使用的 secret。应用程序能够以 Kubernetes 原生方式从目的地使用 secret。 Harness 推出开源 Git 平台 Gitness DevOps 公司 Harness 发布了 Gitness,这是一个新的开源 Git 平台,据称这是“近十年来开源 Git 平台的第一个重要版本”。 Gitness 有两个主要组件,自托管的 Git 存储库和基于 Drone 的管道。 Harness 提供了所谓的软件交付平台,该平台可以自托管、安装在 AWS 上或由 Harness 托管的云上,提供各种产品,包括持续交付、功能标记、错误跟踪和混沌工程。该公司还提供多种可免费使用的开源或可用源代码产品,但由于许可限制,并非所有产品都有资格成为真正的开源产品。 本文由博客一文多发平台 OpenWrite 发布!

优秀的个人博客,低调大师

Kubeflow v1.7 发布,K8s 机器学习工具包

Kubeflow v1.7 可以利用开发者的 Python 知识来构建无缝的工作流程,而不需要 Kubernetes CLI 命令,也不需要为每次迭代构建容器镜像。通过多个组件中的新 UI,开发人员可以将配置参数与日志联系起来,这使他们能够快速分析结果。当与 Kubeflow 的 pythonic 工作流程和 Kubernetes 的运行效率相结合时,这些改进可以为模型开发人员节省大量的时间和精力。 Katib Katib 包括对用户界面和 SDK 的新的改进。新的 Katib 用户界面提供了简化的细粒度配置和日志关联性。此外,还增加了排序和过滤功能,允许对你的许多实验进行更有组织的查看。此外,这些功能最大限度地减少了手动使用低级别的命令来定位和关联日志与 HyperParameter Experiment 配置的必要性。这简化了深入的性能分析和后续的模型参数迭代过程。 在 1.7 中,Katib SDK 提供了新的功能,包括 Tune API 和从 Katib 数据库中检索试验指标的能力。模型开发者或数据科学家可以执行 Tune API 来启动一个 HyperParameter Experiment,而不需要对底层系统(如 Kubernetes、Docker)有任何了解。它可以自动将用户训练脚本转换为 Katib Experiment。 Training operator Kubeflow 的统一分布式 Training operator 的增强功能包括用于微调资源扩展的配置选项(处理器、内存、存储)。它现在包括对 Pytorch Elastic 工作负载的 HPA 支持,用户可以在 Job Spec 中指定目标指标/利用率。这用于自动扩大/缩小 Pytorch 作业的规模,以满足需求,同时确保用户配置的弹性策略。这些改进大大简化了用户的工作流程,并减少了操作上的繁琐和成本。 Pipelines 在 Kubeflow 1.7 中,Pipelines Working Group 通过最新的 2.0.0-alpha.7 版本继续努力实现 KFP v2。该版本包括以下主要改进: 管线作为组件: 管线本身可以作为其他管线的组件使用,就像你在管线中使用任何其他单步组件一样 Sub-DAG 可视化,允许管道用户深入了解其管线的子图组件 错误和漏洞的修复 更多详情可查看:https://github.com/kubeflow/kubeflow/releases/tag/v1.7.0

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册