搜索[K8s]结果-低调大师优秀个人博客

精选列表

搜索[K8s]，共3895篇文章

2024-12-16

OpenAI 解释 ChatGPT 等服务故障原因：K8s 循环依赖导致

12 月 12 日，OpenAI更新服务状态页面，在其中补充了对前一天 ChatGPT、Sora 及 API 服务宕机四个多小时事故的回顾。 OpenAI 表示，此次事件并非安全漏洞或新产品发布导致，而是源于一项内部系统升级。 OpenAI 工程师在 11 日下午部署了一项新的遥测服务，但由于配置失误，导致每个节点同时执行大量 Kubernetes API 操作，最终因服务器不堪重负、控制平面瘫痪。这进而引发 DNS 解析故障，导致服务间无法互相通信。在此过程中，尽管 OpenAI 的监控系统在问题初期发出警报，但 DNS 缓存机制延迟了问题的暴露，使得故障在更大范围内蔓延。由于 Kubernetes 控制平面陷入死锁，工程师们经历了缩小集群规模、限制对 API 的访问、以及扩容服务器等多个步骤，才最终恢复了部分控制并移除了故障服务。 OpenAI 承认，此次事件暴露了测试和部署流程上的不足，例如只测试了小型预发布环境，没有评估对大型集群的潜在影响。相应地，OpenAI 承诺将采取一系列改进措施，包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。影响在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间，所有 OpenAI 服务均出现了严重降级或完全不可用。这起事故源于我们在所有集群中推出的新遥测服务配置，并非由安全漏洞或近期产品发布所致。从下午 3:16 开始，各产品性能均出现大幅下降。 •ChatGPT：在下午 5:45 左右开始大幅恢复，并于晚上 7:01 完全恢复。 •API：在下午 5:36 左右开始大幅恢复，于晚上 7:38 所有模型全部恢复正常。 •Sora：于晚上 7:01 完全恢复。时间线 •2024 年 12 月 10 日：新的遥测服务部署到预发布集群，经测试无异常。 •2024 年 12 月 11 日下午 2:23：引入该服务的代码合并到主分支，并触发部署流水线。 •下午 2:51 至 3:20：变更逐步应用到所有集群。 •下午 3:13：告警触发，通知到工程师。 •下午 3:16：少量客户开始受到影响。 •下午 3:16：根因被确认。 •下午 3:27：工程师开始把流量从受影响的集群迁移。 •下午 3:40：客户影响达到最高峰。 •下午 4:36：首个集群恢复。 •晚上 7:38：所有集群恢复。询问AI

2024-12-15

kom v0.1.3 已经发布，Kubernetes 操作工具

Items foreach %s,%s at %s \n", d.GetNamespace(), d.GetName(), d.GetCreationTimestamp()) } 总结使用sql查询k8s

2024-12-12

深入 Kubernetes 的健康奥秘：探针（Probe）究竟有多强？

“Probe”——这是 K8s 世界里一个特别常见但又不够“高调”的单词。如果你第一次接触 K8s，可能很难想象这个看似普通的小工具竟然是 K8s 自动化运维的核心之一。

2024-12-11

One API 替代品 Chat Nio 安装与使用教程

表格渲染文件处理能力： PDF、Word、PPT 等文档解析 OCR 图片识别支持 S3/R2/MinIO 存储部署方案 Chat Nio 提供多种部署方式，适应不同场景，包括宝塔、Docker、K8S

2024-11-29

开源日报 | Chrome牵头成立浏览器选择联盟；美图秀秀推出AI长头发功能；马斯克要开发游戏了；谷歌站上20000亿美金；Rust 1.83.0发布

gitee.com/fastdfs100/FastCFS FastCFS 是一款强一致性、高性能、高可用、支持百亿级海量文件的通用分布式文件系统，可以作为MySQL、PostgreSQL、Oracle等数据库，k8s

2024-11-22

Shopee 在 Alluxio 加速 AI 训练的实践与探索

通过 S3 协议向 Alluxio Proxy 服务请求以获取原始数据；通过在 K8S 上启动 Alluxio 集群来预加载全部数据；通过 Alluxio-FUSE 读取数据以支持训练任务；用户数据处理也在

2024-11-13

应用网关的演进历程和分类

通过统一的 K8s 运维底座，系统的扩展和缩减可以更加灵活地自动进行。云原生架构带来了更高的弹性和资源利用率，同时也要求开发者适应新的开发和运维模式。

2024-11-13

iLogtail 开源贡献人物专访：技术之路无坦途，与社区共同成长

我与 iLogtail 的结缘大概在 2019 年的时候，我在国内某 AI 科技公司负责一个 IoT 项目的 K8s 容器化落地。

2024-11-11

海柔仿真系统存储实践：混合云架构下实现高可用与极简运维

因此，平台被迁移到私有云的 Kubernetes 环境中，团队随后开始寻找适合在 k8s 环境中运用的分布式文件系统。仿真平台的数据特征包括：大量小文件、并发写入、跨云架构等。

2024-10-28

云原生周刊：K8s 未来三大发展方向

该项目是用于构建漏洞百出、易受攻击的集群环境，让开发者可以在真实场景中学习 K8s 攻击和防御技巧。 Envd 高效的 AI 开发环境搭建工具。

2024-10-28

《HelloGitHub》第 103 期

该项目是用于构建漏洞百出、易受攻击的集群环境，让开发者可以在真实场景中学习 K8s 攻击和防御技巧。 40、pilipala：开源的 bilibili 第三方客户端。

2024-10-25

OpenTelemetry 演示与 OpenTelemetry 的 Elastic 分发

收集器将配置为使用hostmetrics 接收器来监控所有 K8s 节点的指标，使用kuebeletstats 接收器来检索 Kubelet 的指标，使用 filelog 接收器来收集所有集群的指标。

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。