图解kubernetes容器状态同步机制核心实现

2020-02-13 525

在K8s中将Pod调度到某一台Node节点之后，后续的状态维护信息则是由对应机器上的kubelet进行维护，如何实时反馈本地运行状态，并通知apiserver则是设计的难点，本节主要是通过感知Pod状态变化和探测状态改变两个流程来实际分析其核心数据结构，来了解内部设计

1. 状态管理

1.1 静态Pod

静态Pod主要是指的那些不是通过感知apiserver创建的pod, 因为apiserver上并不包含，但是同时也需要维护和获取这类Pod的状态， k8s中就设计了一个镜像Pod的概念，其实就是为静态Pod镜像出来一个Pod该Pod的主要信息与静态Pod一致，并且在apiserver中进行创建，通过apiserver可以感知的这个镜像Pod来反映真实的静态Pod的状态,

1.2 状态数据源

statusManager是进行状态同步的关键组件其需要综合当前Pod运行中的数据和apiserver存储的数据，从而决定最终的状态转换, 这里先关注图上画出来的，更多的状态等后续会一一介绍

2. 版本一致性

type versionedPodStatus struct {
	status v1.PodStatus
	// 单调递增的版本号（每个pod）
	version uint64
	// Pod name &amp; namespace, for sending updates to API server.
	podName      string
	podNamespace string
}

在Kubelet中为保证与apiserver端信息的同步，在本地保存了一个Pod状态版本信息，其里面除了保存当前Pod的状态数据还有一个版本版本号，通过单调递增的版本号的对比来确定是否进行状态的同步

3. 核心源码实现

statusManager的流程其实还是蛮复杂的，今天我们就只讲一个场景，即kubelet通过apiserver感知到一个Pod更新，然后顺着该功能的数据流来进行梳理statusMangaer里面的数据流转

3.1 核心数据结构

manager中的核心状态相关的数据结构可以主要分为两大类：映射数据维护(podManager、podStatuses、apiStatusVersions)数据通信管道(podStatusChannel)，剩余的则是对与apiserver通信的kublet和进行pod删除检查的 podDeletionSafety

type manager struct {
	kubeClient clientset.Interface
        // 管理缓存Pod，包含镜像pod和静态pod的映射
	podManager kubepod.Manager
	// 从pod UID映射到相应pod的版本状态信息 。
	podStatuses      map[types.UID]versionedPodStatus
	podStatusesLock  sync.RWMutex
	podStatusChannel chan podStatusSyncRequest
	// 存储镜像pod的版本
	apiStatusVersions map[kubetypes.MirrorPodUID]uint64
	podDeletionSafety PodDeletionSafetyProvider
}

3.2 设置Pod状态

设置Pod状态主要是位于kubelet中的syncPod中，在接收到pod事件变更之后，会与apiserver进行 Pod最新数据的同步从而获取当前pod在apiserver端的最新状态

func (m *manager) SetPodStatus(pod *v1.Pod, status v1.PodStatus) {
	m.podStatusesLock.Lock()
	defer m.podStatusesLock.Unlock()

	for _, c := range pod.Status.Conditions {
		if !kubetypes.PodConditionByKubelet(c.Type) {
			klog.Errorf("Kubelet is trying to update pod condition %q for pod %q. "+
				"But it is not owned by kubelet.", string(c.Type), format.Pod(pod))
		}
	}
	// Make sure we're caching a deep copy.
	status = *status.DeepCopy()

	// 如果Pod被删除了则需要强制与apiserver进行信息的同步
	m.updateStatusInternal(pod, status, pod.DeletionTimestamp != nil)
}

3.3 更新内部缓存状态产生同步事件

3.3.1 获取缓存状态

	var oldStatus v1.PodStatus
	// 检测之前的本地缓存数据
	cachedStatus, isCached := m.podStatuses[pod.UID]
	if isCached {
		oldStatus = cachedStatus.status
	} else if mirrorPod, ok := m.podManager.GetMirrorPodByPod(pod); ok {
		oldStatus = mirrorPod.Status
	} else {
		oldStatus = pod.Status
	}

3.3.2 检测容器状态

检测容器状态主要是针对容器终止状态转发的合法性进行检测，其实就是根据设定的Pod的RestartPolicy来检测针对一个终止的容器是否可以进行重启

	if err := checkContainerStateTransition(oldStatus.ContainerStatuses, status.ContainerStatuses, pod.Spec.RestartPolicy); err != nil {
		klog.Errorf("Status update on pod %v/%v aborted: %v", pod.Namespace, pod.Name, err)
		return false
	}
	if err := checkContainerStateTransition(oldStatus.InitContainerStatuses, status.InitContainerStatuses, pod.Spec.RestartPolicy); err != nil {
		klog.Errorf("Status update on pod %v/%v aborted: %v", pod.Namespace, pod.Name, err)
		return false
	}

3.3.3 更新PodCondition最后转换时间

通过最新的status里面的condition设定对应PodCondition的LastTransitionTime更新时间未当前时间

	// Set ContainersReadyCondition.LastTransitionTime.
	updateLastTransitionTime(&amp;status, &amp;oldStatus, v1.ContainersReady)

	// Set ReadyCondition.LastTransitionTime.
	updateLastTransitionTime(&amp;status, &amp;oldStatus, v1.PodReady)

	// Set InitializedCondition.LastTransitionTime.
	updateLastTransitionTime(&amp;status, &amp;oldStatus, v1.PodInitialized)

	// Set PodScheduledCondition.LastTransitionTime.
	updateLastTransitionTime(&amp;status, &amp;oldStatus, v1.PodScheduled)

3.3.4 校对时间截断过长信息

首先会根据当前容器的个数，从而决定每个容器最大的字节数大小，然后对容器里面的终止状态里面的Message信息，进行截断，同时进行时间的校对

	normalizeStatus(pod, &amp;status)

3.3.5 状态更新条件检测

如果之前已经缓存了对应的数据，并且缓存的数据与当前的状态未发生改变，也不需要强制更新，就直接返回

	if isCached &amp;&amp; isPodStatusByKubeletEqual(&amp;cachedStatus.status, &amp;status) &amp;&amp; !forceUpdate {
		// 如果不强制更新 ，默认是true此处不会成立
		klog.V(3).Infof("Ignoring same status for pod %q, status: %+v", format.Pod(pod), status)
		return false // No new status.
	}

3.3.6 生成同步事件更新缓存

生成最新的状态缓存数据，并且递增本地的版本信息

	// 构建新的状态
	newStatus := versionedPodStatus{
		status:       status,
		version:      cachedStatus.version + 1, // 更新器缓存
		podName:      pod.Name,
		podNamespace: pod.Namespace,
	}
	// 更新新的缓存状态
	m.podStatuses[pod.UID] = newStatus

	select {
	case m.podStatusChannel &lt;- podStatusSyncRequest{pod.UID, newStatus}: // 构建一个新的同步请求
		klog.V(5).Infof("Status Manager: adding pod: %q, with status: (%d, %v) to podStatusChannel",
			pod.UID, newStatus.version, newStatus.status)
		
		return true
	default:
		// Let the periodic syncBatch handle the update if the channel is full.
		// We can't block, since we hold the mutex lock.
		klog.V(4).Infof("Skipping the status update for pod %q for now because the channel is full; status: %+v",
			format.Pod(pod), status)
		return false
	}

3.4 探测状态更新

探测状态其实就是Pod内容器的运行状态，比如如果设置了Readiness探测，当某个容器探测失败的时候，就会通知对应的service从后端的enpoint中移除该Pod, 让我们一起看看Kubelet是如何将运行状态通知到apiserver端的

3.4.1 获取当前状态

func (m *manager) SetContainerReadiness(podUID types.UID, containerID kubecontainer.ContainerID, ready bool) {
	m.podStatusesLock.Lock()
	defer m.podStatusesLock.Unlock()

	// 获取本地的容器
	pod, ok := m.podManager.GetPodByUID(podUID)
	if !ok {
		klog.V(4).Infof("Pod %q has been deleted, no need to update readiness", string(podUID))
		return
	}

	// 获取当前的状态
	oldStatus, found := m.podStatuses[pod.UID]
	if !found {
		klog.Warningf("Container readiness changed before pod has synced: %q - %q",
			format.Pod(pod), containerID.String())
		return
	}

	// 获取当前的容器状态
	containerStatus, _, ok := findContainerStatus(&amp;oldStatus.status, containerID.String())
	if !ok {
		klog.Warningf("Container readiness changed for unknown container: %q - %q",
			format.Pod(pod), containerID.String())
		return
	}

3.4.2 检测状态是否发生改变

	// 检测前后的就绪状态是否发生改变
	if containerStatus.Ready == ready {
		klog.V(4).Infof("Container readiness unchanged (%v): %q - %q", ready,
			format.Pod(pod), containerID.String())
		return
	}

3.4.3 修改容器的就绪状态

获取容器的状态，修改就绪为当前的状态

	status := *oldStatus.status.DeepCopy()
	containerStatus, _, _ = findContainerStatus(&amp;status, containerID.String())
	containerStatus.Ready = ready

3.4.4 根据最新的容器状态修改

会根据当前运行时的容器探测的状态，来修改对应PodCondition里面的状态，最后调用内部的更新逻辑

	updateConditionFunc := func(conditionType v1.PodConditionType, condition v1.PodCondition) {
		conditionIndex := -1
		// 获取Pod对应的PodCondition状态
		for i, condition := range status.Conditions {
			if condition.Type == conditionType {
				conditionIndex = i
				break
			}
		}
        // 修改或追加Pod对应的PodCondition状态
		if conditionIndex != -1 {
			status.Conditions[conditionIndex] = condition
		} else {
			klog.Warningf("PodStatus missing %s type condition: %+v", conditionType, status)
			status.Conditions = append(status.Conditions, condition)
		}
	}
	// 计算Ready状态
	updateConditionFunc(v1.PodReady, GeneratePodReadyCondition(&amp;pod.Spec, status.Conditions, status.ContainerStatuses, status.Phase))
	// 计算容器Ready状态
	updateConditionFunc(v1.ContainersReady, GenerateContainersReadyCondition(&amp;pod.Spec, status.ContainerStatuses, status.Phase))
	m.updateStatusInternal(pod, status, false)

3.5 启动后台同步任务

statusManager会启动一个后台的线程来进行更新管道里面同步请求的消费

func (m *manager) Start() {
	// 省略非核心代码
	go wait.Forever(func() {
		select {
		case syncRequest := &lt;-m.podStatusChannel:
			// 获取最新的状态信息，更新apiserver
			klog.V(5).Infof("Status Manager: syncing pod: %q, with status: (%d, %v) from podStatusChannel",
				syncRequest.podUID, syncRequest.status.version, syncRequest.status.status)
			m.syncPod(syncRequest.podUID, syncRequest.status)
		case &lt;-syncTicker:
			m.syncBatch()
		}
	}, 0)
}

3.6 同步Pod状态

3.6.1 同步条件检测

同步条件检测主要是检测镜像Pod的版本是否发送变化、Pod当前是否被删除，如果pod没有被删除则返回false,即对一个没有删除的Pod我们还是需要继续更新其状态的

	if !m.needsUpdate(uid, status) {
		klog.V(1).Infof("Status for pod %q is up-to-date; skipping", uid)
		return
	}

3.6.2 通过apiserver获取最新Pod数据

如果没有获取到Pod信息，则直接进行退出即可

	pod, err := m.kubeClient.CoreV1().Pods(status.podNamespace).Get(status.podName, metav1.GetOptions{})
	if errors.IsNotFound(err) {
		klog.V(3).Infof("Pod %q does not exist on the server", format.PodDesc(status.podName, status.podNamespace, uid))
		// 如果Pod已经被删除了，就直接退出就行
		return
	}
	if err != nil {
		klog.Warningf("Failed to get status for pod %q: %v", format.PodDesc(status.podName, status.podNamespace, uid), err)
		return
	}

3.6.3 调用Patch接口进行更新

这里面会通过将最小的状态与之前的状态来进行merge合并，然后调用kubeClient进行apiserver端状态的修改

	oldStatus := pod.Status.DeepCopy()
	// 更新服务端的状态
	newPod, patchBytes, err := statusutil.PatchPodStatus(m.kubeClient, pod.Namespace, pod.Name, pod.UID, *oldStatus, mergePodStatus(*oldStatus, status.status))
	klog.V(3).Infof("Patch status for pod %q with %q", format.Pod(pod), patchBytes)
	if err != nil {
		klog.Warningf("Failed to update status for pod %q: %v", format.Pod(pod), err)
		return
	}

3.6.4 更新本地的Apiserver端的版本信息

	// 当前是最新的状态
	pod = newPod

	klog.V(3).Infof("Status for pod %q updated successfully: (%d, %+v)", format.Pod(pod), status.version, status.status)
	m.apiStatusVersions[kubetypes.MirrorPodUID(pod.UID)] = status.version

3.6.5 检测删除Pod

这里主要是最后阶段，即Pod对应的资源都已经释放了，则才最终删除apiserver端的Pod

// 如果pod的DeletionTimestamp被设置，则对应的Pod需要被删除
if m.canBeDeleted(pod, status.status) {
		deleteOptions := metav1.NewDeleteOptions(0)
		
		deleteOptions.Preconditions = metav1.NewUIDPreconditions(string(pod.UID))
		//  调用apiserver对Pod进行删除
		err = m.kubeClient.CoreV1().Pods(pod.Namespace).Delete(pod.Name, deleteOptions)
		if err != nil {
			klog.Warningf("Failed to delete status for pod %q: %v", format.Pod(pod), err)
			return
		}
		klog.V(3).Infof("Pod %q fully terminated and removed from etcd", format.Pod(pod))
		m.deletePodStatus(uid)
	}

探活整体的设计大概就是这样，希望大佬们多多关注，一起交流。 k8s源码阅读电子书地址: https://www.yuque.com/baxiaoshi/tyado3

> 微信号：baxiaoshi2020 > 关注公告号阅读更多源码分析文章 > 更多文章关注 www.sreguide.com > 本文由博客一文多发平台 OpenWrite 发布

微信关注我们

原文链接：https://my.oschina.net/u/4131034/blog/3165677

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

自学编程方法论：怎么学操作系统

原创声明本文首发于微信公众号【程序员黄小斜】本文作者：黄小斜转载请务必在文章开头注明出处和作者。本文思维导图简介学习编程，操作系统是你必须要掌握的基础知识，那么操作系统到底是什么呢？这还用说么，操作系统不就是Windows、Linux、Mac、IOS、Android、IOS这类我们天天都在用的东西么？此话不假，但是操作系统作为计算机科学里的一门基础学科，肯定不能这么接地气对不对，总的来点高大上的概念，震慑一下你们吧。根据百度百科的介绍，操作系统是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。这个介绍足够高大上了吧，那么到底啥是操作系统呢，简单来说，操作系统就是管理计算机硬件和软件资源的一种软件，计算机里的硬盘、鼠标键盘、显示器等设备，都要由它来管理，你打开游戏、打开浏览器或者是看电影，也都要通过操作系统来执行。没有了操作系统，电脑就失去了灵魂，只是一堆硬件而已。为什么要学操作...

2020-02-11

678

itest 简介 test 开源敏捷测试管理，testOps 践行者。可按测试包分配测试用例执行，也可建测试迭代(含任务，测试包，BUG)来组织测试工作，也有测试环境管理，还有很常用的测试度量；对于发版频繁，需求常变，itest还可导出用例，线下修改、执行，新增后再导入（同步）到线上；且可根据测试策略来设置测试流程，并可实时调整；在测试看板中，能查看迭代报告，测试包执行情况，测试任务进展，也可以在看板上直接执行用包用例,具体介绍详见下面开源中国连接；itest 入围2019 最受欢迎国产开源软件并获得此奖项。在线体验1 http://120.78.0.137/demo v4.4.0 下载地址：itest下载本次发布一共实际39个更新(37个增强，2个BUG)：主要是度量分析基本上全改了，增加了测试人员简报，开人员人简报，费解BUG明细，重开BUG明细，22个统计都增加了版本下拉列表，可以按版本进行统计,对6个分析的SQL进行优化。 V4.4.0详情如下所述: 37 个功能增强 1：增加bug reOpen 统计及明细：含处理BUG的开发人员，BUG当前状态，bug id ,...

2020-02-13

801

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。