kube-scheduler的代码逻辑和二次开发-低调大师

kube-scheduler的代码逻辑和二次开发

2018-12-16 745

1.9中，kube-scheduler仍然是作为一个“plugin”放在k8s 代码中，在k8s根目录下的plugin目录中，cmd/kube-scheduler目录是其编译入口，pkg/scheduler目录是其主要核心代码。如图：

在即将发布的1.10中，社区将kube-scheduler从plugin中移出，嵌入到与api-server、kubelet等组件平级的目录。也即根目录下的cmd、pkg目录：

调度器的算法是如何生效的

调度器二进制启动

调度器可以在启动时指定其算法的来源。算法来源有三种：a)本地policy文件；b)policy configMap；c)指定提供者。

对象*scheduler.Config记录了算法来源，当启动参数中policy相关参数不为空时，会从相应的文件或者configMap中读取调度策略；否则检查algorithm-provider参数，这个参数会列出当前可用的provider，如果没有明确指定，那么代码将启动默认的provider：default

从policy读取的调度策略，其内容是一个policy结构

type Policy struct {
 metav1.TypeMeta
 // Holds the information to configure the fit predicate functions
 Predicates []PredicatePolicy
 // Holds the information to configure the priority functions
 Priorities []PriorityPolicy
 // Holds the information to communicate with the extender(s)
 ExtenderConfigs []ExtenderConfig
 // RequiredDuringScheduling affinity is not symmetric, but there is an implicit PreferredDuringScheduling affinity rule
 // corresponding to every RequiredDuringScheduling affinity rule.
 // HardPodAffinitySymmetricWeight represents the weight of implicit PreferredDuringScheduling affinity rule, in the range 1-100.
 HardPodAffinitySymmetricWeight int32
}

代码会直接根据policy的内容，调用CreateFromKeys 方法去构建最终的scheduler

当没有指定policy时，如果没有指定provider，最后会执行下面这个函数

// Create creates a scheduler with the default algorithm provider. func (f *configFactory) Create() (*scheduler.Config, error) {
 return f.CreateFromProvider(DefaultProvider)
}

随后也会调用CreateFromKeys 方法构建最终的genericScheduler

调度器算法注入

上面的过程中，会最终都调用到func (f *configFactory) CreateFromKeys。这个函数将参数中的predicate算法、priority算法等注入到调用链中，这个调用链中的函数，会在每次调度pod时被调用。两个调用链分别是genericScheduler结构中的：

type genericScheduler struct {
 ...
 predicates map[string]algorithm.FitPredicate
 ...
 prioritizers []algorithm.PriorityConfig
 ...
}

当通过policy启动时，CreateFromKeys 方法的参数中的算法都记录到了policy对象中的成员变量里。而如果通过指定provider启动，参数中的算法都来自provider 的init方法。

我们通过阅读provider的init方法，以及init过程中引用到的plugins.go的一些方法，就能知道大概的流程是：

1.调度器的algorithmprovider目录下存放了一个defaults provider，以及一个plugins.go的文件，plugins.go提供了provider登记需要的一些方法。

2.plugins.go 中维护了一个全局的map：algorithmProviderMap，这个map的key即provider的名字，value是一个结构,维护了两个string集合，用于记录该provider需要的prodicate算法名和priority算法名:

type AlgorithmProviderConfig struct {

FitPredicateKeys sets.String PriorityFunctionKeys sets.String

}
3.provider的init方法中调用factory.RegisterAlgorithmProvider方法，向上文的map中登记自己。登记时会提供自己本身包含的两类算法的集合。可参考defaults/defaults.go 中的：

registerAlgorithmProvider(defaultPredicates(), defaultPriorities())

defaultPredicates()、defaultPriorities()两个函数返回的就是两个集合，只有集合中的字符串对应的算法才会注入到genericScheduler ，从而被调用。而这里字符串和真实算法function的映射关系，分别记录在两个全局map：

fitPredicateMap 和priorityFunctionMap中，defaults.go中调用的RegisterFitPredicate、RegisterMandatoryFitPredicate等许多方法均会将算法名和算法方法的映射记录到map中。

这里注意到，并不是所有的算法都会登记到集合中的，这里PodFitsPorts、PodFitsHostPorts、PodFitsResources等算法只是记录到map中，并没有登记到set中，但是也被调用了，这是因为这些算法都属于GeneralPredicates算法，在GeneralPredicates算法中被调用。而代码中下文我们会看到在default provider 中登记了GeneralPredicates算法

总结下来就是：要将predicate算法或prioirity算法的映射关系注册到全局map中，然后将算法名登记到provider中，再将provider登记到全局map中，在启动scheduler时指定provider的name，就可以使用相应的provider名下登记的算法来构造genericScheduler。

如何增加算法

上文中提及的plugins.go中，还提供了一些额外的方法，比如：InsertPredicateKeyToAlgoProvider方法，可以将某个算法登记到指定的provider中。

因此，我们只要在init时将自定义的算法先注册到全局map中：

func init() {
 factory.RegisterFitPredicate("PodFitsNeteaseResources", predicates.PodFitsNeteaseResources))
}

然后在defaults/defaults.go 的init方法尾部，调用InsertPredicateKeyToAlgoProvider将带有自定义算法的名字的set加入default provider即可:

factory.InsertPredicateKeyToAlgoProvider(factory.DefaultProvider, sets.NewString("PodFitsNeteaseResources"))

上述是一个比较规范的注册方式，也有投机取巧的方式，比如在default provider 的func defaultPredicates() 方法尾部增加一行：

factory.RegisterFitPredicate("PodFitsNeteaseResources", predicates.PodFitsNeteaseResources))

本文转自SegmentFault- kube-scheduler的代码逻辑和二次开发

微信关注我们

原文链接：https://yq.aliyun.com/articles/680012

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用 Prometheus 监控 Kubernetes 应用

我们和大家介绍了Prometheus的数据指标是通过一个公开的 HTTP(S) 数据接口获取到的，我们不需要单独安装监控的 agent，只需要暴露一个 metrics 接口，Prometheus 就会定期去拉取数据；对于一些普通的 HTTP 服务，我们完全可以直接重用这个服务，添加一个/metrics接口暴露给 Prometheus；而且获取到的指标数据格式是非常易懂的，不需要太高的学习成本。现在很多服务从一开始就内置了一个/metrics接口，比如 Kubernetes 的各个组件、istio 服务网格都直接提供了数据指标接口。有一些服务即使没有原生集成该接口，也完全可以使用一些 exporter 来获取到指标数据，比如 mysqld_exporter、node_exporter，这些 exporter 就有点类似于传统监控服务中的 agent，作为一直服务存在，用来收集目标服务的指标数据然后直接暴露给 Prometheus。普通应用监控前面我们已经和大家学习了 ingress 的使用，我们采用的是Traefik作为我们的 ingress-controller，是我们 Kub...

2018-12-17

632

Kubernetes 作为一个广受欢迎的开源容器协调系统，是Google于2014年酝酿的项目。从Google趋势上看到，Kubernetes自2014年以来热度一路飙升，短短几年时间就已超越了大数据分析领域的长老Hadoop。本公众号之前的文章（Kubernetes核心组件解析）也对Kubernetes的几个组件做了一些详细的剖析，本文就带领大家一起看看Kubernetes和Spark碰到一起会擦出什么样的火花。 Spark2.3.0之前的版本只原生支持Standalone、YARN和Mesos三种部署模式，也就是说要迁移Spark2.3.0之前的Spark到Kuberbetes上，还得准备一层Standalone、YARN或者Mesos环境，不过Spark2.3.0已经引入了对Kubernetes的原生支持。 Spark2.3.0可以将编写好的数据处理程序直接通过spark-submit提交到Kubernetes集群，通过创建一个Drive Pod和一系列Executor Pods，然后共同协调完成计算任务，整体过程的官方示意图如下。当我们通过spark-submit将Spar...

2018-12-17

645

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。