深入 K8s 调度器:架构设计、核心源码与 GPU 调度实战-夜雨聆风

深入 K8s 调度器:架构设计、核心源码与 GPU 调度实战

背景：基于 Kubernetes v1.28+ 代码库关键词：K8s Scheduler, Golang, 源码分析, Scheduling Framework, GPU 调度, Preemption

前言

Kubernetes 调度器（kube-scheduler）是集群资源调度的核心大脑。作为一名 Golang 后台开发者，深入理解其源码不仅能掌握高性能分布式系统的设计精髓，更是开发AI 训练平台、高性能计算平台（如 GPU 调度）的基础。

本文将以代码走读的视角，从工程目录结构、核心架构、关键链路到扩展实战（GPU 调度），带你彻底吃透 K8s 调度器。我们还将深入探讨 Scheduling Framework 的设计哲学以及 Profiles 多配置文件的强大能力。

1. 工程结构与架构设计

在深入逻辑之前，先通过目录结构理解其模块划分。K8s 调度器的代码主要分布在 pkg/scheduler 和 cmd/kube-scheduler 下。

1.1 核心代码目录

• cmd/kube-scheduler/: 程序的入口 main 函数，负责参数解析、配置加载和实例化。
• pkg/scheduler/: 调度器的核心逻辑库。

• scheduler.go: 定义了 Scheduler 结构体和主循环 Run()。
• schedule_one.go: 单个 Pod 的完整调度工作流，包含核心的 schedulePod 逻辑。
• framework/: Scheduling Framework 的核心实现，定义了所有扩展点接口（Interface）和运行时（Runtime）。

• plugins/: 内置的调度插件（如 NodeResourcesFit, TaintToleration, DefaultPreemption）。
• runtime/: 负责管理插件注册、初始化和执行的运行时环境。

• internal/queue/: 调度队列（SchedulingQueue）的实现，包含 ActiveQ, BackoffQ, UnschedulableQ 三级队列设计。
• internal/cache/: 调度器本地缓存（SchedulerCache），缓存 Node 和 Pod 的状态，优化查询性能。
• apis/config/: 调度器配置结构体定义，包括 KubeSchedulerProfile。

1.2 架构设计

kube-scheduler 采用了典型的生产者-消费者模型，并结合了观察者模式（Informer）。值得注意的是，它引入了 Profiles 的概念，允许在同一个调度器实例中运行多个调度配置。

扩展点	阶段	作用	典型应用
PreEnqueue	入队前	决定 Pod 是否可以进入队列	Scheduling Gates
QueueSort	入队	决定 Pod 在队列中的顺序	优先级排序 (PrioritySort)
PreFilter	调度前	预处理 Pod 信息，检查前置条件	校验 Pod PVC 是否存在
Filter	过滤	排除不合适的节点	NodeResourcesFit, TaintToleration
PostFilter	过滤后	处理调度失败的情况 (Preemption)	DefaultPreemption (抢占)
PreScore	打分前	预计算打分所需信息	缓存公共数据
Score	打分	给节点打分 (0-100)	NodeAffinity, ImageLocality
Reserve	选中后	预留资源 (内存记账)	资源配额管理
Permit	绑定前	阻止或延迟绑定	Gang Scheduling (Coscheduling)
PreBind	绑定前	执行绑定前的准备工作	挂载云盘 (VolumeBinding)
Bind	绑定	执行绑定动作	DefaultBinder
PostBind	绑定后	绑定后的清理或通知	信息上报

深入 K8s 调度器:架构设计、核心源码与 GPU 调度实战

前言

1. 工程结构与架构设计

1.1 核心代码目录

1.2 架构设计

2. 核心入口与初始化

2.1 启动入口

2.2 核心结构体 `Scheduler`

3. 核心逻辑：ScheduleOne 深度走读

3.1 步骤一：从队列获取 Pod

3.2 步骤二：调用调度框架 (Framework) – 调度周期

3.3 步骤三：异步绑定 (Assume & Bind) – 绑定周期

4. 调度器扩展机制：Scheduling Framework

4.1 关键扩展点全景图

4.2 Profiles 与多配置

5. 高级特性：抢占 (Preemption)

5.1 抢占流程

6. 实战：GPU 调度扩展

6.1 需求场景

6.2 扩展方案：NodeResourceTopology

简单的 GPU Filter 插件代码示意

7. 总结

wang

猜你喜欢

评论抢沙发

前言

1. 工程结构与架构设计

1.1 核心代码目录

1.2 架构设计

2. 核心入口与初始化

2.1 启动入口

2.2 核心结构体 Scheduler

3. 核心逻辑：ScheduleOne 深度走读

3.1 步骤一：从队列获取 Pod

3.2 步骤二：调用调度框架 (Framework) – 调度周期

3.3 步骤三：异步绑定 (Assume & Bind) – 绑定周期

4. 调度器扩展机制：Scheduling Framework

4.1 关键扩展点全景图

4.2 Profiles 与多配置

5. 高级特性：抢占 (Preemption)

5.1 抢占流程

6. 实战：GPU 调度扩展

6.1 需求场景

6.2 扩展方案：NodeResourceTopology

简单的 GPU Filter 插件代码示意

7. 总结

wang

猜你喜欢

评论 抢沙发

2.2 核心结构体 `Scheduler`

评论抢沙发