乐于分享
好东西不私藏

第四范式:HAMi 设备插件新功能介绍

第四范式:HAMi 设备插件新功能介绍

作为一个活跃的开源项目,HAMi 由来自 16+ 国家、360+ 贡献者共同维护,已被 200+ 企业与机构在实际生产环境中采纳,具备良好的可扩展性与支持保障。

在国产算力规模快速增长的背景下,越来越多的团队开始在集群中接入昇腾等设备。但在默认使用方式下,这类设备通常以整卡独占形式运行,资源抽象粒度较粗,难以纳入统一的调度体系,从而导致整体资源利用率不高。

另一方面,部分设备插件在向 Kubernetes 注册资源时,仅上报设备数量,未包含显存、算力等关键指标。这种资源表达方式会影响资源监控、容量规划以及调度决策,使平台侧难以进行统一管理。在显存容量较大的场景下,还可能出现资源值注册后显示异常的问题,进一步影响资源模型的准确性。

在此背景下,第四范式平台工程师 James在本次分享中介绍了 HAMi 与 Volcano 的集成方式,以及在设备能力补齐与资源注册方面的实现思路和实践细节。

James HAMi Meetup 北京站分享

HAMi 与 Volcano 的插件式集成

Volcano 作为 CNCF 体系内面向高性能计算与批调度场景的项目,提供了队列、调度策略与资源管理等能力。在该方案中,HAMi 的设备调度能力通过插件方式集成进 Volcano,使其能够同时支持英伟达与华为昇腾等不同类型的加速设备。

在实现层面,引入了 HAMi Ascend device 模块。该模块在初始化阶段读取设备型号、显存大小和卡数量等信息,并根据资源申请情况选择合适的设备进行分配;在分配完成后,再将相关信息反馈给 Kubernetes,使上层调度与资源管理系统能够感知设备的实际分配结果。

在使用方式上,用户只需在 YAML 配置中开启 HAMi 的 GPU 共享能力并选择相应策略;在资源申请时,仅需指定设备类型,例如 NVIDIA GPU 或 Ascend 310P 和 910 系列设备。在昇腾场景下,资源申请将匹配至合适的模板级别。

设备资源补齐与注册策略

在设备能力补齐方面,方案引入了 Device Resource Padding 机制。该机制通过读取节点上的设备信息,将显存、算力等关键资源补充注册到 Kubernetes 中,并将 NVIDIA、昇腾以及海光 DCU 等设备按照型号分别映射到一套统一的资源标识命名体系中,便于调度器与上层系统统一使用。

针对“超大显存注册后显示为 0”的边界问题,方案中进一步引入了 Scale Factor 机制:在资源注册阶段按比例缩放资源值,在资源申请阶段再按相同比例进行换算。该方式可用于规避显示限制,但同时会影响 limit、quota 等相关配置,因此在使用前需要进行整体评估。


HAMi,全称是 Heterogeneous AI Computing Virtualization Middleware(异构算力虚拟化中间件),是一套为管理 k8s 集群中的异构 AI 计算设备而设计的“一站式”架构,能够提供异构 AI 设备共享能力,提供任务间的资源隔离。HAMi 致力于提升k8s 集群中异构计算设备的利用率,为不同类型的异构设备提供统一的复用接口。HAMi 当前是 CNCF Sandbox 项目,已被 CNCF 纳入 CNAI 类别技术全景图。

扫码添加社区小助手

回复哈密瓜进技术交流群

如果申请没通过,还请再发送一次哦~(不是小助手高冷,只是被消息淹没了

社区官网:https://project-hami.io
Github:https://github.com/Project-HAMi
Reddit:https://www.reddit.com/r/HAMi_Community/

社区例会:

北京时间每周五 16:00(中文)
https://meeting.tencent.com/dm/Ntiwq1BICD1P
会议纪要及议程:https://docs.google.com/document/d/1YC6hco03_oXbF9IOUPJ29VWEddmITIKIfSmBX8JtGBw/edit#heading=h.g61sgp7w0d0c

欢迎关注 HAMi 社区公众号,期待你的“推荐”哦~

文章转载自HAMi Project点击这里阅读原文了解更多

立即下载赞助商企划书(https://cncf.io/sponsor)了解赞助方案和市场推广机会。

CNCF概况(幻灯片)

扫描二维码联系我们!


CNCF (Cloud Native Computing Foundation)成立于2015年12月,隶属于Linux  Foundation,是非营利性组织。 

CNCF云原生计算基金会)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。请关注CNCF微信公众号。

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 第四范式:HAMi 设备插件新功能介绍

评论 抢沙发

8 + 3 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮