「不卷算力卷效率 | HAMi 社区 Meetup」深圳站由 HAMi 社区发起密瓜智能主办2026 年 4 月 25 日在深圳圆满结束。本文为 HAMi 社区 Meetup 深圳站回顾系列第三篇。顺丰科技陈俊超分享了从物理机到多云混合架构的完整演进历程深度解析基于 HAMi 的 GPU 池化、显存超分与混部调度落地实践。感谢顺丰科技作为本次活动的联合主办方为活动提供了场地支持。演讲嘉宾陈俊超顺丰科技后端开发高级工程师陈俊超正在分享核心亮点• 5 私有云 4 公有云多云混合架构调度器全面切换至 Volcano• GPU 型号级资源上报告别标签与污点运维• 沙盒与高优推理混部共享物理 GPU错峰调度资源复用• 显存超分最高 200% 显存超配零侵入• 生产测试集群最高节省 57% GPU视频回放及 PPT 下载•B 站HAMi 在顺丰科技的多云落地实践 - 陈俊超[1]•下载 PPThami-multi-cloud-practice-sf-tech-chenjunchao.pdf[2]一、AI 平台架构演进从 Kubeflow 到多云混合顺丰科技 AI 平台的演进路径是许多企业 AI 基础设施建设的缩影。起步Kubeflow 时代AI 平台最初基于 Kubeflow 构建核心业务涵盖三大模块•沙盒Sandbox开发者日常实验环境•工作流Workflow模型训练与数据处理流水线•模型服务Model Serving在线推理服务顺丰科技的 GPU 算力演进历程演进调度器全面替换随着业务规模增长底层调度器已从 Kubernetes 默认调度器全面替换为 Volcano以应对大规模 Pod 调度需求。这一选择为后续的 GPU 池化打下了坚实基础。当前多云混合架构目前平台管理5 个私有云 K8s 集群并已对接火山云、阿里云、百度云及华为云四家公有云利用公有云资源补充私有云算力缺口。为什么需要多云本地机房主要部署 V100、A100 及部分 H20但采购成本高、周期长。公有云资源多为包月或包年采购用于应对算力紧张和灵活扩展需求。多云混合架构 — 5 个私有云集群对接四大公有云二、GPU 资源管理Device Plugin 深度定制从通用到精细GPU 型号级资源上报原生 Device Plugin 将所有 GPU 统一上报为nvidia.com/gpu不同型号无法区分。顺丰团队通过改造 Device Plugin 配置将资源上报类型细化为gpu-a100、gpu-v100、gpu-h20 ...这让调度层面可以做到精准的 GPU 型号匹配。GPU 资源池抽象 Volcano Queue 配额管理简化运维告别标签与污点团队取消了对节点打标签和污点的依赖简化了运维配置实现了通过 Volcano 统一管理所有 GPU 资源。vGPU Device Plugin 适配对 Volcano 的 vGPU Device Plugin 进行了代码修改使其能够上报具体的 GPU 卡型号如vgpu-number-l20在调度层面实现精准匹配。三、HAMi 落地三大场景场景一GPU 切分资源细粒度化针对显存和算力利用率较低的任务通过 HAMi 实现 GPU 的细粒度切分显存/算力级别将一张物理 GPU 拆分为多个可独立调度的资源单元从而提升资源利用率降低碎片化浪费。使用 HAMi 进行显存切分这一能力的核心在于将 GPU 从整卡独占转变为可分配的细粒度资源使低负载任务能够共享同一张物理卡。场景二GPU 混部基于优先级的任务共存在 GPU 切分能力之上将开发态任务沙盒 / Notebook与高优先级推理任务混部在同一张物理 GPU 上通过优先级调度与资源保障机制确保高优任务的稳定性同时提升整体资源利用率。沙盒与推理任务存在天然的时间错峰——开发人员白天调参、推理服务按业务流量弹性变化通过调度策略实现资源复用与动态让渡。使用 HAMi 进行混部和优先级调度场景三显存超分利用任务错峰特征如客服场景白天高并发、夜间空闲实现了显存超分允许不同任务共享物理显存。通过错峰调度多任务在不同时段使用同一块显存空间资源利用率大幅提升。显存超分 — 利用错峰调度共享物理显存陈俊超透露目前社区版本尚未支持显存超分特性顺丰是在社区大佬的帮助下实现了该功能。四、全链路监控闭环不仅采集物理卡监控数据还采集了 HAMi 虚拟卡的显存利用率等指标通过 Prometheus 写入 BDP 平台用于生成利用率报表。这为资源运营决策提供了数据支撑。全链路监控 — 物理卡 虚拟卡指标采集闭环五、现场问答精选现场观众提问Q1低优先级任务如何优雅退出分两种策略。一是定时监控沙盒利用率若持续空闲如 6-12 小时则自动 Commit 镜像后退出二是高优任务直接抢占低优任务会处于夯住不可用状态目前没有降级方案。Q2本地集群与公有云如何配合本地机房主要运行常驻负载算力缺口通过包月/包年的公有云资源补充。六、总结陈俊超的分享完整呈现了顺丰科技 AI 平台从 Kubeflow 到多云混合架构的演进路径以及基于 HAMi 的 GPU 池化落地实践。核心要点可以归纳为以下几点•架构层面从单一 Kubeflow 平台演进为 5 个私有云集群 4 家公有云的多云混合架构调度器全面切换至 Volcano为 GPU 池化奠定了调度基础。•资源管理层面通过深度定制 Device Plugin实现 GPU 型号级资源上报告别标签与污点的运维负担并通过 vGPU Device Plugin 适配实现虚拟卡的精准调度。•HAMi 落地三大场景GPU 切分与混部开发态 推理共享物理卡、显存超分错峰调度共享显存、资源池抽象与统一调度Volcano 队列隔离 网关流量分发。•监控层面构建物理卡 HAMi 虚拟卡的全链路监控闭环通过 Prometheus 写入 BDP 平台为资源运营决策提供数据支撑。顺丰科技的实践充分展示了 HAMi 在企业级 GPU 算力池化场景中的落地价值——从调度器改造、Device Plugin 定制到业务场景适配形成了一套可复用的技术路径。七、延伸阅读陈俊超所在的顺丰科技团队此前还发布了EffectiveGPU 技术白皮书系统性地介绍了顺丰自研的 GPU 池化技术。该白皮书与本次 Meetup 分享的内容一脉相承可以作为本次分享的深度补充阅读•EffectiveGPU 白皮书大模型时代如何更好地提升算力效率白皮书详细介绍了 EffectiveGPU简称 egpu池化技术的整体架构与核心技术包括异构设备统一管理、设备共享与资源隔离性能损耗控制在 5% 以内、弹性资源超配最高 200% 显存超分能力、优先级 QoS 保障等关键能力。阅读链接EffectiveGPU 白皮书大模型时代如何更好地提升算力效率•CNCF Case Study: SF Technology — Effective GPU这是顺丰科技在 CNCF 官方发布的案例研究以英文面向全球云原生社区。案例系统介绍了 EffectiveGPU 如何基于 CNCF Sandbox 项目 HAMi 构建 GPU 池化方案涵盖设备虚拟化、资源硬隔离、优先级抢占、跨节点协同调度、显存超分等核心技术以及在推理服务、测试集群、语音识别、国产算力适配四大场景的落地成效。关键数据包括生产与测试集群最高节省 57% GPU、GPU 虚拟化带来最高 100% 利用率提升、对 NVIDIA 驱动、Linux 内核、任务镜像和源代码零侵入。引用链接[1]HAMi 在顺丰科技的多云落地实践 - 陈俊超:https://www.bilibili.com/video/BV13RozBMEjm/[2]hami-multi-cloud-practice-sf-tech-chenjunchao.pdf:https://github.com/Project-HAMi/community/blob/main/hami-meetup/03-shenzhen-20260425/hami-multi-cloud-practice-sf-tech-chenjunchao.pdf关于HAMiHAMi 全称是 Heterogeneous AI Computing Virtualization Middleware异构算力虚拟化中间件是一套为管理 Kubernetes 集群中的异构 AI 计算设备而设计的“一站式”架构能够提供异构 AI 设备共享能力提供任务间的资源隔离。HAMi 致力于提升 Kubernetes 集群中异构计算设备的利用率为不同类型的异构设备提供统一的复用接口。HAMi 当前是 CNCF Sandbox 项目已被 CNCF 纳入 CNAI 类别技术全景图。社区官网https://project-hami.ioGitHubhttps://github.com/Project-HAMi/HAMi