告别 GPU 独占时代:用 HAMi 实现训练推理一体化——博维智慧 GPU 虚拟化实战
科研实验室里的 GPU 一直是个老大难问题模型种类多、团队共享资源、训练推理混杂运行硬件成本居高不下。博维智慧科技Boardware用三年时间从虚拟机独占一路演进到 Kubernetes HAMi 的云原生方案最终在 12 张卡的集群上实现了 Agent RL 训练与推理的物理隔离。本文为「不卷算力卷效率 | HAMi 社区 Meetup」深圳站回顾系列第七篇。2026 年 4 月 25 日博维智慧科技研究员欧彬凯分享了这一完整演进历程。核心亮点• 从虚拟机独占到 K8s HAMi70% 科研 GPU 从闲置变高效利用• 12 张卡实现 Agent RL 训练与推理物理隔离• HAMi Core 细粒度切分支持显存超卖 1.2-1.3 倍• Infiniband RDMA 优化200 并发推理 RPS 显著提升• 「算力管理粒度越来越细使用门槛越来越低」演讲嘉宾欧彬凯博维智慧科技 / Boardware 研究员欧彬凯欧彬凯理学硕士现任博维智慧科技研究员专注于大语言模型、多模态大模型研究与工程化应用同时担任广东省智能科技研究院脑机数字融合实验室主管并作为 PI 主持多项澳门科学技术发展基金创新研发资助项目。在人工智能、物联网和无线通信领域具有丰富的产学研经验与多项论文及专利成果并持有百度首席 AI 架构师及飞桨技术专家及多家云厂商专家级认证。视频回放及 PPT 下载•B 站Boardware x HAMiGPU 虚拟化与集群管理研发经历分享 - 欧彬凯[1]•下载 PPTboardware-gpu-virtualization-oubinkai.pdf[2]一、科研实验室的 GPU 管理之痛科研实验室的 GPU 使用场景与企业生产环境有显著差异• 模型种类繁多、参数规模不一• 多个研究团队共享有限的 GPU 资源• 训练、推理、调试任务混杂运行• 既要保证研究效率又要控制硬件成本博维智慧科技Boardware深耕科研与高校场景积累了丰富的 AI 算力管理经验。在实际调研中他们发现超过70% 的科研 GPU 资源处于闲置或低效使用状态——不是没有任务在跑而是资源分配粒度太粗导致大量显存被浪费。科研实验室 GPU 管理核心痛点二、架构演进从虚拟机到容器化早期方案虚拟机独占 VPC 切分团队早期使用虚拟机独占或 VPC 切分来管理 GPU 资源但存在多个痛点•显存无法动态调整分配后即固定无法按需弹性伸缩•跨卡调度受限虚拟化层的限制导致多卡任务调度不灵活•环境割裂CPU 与 GPU 环境分离运维复杂演进方案全面拥抱 K8s HAMi后全面拥抱 Kubernetes通过容器化实现算力轻量化与灵活调度引入 HAMi 作为 GPU 虚拟化与调度层。HAMiHeterogeneous AI Computing Virtualization Middleware是 CNCF 孵化项目提供细粒度的 GPU 显存隔离和算力切分能力让多个容器可以安全地共享同一张物理 GPU。K8s HAMi 架构演进三、自研调度平台One Click Deployment Platform为解决客户开箱即用的本地化部署需求博维自研了One Click Deployment Platform——一套面向科研和高校场景的 AI 算力管理平台。它屏蔽了底层 K8s 和 HAMi 的复杂性让研究人员无需运维知识即可快速启动训练任务。具备以下核心能力•多集群管理统一管理多个 K8s 集群的 GPU 资源•多地区异地部署支持跨地域的算力资源调度•RDMA 网络优化深度优化 Infiniband 网络提升分布式训练效率•极简部署一键部署算法环境降低使用门槛性能验证Infiniband vs 以太网在千问 3 模型推理场景下团队进行了 Infiniband 网络与传统以太网的对比测试•测试条件200 并发用户•结果使用 Infiniband RDMA 技术后总请求量及 RPS每秒请求数相比传统以太网有显著提升四、Agent RL 实践训练与推理的物理隔离这是本次分享中最具技术深度的部分。随着 Agent 范式的兴起**强化学习RL**已成为提升大模型推理能力的关键路径。但在实际工程中Agent RL 工作流对 GPU 资源提出了前所未有的挑战。核心挑战在 Agent RL强化学习工作流中训练和推理是两个紧密耦合但又资源需求差异巨大的环节。如何在有限 GPU 资源下同时支持两者HAMi 解决方案在 OpenRL 框架下利用 HAMi 将 12 张卡集群划分为•Node A训练节点承担模型训练任务•Node B推理节点承担环境交互与推理评估任务实现了训练、评估与推理的物理隔离互不干扰。这意味着训练过程中的梯度更新不会影响推理服务的响应延迟推理侧的环境交互结果也能实时反馈给训练侧形成高效的 RL 循环。关键技术指标• 支持显存超卖 1.2-1.3 倍进一步提升资源利用• 已完成 9B 模型的小规模验证• 通过 HAMi Core 实现细粒度的 GPU 切分Agent RL 结合 HAMi 部署五、高校多场景算力支持在高校场景中同一集群需要承载多种负载类型•Jupyter Lab教学与科研的交互式开发环境•ML 应用机器学习训练与推理任务•语音数字人AI 多模态应用通过 HAMi Core 实现多种负载在同一集群的混合运行解决了 CPU 与 GPU 环境割裂的问题为高校提供了一站式的 AI 算力平台。这一方案已在多所高校和科研机构落地显著降低了 AI 基础设施的运维门槛。高校多场景混合负载总结从虚拟机独占到 Kubernetes 容器化再到基于 HAMi 的 GPU 虚拟化调度博维智慧的演进路径折射出科研计算基础设施的一个普遍趋势算力管理的粒度正在越来越细而使用门槛正在越来越低。这场分享中最有价值的不是某一个技术细节而是整个方案的系统思维。博维并没有停留在把 GPU 分给容器这一步而是向上构建了完整的调度平台向下深入到 Infiniband 网络优化并在横向上打通了 Agent RL 训练与推理的隔离。这套组合拳让 12 张卡的集群能够承载训练、推理、教学等多种负载GPU 资源利用率大幅提升。对于同样面临 GPU 利用率低的团队有几点可以直接参考HAMi 的显存超卖能力已在生产环境验证到 1.2-1.3 倍Infiniband RDMA 对大模型推理的加成是实实在在的而训练 - 推理物理隔离的思路对于正在探索 Agent RL 的团队来说值得优先考虑。引用链接[1]Boardware x HAMiGPU 虚拟化与集群管理研发经历分享 - 欧彬凯:https://www.bilibili.com/video/BV1J7o6BpEZJ/[2]boardware-gpu-virtualization-oubinkai.pdf:https://github.com/Project-HAMi/community/blob/main/hami-meetup/03-shenzhen-20260425/boardware-gpu-virtualization-oubinkai.pdf关于HAMiHAMi全称是 Heterogeneous AI Computing Virtualization Middleware异构算力虚拟化中间件是一套为管理 Kubernetes 集群中的异构 AI 计算设备而设计的“一站式”架构能够提供异构 AI 设备共享能力提供任务间的资源隔离。HAMi 致力于提升 Kubernetes 集群中异构计算设备的利用率为不同类型的异构设备提供统一的复用接口。HAMi 当前是 CNCF Sandbox 项目已被 CNCF 纳入 CNAI 类别技术全景图。社区官网https://project-hami.ioGitHubhttps://github.com/Project-HAMi/HAMi