停止将预算浪费在闲置的 GPU 上。了解如何为 AI 工作负载实施动态分配、多租户和有效的自动扩展。

红帽 OpenShift AI 对 GPUaaS 的需求

对于大力投资 AI 的企业而言,专用硬件的成本是主要关注点。GPU/加速器价格昂贵,如果这些硬件闲置不用,就会导致大量的预算浪费,使扩展 AI 项目变得更加困难。其中一个解决方案是采用 GPU 即服务(GPUaaS),这是一种旨在帮助最大限度提高硬件投资回报率(ROI)的运维模式。

红帽 OpenShift AI 是一个基于 Kubernetes 的平台,可用于实施多用户 GPUaaS 解决方案。虽然置备硬件是第一步,但实现真正的 GPUaaS 需要根据工作负载需求进行额外的动态分配,以便更快地回收 GPU,以最大限度地减少空闲时间。

GPUaaS 还需要多租户。这时,Kueue(Kubernetes 弹性单元执行)等高级排队工具就变得不可或缺。Kueue 对共享资源进行分区,并通过配额实施多租户,保证多个团队和项目的公平、可预测的访问。一旦这种治理到位,核心挑战就转移到为 AI 工作负载创建自动扩展管道。

AI 工作负载集成和自动扩展

GPUaaS 平台的目标是集成流行的 AI 框架,并根据工作负载需求自动扩展资源。OpenShift AI 简化了常见 AI 框架的部署。

这些工作负载分为三类,均受 Kueue 支持:

  • 推理:KServe 和 vLLM 等框架可以高效处理服务模型,尤其是大语言模型(LLM)。
  • 训练(分布式):KubeFlow Training 和 KubeRay 等工具可管理复杂的多节点分布式训练作业。
  • 交互式数据科学:工作台是 OpenShift AI 数据科学 Notebook 体验,也与 Kueue 集成,因此 Notebook 仅在资源可用时启动,从而减少了资源浪费。

使用 Kueue 进行队列管理

多租户 AI 集群面临的主要挑战是管理大量的 GPU 作业请求。这正是 Kueue 的作用。Kueue 为这些计算密集型作业提供了基本的队列和批处理管理功能。

当集群暂时饱和时,Kueue 不会立即使资源请求失败,而是智能地保存和管理等待列表。此功能是保持公平性和效率的关键,因此请求不会被任意拒绝,并有助于防止资源垄断。

使用 KEDA 实现高效自动扩展

Kueue 和 KEDA(Kubernetes 事件驱动型自动扩展)协同工作,通过自动扩展和缩减来优化资源使用。

自动扩展:KEDA 会监控 Kueue 的指标,特别是 GPU 作业队列的长度。通过观察积压情况,KEDA 可以主动启动新 GPU 节点的扩展。这意味着在当前容量超出需求之前置备新资源,从而实现高可用性并提高成本效益。这种集成将 Kueue 的队列转变为至关重要的扩展信号,从而实现主动、按需驱动的资源管理。

自动缩减:KEDA 通过从空闲工作负载中声明配额来促进配额的自动释放。当工作负载(如 RayCluster)完成其任务但未被删除时,自定义指标(通过 Prometheus 或类似工具公开)会报告其空闲状态。KEDA 监控此空闲指标,并通过 ScaledObject 触发自动缩放器,将空闲工作负载的工作程序组件缩减到零个副本。这可显着降低运维成本。

类似的方法也适用于推理集群,即使用 KEDA 在空闲期间将 KServe 组件缩减为零。缩减 worker 组件可释放底层节点资源。Kueue Workload 对象及其预留配额会保留下来,因此团队可以保留下一个作业的配额预留,而无需完整的重新排队过程,同时减少昂贵的闲置计算资源的浪费。

可观测性驱动的优化

持续监控对于提高 GPUaaS 的效率和最大化 ROI 至关重要。管理员必须持续跟踪 GPU 运行状况、温度和利用率。

借助 OpenShift AI 的内置 Prometheus/Grafana 堆栈,管理员可以创建自定义控制面板来跟踪 GPU 利用率,并按租户、项目和 GPU 进行细分。这些指标反馈到系统中,使管理员能够优化 GPU 配额,调整 Kueue 执行的公平共享策略,并确认 ROI 最大化。

结论 

OpenShift AI 上的 GPUaaS 可带来直接的业务优势。您可以通过动态 GPU 分配节省成本,通过 Kueue 的队列和配额强制执行多租户来改进治理,并通过为所有 AI 工作负载集成自动扩展来提高可扩展性。

红帽 OpenShift AI 提供企业级解决方案,可将通常未得到充分利用的昂贵 GPU 硬件转变为高效的多租户 GPUaaS 平台。浏览 OpenShift AI 页面,了解更多信息。 

资源

自适应企业:AI 就绪,从容应对颠覆性挑战

这本由红帽首席运营官兼首席战略官 Michael Ferris 撰写的电子书,介绍了当今 IT 领导者面临的 AI 变革和技术颠覆挑战。

关于作者

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来