图形处理单元(GPU)是生成式 AI 与预测性 AI 的核心要素。数据科学家、机器学习工程师及 AI 工程师均依靠 GPU 来开展 AI 模型的实验工作,以及对模型进行训练、调优和部署。然而,管理这些关键资源可能颇为复杂,而且往往会阻碍开发和创新。

基础架构的局限性不应成为企业组织发展的阻碍。您的团队需要专注于构建、优化和使用 AI 模型,而非管理复杂的 GPU 基础架构。因此,信息技术运维(ITOps)提供了按需访问 GPU 的服务(也称为 GPU 即服务),进而在实现快速 AI 开发和推理方面发挥至关重要的作用。

GPU 挑战:ITOps 面临的多维度难题

为 AI 工作负载搭建高效的 GPU 基础架构并非易事,ITOps 团队面临着多项重大挑战:

  • GPU 资源稀缺与成本限制:由于供应短缺、云平台限制及内部资源竞争,获取 GPU 资源并非易事。此外,客户对底层加速器架构缺乏选择权和控制力,进一步加剧了这一问题。更何况,GPU 本身成本高昂,涵盖采购及运维开支,且常存在利用率不足的情况。
  • GPU 资源获取受限催生影子 IT:如果数据科学家、机器学习工程师和 AI 工程师无法在需要时及时访问 GPU 资源,他们可能会转而采用“影子 IT”。例如,使用可能泄露企业敏感数据的第三方服务,或自行从不同云服务提供商采购 GPU 资源,这不仅会导致成本上升,还会加剧安全风险。最终,企业将失去对资源使用、数据安全及合规性的管控。
  • GPU 基础架构分散化:GPU 资源往往分散在本地数据中心、多个公共云甚至边缘位置。这种异构环境涵盖不同类型的加速器(包括 GPU、AI 加速器)及架构,使管理变得复杂并阻碍了资源的有效分配,进而降低了效率并增加了成本。
  • GPU 利用率“黑匣子”:企业组织通常难以跟踪整个企业的 GPU 使用情况,因此难以最大限度地提高投资回报率(ROI)并识别未充分利用的资源。在多租户环境下,制定公平的使用策略、准确分配资源以及合理归集成本都变得极具挑战性。
  • 实现安全的 GPU 多租户模式:在多租户环境中加强数据安全性是一项复杂的工作,需要隔离租户的网络流量以防止未经授权的访问和数据泄露,保护敏感数据免遭未经授权的访问或窃取,并在遵守监管要求的同时保留合规证据。

红帽解决方案:以 GPU 即服务破解 GPU 困局

红帽提供了一套全面的策略来应对这些挑战。我们的方法侧重于整合和简化底层 GPU 基础架构。通过汇聚来自本地、云和边缘环境的加速器(包括不同类型、规格及位置的 GPU),企业组织可以通过一个统一的平台来简化 GPU 管理与编排。

红帽 AI 平台能够智能地将工作负载与最合适的 GPU 资源相匹配,同时依托高效的调度与部署机制来提升资源利用率,从而优化整体性能与效率。为了帮助企业组织保持可见性和控制力,我们还提供实时 GPU 监控功能,以帮助识别障碍并改进资源分配。后续的功能增强将实现对资源消耗与使用模式的追踪,助力优化成本。

该系统还支持安全高效的 GPU 多租户模式。它通过强大的网络安全防护和数据隔离来隔离租户环境。它还为每个租户实施精细的访问控制和资源配额,从而简化合规流程,并维护安全性和治理方面的审核跟踪。

交付 GPU 即服务的关键组件

红帽利用强大的开源技术来提供 GPU 即服务解决方案,主要部署于红帽 OpenShift 和红帽 OpenShift AI 平台。

Kueue 是一款适用于 Kubernetes 的开源智能工作负载调度程序,能够根据优先级对作业进行排序和抢占处理,确保关键工作负载在必要时通过抢占低优先级任务获得优先执行权。它可以管理配额,以便在团队之间公平分配资源并优化资源使用,以防止出现障碍并最大限度地提高效率。此外,Kueue 还负责作业分发、队列管理与调度。

GPU 分区技术通过将物理 GPU 划分为更小的虚拟 GPU 并动态分配资源,实现更高效的 GPU 共享。这有利于资源共享,允许多个用户共用一个物理 GPU,从而改善资源利用率并最大限度地提高 GPU 利用率。 

红帽解决方案还运用了一系列开源技术,助力优化 AI 从训练、微调到推理的完整生命周期。对于训练和微调,该堆栈涵盖了 PyTorch、Ray、Kubeflow Trainingr 和 KubeRay 等技术。作业分发由 CodeFlare 负责,队列管理与调度则通过 Kueue 实现。

在推理方面,红帽 AI 使用 vLLM 实现大语言模型的高效内存服务,同时利用 KServe 提供更广泛的模型服务。该平台还兼容 PyTorch、Hugging Face TGI 和 ONNX 等框架。

此外,红帽 OpenShift AI 还具备强大的加速器和 GPU 管理功能。这包括工作台闲置资源清理功能,以及配置可用 GPU 分片的能力,有助于优化资源分配。该平台还提供开箱即用的镜像,其中包含支持加速器所需的必要库文件。它还提供可观测性工具,用于监控单个用户工作负载状态、集群范围的工作负载状态、队列以及 GPU 使用情况。

红帽:您的 AI 创新合作伙伴

红帽作为全球领先的企业开源软件解决方案提供商,可以帮助您搭建 GPU 即服务系统。通过为 AI 工作负载按需提供 GPU 资源,并高度注重安全防护与隐私保护,红帽可以助力您的数据科学家、机器学习工程师及 AI 工程师专注于 AI 领域本身,而非基础架构。

如需进一步了解我们的 AI 解决方案,请访问红帽 AI 网页并立即联系红帽。


关于作者

My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来