图形处理单元(GPU)是生成式 AI 与预测性 AI 的核心要素。数据科学家、机器学习工程师及 AI 工程师均依靠 GPU 来开展 AI 模型的实验工作,以及对模型进行训练、调优和部署。然而,管理这些关键资源可能颇为复杂,而且往往会阻碍开发和创新。
基础架构的局限性不应成为企业组织发展的阻碍。您的团队需要专注于构建、优化和使用 AI 模型,而非管理复杂的 GPU 基础架构。因此,信息技术运维(ITOps)提供了按需访问 GPU 的服务(也称为 GPU 即服务),进而在实现快速 AI 开发和推理方面发挥至关重要的作用。
GPU 挑战:ITOps 面临的多维度难题
为 AI 工作负载搭建高效的 GPU 基础架构并非易事,ITOps 团队面临着多项重大挑战:
- GPU 资源稀缺与成本限制:由于供应短缺、云平台限制及内部资源竞争,获取 GPU 资源并非易事。此外,客户对底层加速器架构缺乏选择权和控制力,进一步加剧了这一问题。更何况,GPU 本身成本高昂,涵盖采购及运维开支,且常存在利用率不足的情况。
- GPU 资源获取受限催生影子 IT:如果数据科学家、机器学习工程师和 AI 工程师无法在需要时及时访问 GPU 资源,他们可能会转而采用“影子 IT”。例如,使用可能泄露企业敏感数据的第三方服务,或自行从不同云服务提供商采购 GPU 资源,这不仅会导致成本上升,还会加剧安全风险。最终,企业将失去对资源使用、数据安全及合规性的管控。
- GPU 基础架构分散化:GPU 资源往往分散在本地数据中心、多个公共云甚至边缘位置。这种异构环境涵盖不同类型的加速器(包括 GPU、AI 加速器)及架构,使管理变得复杂并阻碍了资源的有效分配,进而降低了效率并增加了成本。
- GPU 利用率“黑匣子”:企业组织通常难以跟踪整个企业的 GPU 使用情况,因此难以最大限度地提高投资回报率(ROI)并识别未充分利用的资源。在多租户环境下,制定公平的使用策略、准确分配资源以及合理归集成本都变得极具挑战性。
- 实现安全的 GPU 多租户模式:在多租户环境中加强数据安全性是一项复杂的工作,需要隔离租户的网络流量以防止未经授权的访问和数据泄露,保护敏感数据免遭未经授权的访问或窃取,并在遵守监管要求的同时保留合规证据。
红帽解决方案:以 GPU 即服务破解 GPU 困局
红帽提供了一套全面的策略来应对这些挑战。我们的方法侧重于整合和简化底层 GPU 基础架构。通过汇聚来自本地、云和边缘环境的加速器(包括不同类型、规格及位置的 GPU),企业组织可以通过一个统一的平台来简化 GPU 管理与编排。
红帽 AI 平台能够智能地将工作负载与最合适的 GPU 资源相匹配,同时依托高效的调度与部署机制来提升资源利用率,从而优化整体性能与效率。为了帮助企业组织保持可见性和控制力,我们还提供实时 GPU 监控功能,以帮助识别障碍并改进资源分配。后续的功能增强将实现对资源消耗与使用模式的追踪,助力优化成本。
该系统还支持安全高效的 GPU 多租户模式。它通过强大的网络安全防护和数据隔离来隔离租户环境。它还为每个租户实施精细的访问控制和资源配额,从而简化合规流程,并维护安全性和治理方面的审核跟踪。
交付 GPU 即服务的关键组件
红帽利用强大的开源技术来提供 GPU 即服务解决方案,主要部署于红帽 OpenShift 和红帽 OpenShift AI 平台。
Kueue 是一款适用于 Kubernetes 的开源智能工作负载调度程序,能够根据优先级对作业进行排序和抢占处理,确保关键工作负载在必要时通过抢占低优先级任务获得优先执行权。它可以管理配额,以便在团队之间公平分配资源并优化资源使用,以防止出现障碍并最大限度地提高效率。此外,Kueue 还负责作业分发、队列管理与调度。
GPU 分区技术通过将物理 GPU 划分为更小的虚拟 GPU 并动态分配资源,实现更高效的 GPU 共享。这有利于资源共享,允许多个用户共用一个物理 GPU,从而改善资源利用率并最大限度地提高 GPU 利用率。
红帽解决方案还运用了一系列开源技术,助力优化 AI 从训练、微调到推理的完整生命周期。对于训练和微调,该堆栈涵盖了 PyTorch、Ray、Kubeflow Trainingr 和 KubeRay 等技术。作业分发由 CodeFlare 负责,队列管理与调度则通过 Kueue 实现。
在推理方面,红帽 AI 使用 vLLM 实现大语言模型的高效内存服务,同时利用 KServe 提供更广泛的模型服务。该平台还兼容 PyTorch、Hugging Face TGI 和 ONNX 等框架。
此外,红帽 OpenShift AI 还具备强大的加速器和 GPU 管理功能。这包括工作台闲置资源清理功能,以及配置可用 GPU 分片的能力,有助于优化资源分配。该平台还提供开箱即用的镜像,其中包含支持加速器所需的必要库文件。它还提供可观测性工具,用于监控单个用户工作负载状态、集群范围的工作负载状态、队列以及 GPU 使用情况。
红帽:您的 AI 创新合作伙伴
红帽作为全球领先的企业开源软件解决方案提供商,可以帮助您搭建 GPU 即服务系统。通过为 AI 工作负载按需提供 GPU 资源,并高度注重安全防护与隐私保护,红帽可以助力您的数据科学家、机器学习工程师及 AI 工程师专注于 AI 领域本身,而非基础架构。
如需进一步了解我们的 AI 解决方案,请访问红帽 AI 网页并立即联系红帽。
关于作者
My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.