面向私有云和混合云的生产级 AI 解决方案

开发、训练和部署 AI 模型和应用

红帽® OpenShift® AI 是一个可让您跨私有云和混合云环境大规模开发、训练和部署 AI 模型和应用的 MLOps 平台。OpenShift AI 为企业组织提供高效部署方案,可集成各类主流开源工具和第三方工具,一站式支持生成式人工智能(生成式 AI)、预测性 AI 及机器学习(AI/ML)建模工作。采用者可获得一套协作式开源工具集与平台,用于构建实验性模型,并以容器化就绪格式在公共云、私有云、本地及边缘环境中,一致地将模型部署至生产环境。 

作为红帽 AI 的核心组件,OpenShift AI 为 IT 运维和平台工程师提供了一套易于管理、可扩展且聚焦安全的运行环境。面向数据科学家和 AI 工程师,它提供了一个全面、统一的平台,用于大规模开发和部署 AI 解决方案。

OpenShift AI 支持生成式 AI 基础模型,可让您基于私有数据完成模型微调和部署。工作负载可分布于多个红帽 OpenShift 集群上,不受集群所在位置的限制。该平台深度集成并构建于红帽 OpenShift 之上,既能简化 AI 硬件加速流程,又可支持基于中央处理单元(CPU)和图形处理单元(GPU)的硬件基础架构,包括 NVIDIA、AMD GPU 及 Intel XPU,且无论部署于本地、主权云还是公共云环境均适用。

表 1.红帽 OpenShift AI 的功能和优势

亮点

简化企业 AI 落地流程,提高 AI 采用率,并为各项 AI 举措提供灵活的实施空间。 

打造标准化用户体验,推动 AI 工程师、数据科学家、数据工程师及 DevOps 团队高效协作,实现跨团队 AI/ML 运维一致性。

支持在任意硬件和混合云环境中大规模构建、部署和管理 AI,兼顾灵活性与一致性,同时解决数据资源受限、隐私安全防护及成本管控难题。

功能

优势

模型开发和定制

提供集成 AI/ML 库和工作台的交互式 JupyterLab 界面;整合数据接入、合成数据生成、InstructLab 工具集及检索增强生成(RAG)技术,实现私有数据的高效对接。

模型训练和实验

整理开发文件及工件;支持分布式工作负载,以实现高效的训练和调优;内置实验跟踪功能,简化硬件资源分配流程。  

智能 GPU 和硬件加速 

 

支持自助式 GPU 访问;通过硬件配置文件提供智能 GPU 使用功能,涵盖工作负载调度、配额管理、优先性访问及使用情况可见性。

AI 管道

自动化完成模型交付和测试流程;对管道进行版本控制、跟踪和管理,从而减少用户错误,简化实验和生产工作流。 

优化型模型服务

通过虚拟大语言模型(vLLM)为来自不同提供商和框架的模型提供服务,并针对高吞吐量和低延迟进行优化;依托 llm-d 分布式推理框架,保障性能的可预测性和扩展性,实现资源高效管理;内置 LLM Compressor 工具,并提供经优化和验证的通用生成式 AI 模型。

代理式 AI 和生成式 AI 用户界面(UI)

利用核心平台服务加速代理式 AI 工作流;提供统一的应用编程接口(API)层(MCP 和 Llama Stack API)及专用信息面板体验(AI hub 和生成式 AI 工作室)。 

模型可观测性和治理 

搭载通用开源工具,实现模型生命周期管理、性能监测与运维管控;跟踪各项指标,包括性能、数据偏移和偏差检测以及 AI 防护栏或推理;内置 LLM 评估工具(LM Eval)和 LLM 基准测试工具(GuideLLM),以协助实际的推理部署。 

目录和注册表

集中管理预测性 AI 模型、生成式 AI 模型、MCP 服务器及其元数据和工件。 

特征存储 

提供一个 UI,用于管理 ML 模型所需的干净、定义明确的数据特征,提升模型性能,加速工作流。 

模型即服务

内置托管式 API 网关,支持 AI 工程师通过自助方式调用模型,并实现使用情况跟踪(该功能为开发人员预览版)。 

非联网环境和边缘环境

支持非联网集群和隔离集群,确保安全性和监管合规性。 

除 OpenShift AI 原生功能外,其集成的合作伙伴产品还包括:

  • Starburst:支持跨多源数据集的分布式数据访问。
  • HPE:提供数据沿袭和版本控制。
  • NVIDIA:实现 GPU 的性能管理。
  • AMD:赋能 GPU 加速。
  • Intel:基于 Intel 硬件提供高性能推理服务。
  • Elastic 和 EDB:为检索增强生成(RAG)应用提供向量数据库支持。 

后续步骤:

进一步了解红帽 OpenShift AI 并观看这份内容详实的视频演示