订阅内容

随着生成式人工智能(GenAI)日益成为公众瞩目的焦点,一个愈发显著的趋势是,创新步伐正以前所未有的速度加快。创新不仅体现在对 GenAI 模型本身的开创性改进上,也展现于将 GenAI 运用到企业环境的支持性技术。检索增强生成(RAG) 已取代了微调技术,成为将大语言模型(LLM)与企业数据高效融合的首选方法。

随着 GenAI 技术的日新月异,许多企业认为必须冒险投入,选择超大规模云服务商等 AI 平台供应商,全力构建自己的主要 AI 云平台,以在 GenAI 的新领域中开拓前行。其中许多企业正致力于寻找一致且灵活的底层 AI 基础来支持 GenAI 和预测性 AI,以提供用于构建和增强模型的核心功能,同时在 AI 应用中为模型提供服务,并确保对模型进行有效管理和监控。借助这种方法,企业可以采用足够灵活的 AI 平台,在本地、不同的云平台或 边缘运行,降低供应商锁定的风险。这样,企业就能随着 GenAI 演进而灵活调整并适应变化。 

在 红帽 OpenShift AI 作为全托管云服务正式推出之前,早期测试版的客户已经对本地版本展现出了浓厚的兴趣。如今,超过 80% 的红帽 OpenShift AI 客户选择在本地场景中采用自助式版本。 红帽 OpenShift 是一款领先的应用平台,支持在本地、所有主流公共云乃至边缘环境运行。红帽 OpenShift AI 作为附加组件,包含了红帽 OpenShift 的许多底层功能。通过将 AI 视为应用环境的延伸,用户能够有效提升开发人员和数据科学家等人员的工作效率。 

红帽 OpenShift AI 功能概要

下面来概括一下红帽 OpenShift AI 作为同时兼容 GenAI 和预测性 AI 的一站式平台所具备的一些功能。

模型训练——项目

红帽 OpenShift AI 提供多个工作台镜像,还可通过管理员用户界面来添加自定义镜像。借助项目用户界面(UI),用户可以整理特定项目所需的模型开发文件、数据连接和其他工件。用户可以从现成可用或自定义的工作台镜像中创建模型开发文件,通过这些镜像可以访问诸如 Jupyter Notebook、PyTorch 和 RStudio 等热门的库、软件包和工具。项目可基于特定权限进行共享,确保团队成员能够高效协作。项目还允许用户配置集群存储来保存项目数据,并为数据科学家、开发人员和其他对 AI 生命周期做出贡献的用户提供管道、模型服务和监控等功能的访问权限。

模型训练——分布式工作负载

分布式模型训练是一种同时利用多个集群节点来提升模型训练速度和效率的方法。这种方法不仅适用于预测性 AI 训练,同样能支持 GenAI 训练与调优用例,从而让原本因算力限制而无法实现的任务变得可行。

红帽 OpenShift AI 中内置了分布式工作负载堆栈,涵盖从训练与验证、调优到推理的各项技术。CodeFlare 为训练堆栈提供了直观易用的框架,旨在简化作业编排与监控。它集成了多项技术,例如适用于分布式工作负载的 Ray,以及用于作业调度与排队的 Kueue。

分布式工作负载功能提供无缝集成,能借助高级加速器支持来优化节点利用率。作业可以进行优先级排序和分发,交互式和批处理方式皆可。分布式工作负载亦可从数据科学管道内部使用,以利用增强的算力。

GPU 和加速器

红帽 OpenShift AI 最有价值的特性之一是支持自助式的 GPU 访问。无论是本地还是云端,ITOps 人员都可以轻松预定义 GPU 资源环境,从而为数据科学家和应用开发人员提供便利,使他们能够轻松地根据项目任务选择合适的配置。该产品兼容一系列加速器,例如 NVIDIA GPU、Intel Habana Gaudi 设备和 AMD GPU 等。通过加速器配置集功能,管理员能够灵活配置最适合特定工作负载的加速器类型。用户能够从模型开发和服务用户界面,选择红帽 OpenShift AI 中提供的加速器。

数据科学管道

数据科学管道组件是一款为机器学习训练量身定制的管道工具,它基于 KubeFlow 管道,使数据科学家能够自动化完成在开发和生产环境中交付和测试模型的步骤。用户可以使用示例管道来收集和处理数据,训练模型,下载现有模型,与新模型进行比较,并在新模型表现更优时则将其推送到 DevTest。管道可以像其他 AI 项目工件一样进行版本控制、跟踪和管理。此外,还提供一个可视化编辑器,可通过拖放式界面来创建和自动化这些管道。数据科学管道还可运行分布式工作负载。

模型服务

模型服务 UI 直接集成到红帽 OpenShift AI 仪表板和项目 UI 中,为来自 Hugging Face、ONNX、PyTorch 和 TensorFlow 等提供商和框架的模型提供服务。用户可以选择基于 KServe 或 ModelMesh 的模型服务平台,从红帽 OpenShift AI 提供的各种模型服务器和运行时中挑选,或者集成自己的自定义推理引擎或运行时,如 NVIDIA Triton。集群资源(如 CPU 和 GPU)可以根据工作负载的需求进行扩展。增强的模型服务堆栈利用了 KServe、Caikit、vLLM 和 TGIS 等开源技术来助力模型服务。

模型监控

模型监控 UI 仪表板可帮助运维用户监控模型服务器和已部署模型的运维和性能指标。模型监控可视化涵盖了多项关键指标,如成功与失败的推理请求数量、平均推理响应时间,以及特定计算资源利用率等。用户可以根据这些数据来采取相应的措施,比如在推理请求量或平均响应时间随时间推移而增长时,及时添加计算资源。

技术合作伙伴集成

除了已在红帽 OpenShift AI 产品中与 Starburst、Anaconda、Pachyderm、NVIDIA 及英特尔等供应商实现直接集成外,红帽还积极与 AMDElasticRun:aiStability AI 等更多供应商携手合作,为各种 GenAI 用例提供更多的集成支持。

在硬件平台方面,红帽已宣布在红帽 OpenShift AI 上优化支持和集成 Intel® Enterprise AI 和 NVIDIA NIM 微服务。戴尔推出了对 Dell APEX Cloud Platform for Red Hat OpenShift 的增强更新,以利用红帽 OpenShift AI 来解决 AI 用例。此外,思科还为红帽 OpenShift AI 上的 MLOps 创建了 Cisco Validated Design。

红帽 OpenShift AI 是 IBM watsonx.ai 中的一个基础组件,为 GenAI 工作负载提供基础 AI 工具和服务。watsonx.ai 为 AI 构建者带来了一个用于交付 GenAI 应用的企业级工作室,不仅很少需要甚至无需编写代码,还能利用易于使用的模型开发工作流,并可访问含有 IBM 基础模型及精选开源模型的资源库。红帽 OpenShift 和红帽 OpenShift AI 是 watsonx.ai 软件的嵌入式技术基础。

非联网环境

出于安全性和监管合规性方面的考虑,许多红帽 OpenShift AI 客户需要非联网部署。从政府机构到金融服务,从医疗到制造业,许多企业或机构都需要支持隔离式安装。非联网集群通常位于受防火墙保护的受限网络上。这使得部署更具挑战性,需要能够支持私有镜像仓库来存储和获取镜像。

边缘

AI 平台面临的最大考验之一是能否支持边缘环境。部署于边缘的红帽 OpenShift AI 模型服务可以安全、一致且大规模地将 AI 模型的部署扩展到远程位置。 边缘模型服务有助于简化将模型部署到边缘的过程,提升跨环境的一致性,并为边缘推理过程提供安全保障。此功能仅适用于单节点红帽 OpenShift。

在自己的集群中试用红帽 OpenShift AI( 点击此处),详细了解我们关于 GenAI 和预测性 AI 的模式、演示和诀窍( 点击此处),进一步探索如何为 GenAI 构建运维基础( 点击此处) 。


关于作者

Jeff DeMoss is a Senior Manager of Product Management for Red Hat OpenShift AI, a platform for developing, training, serving, and monitoring AI/ML models. Jeff was previously a product leader at SAS Institute for a suite of Software-as-a-Service (SaaS) applications used by organizations to apply analytics capabilities to optimize their marketing activities.

Read full bio

Will McGrath is a senior principal product marketing manager for Red Hat’s AI/ML cloud service, database access service, and other cloud data services on Red Hat OpenShift. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

Read full bio
UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Original series icon

原创节目

关于企业技术领域的创客和领导者们有趣的故事