企业 AI 正在从简单的聊天机器人向代理式 AI 转变。这些系统使用独立推理和多步骤规划来自主完成复杂任务。要想构建这些 AI 赋能应用,AI 工程师和代理开发人员需要通过作为高性能工作负载运行的可靠 API 端点,来即时访问模型。
自主代理本身就属于资源密集型系统。它们全天候大规模运行,为完成一项任务可能需要调用基础架构数十次,这既会产生持续负载,也会导致计算需求急剧增长。若缺乏专用的基础架构,系统性能会下降,成本会攀升,再加上企业组织敏感数据在安全和治理方面的需求,这些压力会成为投入生产环境的重大障碍。
红帽 AI 通过提供一个从裸机到代理的统一平台,简化了 AI 解决方案的部署,从而帮助应对这些挑战。通过为构建人员和运维人员提供一致的框架,红帽帮助企业组织从词元消费者转变为词元提供者。这一转变使企业组织能够扩展自主系统,同时保持将 AI 实验转变为生产就绪型资产所需的硬件效率和计算成本控制。
从静态服务到精准编排:降低推理成本
推理引擎是所有 AI 赋能应用的基础。为了构建有效的代理,开发人员需要低延迟和高吞吐量来支持思维链推理。红帽 AI 3.4 推出了相关工具,在提供这种性能的同时,保持经济可持续性。
- 面向企业的模型即服务(MaaS):在这个新版本中,MaaS 为平台工程师提供了一个用户界面 [正式发布版(GA)],支持面向基于角色的管理的自助服务词元密钥管理 [GA]、用量跟踪与成本分摊 [技术预览版(TP)],并能在采用自托管 [GA] 和基于云的模型 [TP] 时执行安全标准。
- 使用 llm-d 进行分布式推理:此版本使分布式推理更易于运维,规模化扩展时更具成本效益。通过用户界面(UI)部署模型的用户,现在可以发现其命名空间中可用的网关,并选择一个或多个进行部署,从而消除对单个集群范围默认网关的依赖 [TP]。内置的 YAML 编辑器让用户能够检查和编辑底层资源 [TP]。请求优先级 [TP] 使 llm-d 能够在同一端点上区分交互式流量和后台流量,优先处理对延迟敏感的请求,并在资源饱和时舍弃优先级较低的任务。自动扩展 [TP] 可根据活跃请求数、队列深度和 GPU 利用率自动调整副本数量。兼容 OpenAI 的批量推理 [开发人员预览版(DP)] 为文档分类或日志分析等高容量工作负载,新增了一条持久化、提交后即可不管的处理路径。
- 通过推测解码提高性能 [GA]:红帽 AI 平台集成了 vLLM 推理服务器,现已支持推测解码。通过使用高效的草稿模型来加速处理,这项技术可以在不牺牲质量的情况下,将响应速度提高 2-3 倍,从而直接降低每次交互的成本。
- 跨 GPU、CPU 和 NPU 的硬件灵活性:红帽 AI 3.4 通过新增对 AMD GPU 和 CPU 的支持,扩大了企业推理的加速器选择范围,包括支持 AMD Instinct MI355X GPU、提供 AMD Instinct MI350P PCIe 预览版支持,以及在 AMD EPYC 处理器上正式推出 vLLM CPU 服务。此版本还包括在英特尔至强处理器上正式发布的 vLLM CPU 服务,以及适用于 ATOM NPU 的经过认证的 Rebellions 容器。这为企业组织提供了更大的灵活性,可以将每个工作负载与正确的计算层相匹配:GPU 用于要求苛刻的推理工作负载,CPU 用于轻量级持续推理,NPU 用于节能、高吞吐量服务。这些功能相结合,有助于降低每次交互的成本、提高基础架构利用率,并在异构加速器环境中提供一致的红帽 AI 体验。
红帽 AI 推理为 vLLM 提供企业级支持,并提供对经过红帽验证和优化的模型的访问权限,现已在红帽 OpenShift 和第三方 Kubernetes 发行版(TP)上通过 llm-d 添加分布式推理功能。此初始版本支持在 CoreWeave 和 Azure 的托管 Kubernetes 服务上使用。企业组织现在可以跨环境运行相同的推理堆栈,而无需针对每个提供商重新设计架构。这意味着,无论底层硬件或云提供商如何变化,AI 运维都能保持一致,并使用同一高性能且开放的基础架构。
通过评估驱动的开发验证模型完整性
模型是否有效,取决于它依据的数据质量。红帽 AI 3.4 专注于评估驱动开发(EDD),用具体数据和基准测试替代主观测试,以验证模型和代理是否已完全准备好投入生产环境。
- 使用 MLflow 进行实验跟踪 [GA]:MLflow 集成作为核心支柱,可自动记录指标、参数和工件,从而确保可再现性,并轻松比较预测性和生成式工作负载的结果。这包括提示词管理,即将提示词视为受版本控制且受管控的企业资产。
- 自动化体验 [TP]:AutoRAG 和 AutoML 等工具可自动执行复杂的 AI 任务,以减少代价高昂的猜测和手动试错。AutoRAG 可以自动选择用于检索增强生成(RAG)的嵌入模型和分块策略,帮助团队更快地将原始数据转化为高性能管道。同样,AutoML 可以处理用于预测性分析的特征工程和模型选择,使开发人员能够专注于业务成果,而不是数据准备。
- 评估中心 [TP]:红帽 AI 3.4 推出了评估中心(eval hub),这是一个与框架无关的统一 AI 评估控制平面,用于评估大语言模型(LLM)、AI 应用和代理。它通过提供精选和自定义评估集合、含嵌入式 MLflow 的信息面板,以及命令行界面(CLI)和软件开发套件(SDK)访问权限,利用统一的 REST API 和 Kubernetes 控制器取代了分散的测试方法。通过利用开放容器计划(OCI)模型卡进行治理,并利用模型上下文协议(MCP)服务器进行代理可发现的评估,它为从业人员提供了一个集群原生环境,将可再现的基准测试从笔记本电脑扩展到生产管道。
降低代理式企业的风险:成熟度和可追溯性
自主代理需要高度的可见性、可追溯性以及受管控的工具访问权限,以确保它们始终在规定的运营边界内运行。红帽 AI 提供了 AgentOps 框架,确保这些系统可观测且受到保护。
- 受管控的提示词管理 [TP]:MLflow 集成还为生成式 AI 工作室试验平台中的新提示词管理功能提供支持,该试验平是一个集中式环境,开发人员可在此设计提示词原型、比较模型并检查安全性,而无需在多个工具之间切换。这使得开发人员能够将代理提示词作为受管控的资产进行版本控制、测试和优化。以代码形式管理提示词,这有助于企业组织缩短价值实现时间,同时保持一致性。
- 身份管理 [DP]:红帽 AI 采用 SPIFFE/SPIRE 来实现加密代理身份管理,用短效令牌取代硬编码密钥。这可实现零信任安全防护机制,并让代理在生产环境中遵循最小权限原则运行。
- 使用 Kagenti 进行生命周期管理 [DP]:针对需要管理不断变化的代理式资产的企业,该平台推出了生命周期管理工具 Kagenti。借助该工具,团队可以在不更改底层代码的情况下,部署、扩展和治理代理。Kagenti 支持在代理生命周期的各个阶段进行发现和接入,助力实现从开发环境到生产环境的平稳过渡。
- 通过 MLflow 实现代理可追溯性 [GA]:MLflow 提供端到端的代理可追溯性。系统会跟踪每次 LLM 调用、每次工具执行以及每个决策步骤,这是调试、审计和评估自主系统的基本要求。
- 企业 MCP 管理 [DP/TP]:红帽 AI 推出了一种平台级方法,用于管控基于 MCP 的工具访问。借助 MCP 目录 [DP],团队能够发现并部署来自红帽和技术合作伙伴的可信 MCP 服务器。MCP 生命周期 Operator [DP] 将它们作为 Kubernetes 原生工作负载进行管理。MCP 网关 [TP] 提供集中式身份验证、工具级访问控制和可观测性,因此代理只能访问授权工具。
扩展基础:安全性和可观测性
为了使 AI 具有可持续性,它必须在稳定、透明的基础之上运行。红帽 AI 3.4 是一个全面的运维中心,将 MLOps、GenAIOps 和 AgentOps 集成到一个平台中。
- 与提示词实验室和注册表集成的创作功能 [GA]:该平台提供用于构建和管理提示词的统一工具,因此驱动代理式行为的逻辑存储在中央注册表中,为开发人员和管理员提供单一事实来源。
- AI 安全防护和红队测试 [TP]:红帽 AI 3.4 将自动化对抗性扫描直接集成到开发生命周期中。该平台依托收购 Chatterbox Labs 所获得的技术,利用 Garak 来筛查模型和代理式系统,以防范越狱、提示词注入和偏见等风险。该功能提供高级风险分析,可在开发阶段而非运行时发现模型逻辑中的安全漏洞。通过尽早识别和缓解漏洞,团队可以评估其 AI 应用的完整性,从而更安全地过渡到生产部署阶段。
- 集中式指标和可观测性 [TP]:此版本提供了一个零配置的统一 Prometheus 实例,并具有原生基础信息面板。集群管理员可以从单一控制台监控硬件利用率和 MaaS 指标 [TP]。它还新增以下功能:直接在控制台 [DP] 中查看代理的分步执行跟踪信息、推理链、工具调用和 LLM 交互。该平台保留了将这些指标路由到现有第三方可观测性接收器的灵活性。
云市场上的红帽 AI
红帽 AI Enterprise 即将支持通过 AWS Marketplace、Microsoft Azure Marketplace 和 Google Cloud Marketplace 直接购买。这为企业组织提供了一条更快、更灵活的途径,使其能够在其首选云中部署 AI 基础架构。企业组织现在可以将现有的企业折扣计划(EDP)和承诺云支出用于红帽 AI 订阅,从而简化财务和采购流程。
这一可用性代表了现有红帽 AI 云选项的一次扩展。红帽已在三大主流市场推出了红帽企业 Linux AI,专为希望在红帽企业 Linux 镜像模式下运行 LLM 的企业组织提供支持。
IBM Cloud 上的红帽 AI 推理
结合 IBM Cloud,我们还宣布推出 IBM Cloud 上的红帽 AI 推理,这是一项完全托管的推理服务,可让客户运行生产级 AI 模型。该服务提供快速且经济高效的基础开源模型访问途径,并内置企业级访问控制、审计及用量治理等治理能力。当前模型目录中的示例包括 Granite 4.0 H Small(IBM)、Mistral-Small-3.2-24B-Instruct、Llama 3.3 70B Instruct 和 GPT-OSS-120B。
结语
红帽 AI 3.4 扩展了从实验性聊天机器人向全面实现的代理式企业转型所需的功能。通过集成分布式推理、自动化数据管道、与框架无关的 AgentOps 和主动式 AI 安全防护,红帽为混合云提供了全面的基础。此版本扩展了相关工具,用于构建在任何环境中都具有可预测性、注重安全性且在经济上可持续的自主系统。作为面向代理时代的综合平台,红帽 AI 可帮助企业组织扩大创新规模,同时保持对其 AI 资产的完全控制。
进一步了解红帽 AI,并探索如何针对您所处的环境构建 AI。 红帽 AI 3.4 预计将于本月晚些时候推出。
关于作者
Jennifer Vargas is a marketer — with previous experience in consulting and sales — who enjoys solving business and technical challenges that seem disconnected at first. In the last five years, she has been working in Red Hat as a product marketing manager supporting the launch of a new set of cloud services. Her areas of expertise are AI/ML, IoT, Integration and Mobile Solutions.
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
Younes Ben Brahim is a Principal Product Marketing Manager at Red Hat, focusing on the strategic positioning and market adoption of Red Hat's AI platform offerings. Younes has spent over 15 years in the IT industry leading product marketing initiatives, managing product lifecycles for HPC & AI, and delivering consulting services.
Prior to Red Hat, he has worked with companies like NetApp, Dimension Data, and Cisco Systems, providing technical solutions and product strategy for enterprise infrastructure and software projects.
Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.