要在竞争中立于不败之地,就必须尽可能高效、快速地开发软件。新产品推向市场的速度越快、时间越早,您在客户面前的优势就越大。近年来,AI 编码已成为应对这些挑战的一种行之有效的方式,它能够处理繁琐的重复性任务,并更快地进行调试和测试。这样可以腾出宝贵的时间来开展更具影响力的开发工作。
然而,生成式 AI 赋能的编码迅速普及,一系列新的企业级挑战也随之而来。随着企业组织不断扩大 AI 工具的使用规模,他们面临着一些关键问题:如何确保长期成本效益?如何保护代码库内部及周边的知识产权和敏感数据?我们如何满足数据与监管合规性要求?
大多数企业组织都是从托管模型服务开启他们的 AI 之旅,这通常是一个很好的起点。但随着使用量增加,若依赖托管的第三方端点(按词元量计费),则可能会导致运营成本难以预测且居高不下。此外,您对整个堆栈的基础架构、安全防护和治理机制的控制力也会非常有限。这种缺乏控制力的情况给企业组织带来了诸多挑战,常常迫使他们为一些长期存在且合理的政策开特例。 NVIDIA 与红帽携手合作,通过红帽和 NVIDIA AI 工厂等平台帮助您克服这些挑战,让您能够在自己的混合云基础架构上运行高性能推理和调优,同时将安全防护、访问策略和 GPU 使用置于企业级管控范围之内。
模型即服务:按您的方式打造企业级 AI
红帽 AI 上的模型即服务(MaaS),正是用来应对这些挑战。
MaaS 是红帽 AI 中一项全面集成的功能,可从根本上改变企业管理 AI 的方式。借助此功能,您的集中式 IT 团队能够完全按照企业组织的要求,在自己的多租户基础架构上托管和管理自己的模型。然后,这些模型将通过受控的 API 令牌访问权限,提供给内部多个用例和团队使用。
这种拥有专属的私有托管模型服务的方法,为您提供了前所未有的治理和控制水平。管理员可以定义和设置用户层级,并为每个团队或项目规定具体的使用限制,这有助于确保每个内部使用者都能获得所需资源,同时防止不必要的过度使用,避免昂贵资源闲置。这简化了模型访问流程,优化了资源使用管理,并让中央 IT 团队能够监控各项指标、预测容量和计算需求,并以高度可控和可预测的方式实现内部计费。
立即通过我们全新的 AI 快速入门,启动您专属的 AI 代码助手
鉴于业界对实用、安全且成本可控的 AI 编码路径的需求,我们已在 AI 快速入门目录中新增了一项 AI 快速入门方案:“借助 NVIDIA 和 MaaS 加速企业软件开发”。此 AI 快速入门是一个开箱即用的部署方案,旨在通过简单且立即可用的解决方案,帮助您开始使用红帽 AI。
此 AI 快速入门提供了一条简单且可重复的路径,助您在红帽 AI 内利用 NVIDIA Nemotron 开源模型和 NVIDIA 加速计算的强大力量,部署自己的私有 AI 代码助手。
AI 快速入门包含哪些内容?
AI 快速入门提供了实现高性能、安全的 AI 代码助手所需的所有组件:
平台: 红帽 AI 以红帽 OpenShift 为基础,为您的所有模型和 AI 工作负载提供编排层。
推理:vLLM 和 llm-d 与 KServe 结合使用,提供大规模运行模型所需的分布式推理性能,以实现尽可能出色的性能和最佳的资源利用率。
大语言模型(LLM): AI 快速入门使用了领先的 LLM,包括 NVIDIA Nemotron 3 Nano 30B A3B 模型。这是一个量化至 FP8 精度的模型,专为高效推理、聊天和代理式 AI 应用而设计。
模型即服务: 完全集成到红帽 AI 信息面板中,提供一个 API 网关,用于使用情况跟踪、治理,并为跨团队的简单内部计费提供必要的数据。
红帽 OpenShift Dev Spaces: OpenShift Dev Spaces 为您的团队提供云原生 IDE 实例来进行开发和部署,这一切都在同一个集群内完成。
注意:OpenShift Dev Spaces 包含在 OpenShift 订阅中。
可观测性: 借助 OpenShift 中的 Prometheus Operator,您可以获取所需的推理指标和 GPU 遥测数据,以了解各个团队的模型使用情况和性能表现。
GPU 加速: 此 AI 快速入门在 NVIDIA AI 基础架构上运行,该基础架构通过 NVIDIA GPU Operator 启用,并由 NVIDIA 通过 NVIDIA AI Enterprise 订阅提供支持。此 Operator 启用 GPU,管理必要的驱动程序、NVIDIA 数据中心 GPU 管理器(DCGM)、容器工具包,以及用于对受支持的加速器进行分区的 MIG 功能。
关键优势
代码助手 AI 快速入门提供了三大主要业务优势:
1.可预测的成本和预算控制
通过运行自己的基础架构,您可以利用内置功能来实施使用率限制和配额,并详细监控资源消耗情况,从而实现全面掌控。这使预算跟踪变得简单,也让扩展成本更易于预测。
2.内置安全防护和合规性
对于治理要求严格的企业组织而言,安全性是不可妥协的。AI 快速入门为您提供了一个本地或私有云部署示例,可确保您的代码始终在您企业组织的管控边界之内。由于模型托管在您管理的基础架构上,您无需处理外部 API 调用或数据泄漏问题。
3.一流的开发人员体验
我们为您的开发人员提供了所需的高性能环境基础,以便他们更快、更高效地工作。该平台由 NVIDIA GPU 以及我们的 vLLM 和 llm-d 推理堆栈提供支持,可提供企业级的快速推理能力。这种高性能随后与 OpenShift Dev Spaces 环境深度集成,使您的开发人员能够在同一集群中协同工作,从而提高生产力。
立即开始
准备好将模型即服务和 NVIDIA 模型与您的 AI 编码结合使用了吗?
- 查看“借助 NVIDIA 和 MaaS 加速企业软件开发”AI 快速入门:
- 此 AI 快速入门链接到我们的 GitHub 存储库,其中包含完整的部署代码。
- 查看硬件和软件要求
- 如有任何关于使用 AI 快速入门的问题或需要指导,请通过 GitHub 问题与我们联系,或者联系红帽团队
其他资源
- 查看 AI 快速入门目录
- 进一步了解 NVIDIA Nemotron
- 探索红帽和 NVIDIA AI 工厂的优势
关于作者
Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.