在这一点上,大语言模型(LLM)的变革潜力显而易见,但在生产中高效部署这些强大的模型可能具有挑战性。
这种挑战并不新鲜。在最近一集的《Technically Speaking》播客中,Chris Wright 采访了红帽首席软件工程师 Nick Hill。Nick Hill 曾参与将几年前最初的 IBM Watson “Jeopardy!”系统的商业化。Hill 指出,这些早期工作的重点是将 Watson 从一个充满服务器的房间优化到一台机器,确立了这种系统级的工程是将强大 AI 变为现实的关键。
Wright 和 Hill 还讨论了这一原则如何应用到现代 LLM 和 vLLM 开源项目中,该项目通过提高 AI 的实用性和规模化性能,彻底改变了 AI 推理。
什么是 vLLM?
vLLM 是一款推理服务器,可直接解决使用生成式 AI(gen AI)时所面临的效率和可扩展性挑战。通过最大限度地利用昂贵的 GPU 资源,vLLM 使强大的 AI 更容易获得和实用。
红帽作为重要的商业贡献者深入参与了 vLLM 项目。我们在红帽 AI 推理服务器中集成了 vLLM 的强化版、受支持的企业级版本。该产品可作为独立的容器化产品提供,也可作为更大的红帽 AI 产品组合的关键组件提供,包括红帽企业 Linux AI (RHEL AI) 和红帽 OpenShift AI。我们与 vLLM 社区的合作是我们更大的开源 AI 战略的关键组成部分。
为什么 vLLM 对于 LLM 推理很重要
LLM 推理是 AI 模型将其训练应用于新数据或查询的过程,并存在一些固有的瓶颈。由于顺序令牌生成和 GPU 利用率低,传统的推理方法可能效率低下,导致负载下的高延迟、无法扩展的不灵活架构以及内存带宽限制。
vLLM 提供了一种简化的方法。其主要目标是最大限度地提高 GPU 利用率和吞吐量,并通过一系列关键优化来实现这一目标。
- PagedAttention:这项核心创新利用类似于计算机虚拟内存的概念来高效管理键值 (KV) 缓存。KV 缓存是模型从一个令牌到下一个令牌需要记住的中间数据。
- 连续批处理:此技术允许推理服务器在已有批处理正在进行时高效处理新的传入请求,从而减少空闲时间并提高总体吞吐量。
- 其他关键优化:vLLM 还利用推测性解码等技术(使用更小、更快的模型来预测下一个令牌)和优化的 CUDA 内核,以最大限度地提高特定硬件上的性能。
vLLM 充当接口层,帮助管理总体数据流、批处理和调度,使 LLM 能够与各种硬件和应用集成。
企业级 AI 的战略优势
虽然 vLLM 在技术上很有趣,但它也为 IT 领导者提供了重要的战略优势。 vLLM 的优化可以帮助您管理成本,更有效地扩展,并保持对技术堆栈的更严格控制。
AI 大众化和成本优化
vLLM 可帮助您的企业充分利用现有硬件。通过显著提高 GPU 利用率,有助于减少运行工作负载所需的硬件数量,进而降低成本。这使得更多企业能够更轻松地实现高级 AI 功能。
从容扩展 AI 应用
提高的 GPU 利用率和更快的响应时间直接转化为支持更大的模型和应用部署。您的企业可以在不影响性能的情况下为更多用户服务并处理更复杂的 AI 工作负载。这有助于提供企业级可扩展性,这对于将 AI 项目从概念验证转移到生产环境至关重要。
硬件灵活性和更多选择
vLLM 的开源性质及其对 NVIDIA、AMD 和 Intel 等公司的各种硬件加速器的广泛支持,以及 Meta、Mistral 和 IBM 等提供商的领先模型,都是一项关键战略优势。这为您的企业在选择硬件解决方案时提供了更大的灵活性,并帮助您保持选择最适合您独特需求的加速器的能力,即使它们是动态的。
加速创新和社区影响
vLLM 活跃的开源社区价值巨大。该社区非常活跃且不断壮大,能够快速整合新的研究和进步。这种快节奏的开发和创新有助于将 vLLM 确立为 LLM 推理的标准,您的企业也可以从最新的创新中持续受益。
借助 vLLM 实现企业级 AI
红帽的愿景是让 AI 实用、透明并可跨混合云访问。 vLLM 是这一战略的基石,也是我们“任何模式、任何加速器、任何云”指导愿景中的关键因素。
红帽 AI 推理服务器
我们已将 vLLM 集成到红帽 AI 推理服务器中,这是一个经过强化、受支持的企业就绪型 vLLM 发行版。除了经过优化和验证的第三方模型存储库外,我们还提供 LLM Compressor 等工具,帮助您在混合云环境中实现更快、更具成本效益的部署。
正如红帽帮助统一零散的 Linux 环境一样,由 vLLM 提供支持的红帽 AI 推理服务器也为 AI 推理提供了类似的统一层。对于需要以一致且可靠的方式运行 AI 工作负载的企业,这有助于简化复杂的部署。
统一 AI 基础架构
红帽 AI 推理服务器作为独立的容器化产品提供。它也在红帽 AI 产品组合中发挥着不可或缺的作用:
- 核心组件包含在红帽企业 Linux AI(RHEL AI)中,为 LLM 开发、测试和部署提供了一个基础平台。
- 它是红帽 OpenShift AI 内的关键组件,后者是一个用于大规模管理 AI 模型整个生命周期的集成 MLOps 平台。
- 此外,我们包含优化模型的 Hugging Face 存储库 提供对经过验证的第三方模型的访问权限,这些模型已经过预先优化,可在 vLLM 上高效运行,如 Llama、Mistral、Qwen 和 Granite。
我们对开源社区的承诺始终如一。除了参与 vLLM 社区外,我们最近还启动了 llm-d project,这是一个集成了 vLLM 的 Kubernetes 原生高性能分布式 LLM 推理框架。这项新计划的参与者包括 Google 和 NVIDIA 等其他贡献者,旨在帮助大规模运行新一代 AI,并使大多数模型能够在各种硬件加速器上提供具有竞争力的性能。
红帽如何提供帮助
红帽 AI 可为模型训练和推理提供完整的企业级 AI 平台,从而提高效率、简化体验,并灵活地在混合云环境中的任何位置进行部署。我们的愿景是让 AI 变得实用、透明且易于使用,我们的产品组合旨在帮助您构建和运行适合您业务的 AI 解决方案,从最初的实验到全面的生产。
我们的混合云方法让您可以自由地以自己选择的方式实施 AI,无论您需要现代化改造现有应用还是构建新应用。我们还提供 AI 培训和认证,包括 免费的 AI 基础课程,帮助您的团队培养企业迫切需要的 AI 技能。
关于作者
The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.