训练大语言模型(LLM)是一项重大任务,但 AI 推理带来的成本挑战其实更为普遍,并且常被忽视。推理是指经过训练的 AI 模型处理新输入数据并生成输出的过程。随着企业组织将这些模型部署到生产环境中,成本可能会迅速攀升,尤其是在令牌使用量大、提示时间长和使用需求不断增长的情况下。若要以经济高效且高性能的方式运行 LLM,制定并实施全面的策略至关重要。
这种方法主要针对两个关键领域:优化推理运行时和优化模型本身。
优化推理运行时
基本服务方法常常会遇到 GPU 内存使用效率低下、批处理能力欠佳和令牌生成速度缓慢等问题。在这种情况下,高性能的推理运行时就变得至关重要。vLLM 作为事实上的开源库,可帮助 LLM 更高效地大规模执行计算。
vLLM 采用先进技术来解决这些运行时挑战,包括:
- 连续批处理:vLLM 不是逐个处理请求,而是将多个序列中的令牌分组为各批次。这可以最大限度地减少 GPU 空闲时间,显著提高 GPU 利用率和推理吞吐量。
- PagedAttention:这种内存管理策略可以高效处理大型键值(KV)缓存。通过动态分配和管理 GPU 内存页面,PagedAttention 大幅增加了并发请求的数量,并支持更长的序列,而不会出现内存瓶颈。
优化 AI 模型
除了优化运行时外,企业组织还可以压缩模型,以减少其内存占用量和计算要求。通常采用量化和稀疏化这两种主要技术来进行压缩。
- 量化:这种技术通过减少每个值所用的比特数来降低模型的数值,特别是其权重和激活值。此过程可显著减少存储模型参数所需的内存。例如,一个包含 700 亿个参数的 Llama 模型可以从大约 140 GB 缩减到 40 GB。这意味着模型运行所需的资源更少,并且可以在不大幅降低准确性的情况下实现计算吞吐量翻倍。
- 稀疏化:稀疏化通过将模型的部分参数设置为零来减少计算需求,使系统能够绕过不必要的运算。这可以大幅降低模型复杂性,减少内存使用量和计算负载,从而加快推理速度并降低运维成本。
红帽 AI:将策略付诸实践
为帮助企业组织实施这一战略方法,红帽 AI 产品组合提供了一套统一的解决方案,可大规模实现高性能推理。
红帽 AI 通过其强大的工具和资产集,同时解决了模型优化和运行时优化问题:
- 红帽 AI 推理服务器:红帽提供受支持的企业就绪型 vLLM 引擎,该引擎采用连续批处理和高内存利用率方法。通过提高吞吐量并减少 GPU 使用量,该运行时可帮助企业组织最大限度地提高其昂贵 AI 硬件的投资回报。
- 可访问经过验证和优化的模型:红帽 AI 提供对模型存储库的访问权限,其中的模型已经过预先评估和性能测试,随时可用。这些模型针对多项评估任务进行了严格的基准测试,可在红帽 AI Hugging Face 存储库中找到,使企业组织能够快速实现价值。
- 随附 LLM Compressor:红帽 LLM 工具包提供了一种标准化方法来应用量化等压缩技术。红帽使用该工具包来提供经过优化的模型,使客户能够对自行微调或定制的模型进行优化。
通过利用红帽 AI,企业组织可以在各种硬件设置上部署高性能且经济高效的模型,帮助团队满足不断增长的 AI 需求,同时有效控制成本和复杂性。
如需详细了解推理性能工程和模型优化的基础知识,请下载免费电子书《AI 推理入门》。
关于作者
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.