从客户服务到尖端应用,大语言模型(LLM)正在重塑各行各业,释放出巨大的创新机遇。然而,这种潜力也伴随着挑战:高计算成本和复杂性。部署 LLM 通常需要昂贵的硬件和复杂的管理,这使得许多企业组织无法获得高效、可扩展的解决方案。但是,如果您能在不花太多钱的情况下利用 LLM 的强大功能,会怎么样?模型压缩与 vLLM 的高效推理功能强强联合,造就一种颠覆性的解决方案,有助于各种规模的企业降低成本并加快部署速度。

对速度(和效率)的需求

大规模运行 LLM 并非易事。这些模型需要功能强大但价格昂贵的硬件,导致基础架构支出攀升并带来运维难题。随着聊天机器人或多模型工作流等实时应用的兴起,这种压力进一步加剧,对响应速度和负担能力提出了更高的要求。借助优化技术,不仅能降低成本,还可以节省工程时间、缩短开发周期,让团队专注于战略优先事项,而不是硬件问题。

LLM 压缩:实现高效推理的关键

模型压缩技术直面这些挑战,在不影响推理性能的前提下,有效降低了 LLM 的资源需求。两项出色的技术引领变革:

  • 量化:将高精度权重转换为低位格式(如 FP8、INT8、INT4 等),从而大幅降低内存和计算需求。Neural Magic 对量化 LLM 进行了 500,000 次评估,结果显示推理速度平均提升了 2-4 倍,而准确率仅下降了 0.5-1%(恢复率超 99%)。
  • 稀疏化:该技术可修剪冗余参数,使模型更精简、速度更快。连接更少,意味着存储和处理需求更少,从而简化部署并降低成本。

为了推动这一愿景的实现,红帽近期收购了 LLM 压缩领域的领导者 Neural Magic,进一步强化了其在任何硬件上实现快速、高效推理的承诺。在过去的一年里,Neural Magic 利用先进的量化技术对 Granite、Llama、Mistral、Qwen 等热门模型进行了优化。这些可直接进行推理的开源模型可在 Hugging Face 上获取

通过 LLM Compressor 提供多模态模型量化支持

对于实际优化需求,开源 LLM Compressor 库提供:

  • 一组丰富的权重和激活量化算法
  • 与 Hugging Face 模型和存储库的集成
  • 支持安全张量,这是一种用于安全存储张量的简单格式,可与 vLLM 兼容
  • 通过 Accelerate 处理大型模型
  • 支持经过验证的算法,如 GPTQSmoothQuantSparseGPT

vLLM:简化不同硬件的推理过程

压缩是成功的一半,另一半需要高性能推理引擎的支持。vLLM 应运而生,这是一个从零开始构建的开源库,旨在提供更快、更灵活的 LLM 服务。vLLM 诞生于加州大学伯克利分校,在 GitHub 上已获得近 40,000 颗星,深受学术界和工业界的青睐。它不仅追求速度,更致力于让 LLM 部署变得切实可行、可扩展且触手可及。vLLM 的独特优势如下:

  • 高性能:vLLM 借助 PagedAttention(通过动态管理键值缓存来优化大型模型的内存)等技术,提供比 Hugging Face Transformers 等传统框架更高的吞吐量,并且延迟开销接近于零。这意味着从聊天机器人到实时分析,您的应用能够快速响应并更轻松地实现扩展。点击此处此处查看最近的 vLLM 基准测试。
  • 广泛的硬件兼容性:从 NVIDIA 和 AMD GPU 到 Google TPU、Intel Gaudi、AWS Neuron 甚至 CPU,vLLM 都能适应您的设置。它针对各种加速器进行了优化,让您能够利用现有基础架构或选择经济高效的方案,而无需重新配置工具。点击此处查看各种量化方法支持的硬件。
  • 动态批处理和可扩展性:vLLM 的高级请求处理功能可动态批处理传入的查询,最大限度地利用资源,而无需手动调优。对于客户支持机器人或多用户 AI 平台这类需求波动难以预测的高流量场景,这点尤为重要。
  • 简化部署:vLLM 通过与 OpenAI 的 API 格式兼容的内置服务端点,简化了 LLM 管理。只需发布一条命令(vllmserve [your model here])即可实现部署模型,从而减少运维开销,让您的团队能够专注于创新,而不是基础架构。这是获取生产就绪型解决方案的捷径。
  • 专家级可定制性:除了简单易用外,vLLM 还为高级用户提供了 hook,如自定义分词器、模型分片和微调优化标志等,这使其成为助力工程师突破 LLM 应用边界的灵活工具。
  • 开源且由社区驱动:在 Linux 基金会和蓬勃发展的社区的支持下,vLLM 提供透明度、快速功能更新和丰富的支持。行业领导者和研究人员不断做出贡献,这有助于 vLLM 保持领先地位,而丰富的文档则有效缩短了学习曲线。

vLLM 与压缩模型搭配使用,创造了一个速度更快、更经济实惠且更易于管理的端到端管道。无论您是部署单个聊天机器人,还是为庞大的 AI 生态系统赋能,vLLM 都可以根据您的目标进行扩展,在提供高性能的同时降低复杂性。

核心结论:采用优化与 vLLM 的组合方案

LLM 有可能带来竞争优势,尤其是当您能够掌控其成本和复杂性时。借助优化和 vLLM,您能够实现该目标,将潜力转化为利润和运维效率。您有望降低运维成本(如节省 40-50% 的 GPU 资源),通过简化部署缩短上市时间,并通过实时响应提高客户满意度。无论您是要扩大初创公司的规模,还是领导一家企业,这套组合方案都能让您更智能、更经济地部署 AI!

效果就是最好的证明。一家热门游戏公司采用 Neural Magic 的 INT8 量化 Llama 70B 和 vLLM,为每日数十万次代码生成任务提供支持,以每个词元 50 毫秒的响应速度实现每秒 10 次查询。通过将 GPU 使用量减半,该公司在不影响性能的情况下将基础架构成本削减了 50%。 

立即开始使用

准备好利用经过优化的 LLM 和 vLLM 的强大功能了吗?具体方法如下:

  1. 探索优化模型:点击此处深入了解 Hugging Face 上预先优化的 LLM,随时可进行即时部署。
  2. 优化您自己的模型:使用 LLM Compressor 来试验压缩技术,并根据您的需求定制模型。
  3. 试用 vLLM:运行示例推理,亲身体验它的速度和简便性。

对于生产就绪型解决方案,红帽专家可以为您提供指导。 联系我们,了解我们如何帮助您的企业高效、有效地利用 LLM。

资源

开启企业 AI 之旅:新手指南

此新手指南介绍了红帽 OpenShift AI 和红帽企业 Linux AI 如何加快您的 AI 采用之旅。

关于作者

Saša Zelenović is a Principal Product Marketing Manager at Red Hat, joining in 2025 through the Neural Magic acquisition where he led as Head of Marketing. With a passion for developer-focused marketing, Sasa drives efforts to help developers compress models for inference and deploy them with vLLM. He co-hosts the bi-weekly vLLM Office Hours, a go-to spot for insights and community around all things vLLM.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来