[2] Eldar Kurtić 等。“We ran over half a million evaluations on quantized LLMs—here's what we found”（我们对量化 LLM 进行了超过五十万次评估——以下是我们的发现），红帽开发人员博客，2024 年 10 月 17 日。

[3] Carlos Condado。 “提高 AI 推理性能的战略方法”，红帽博客，2025 年 9 月 15 日。

[4] Saša Zelenović。“释放 LLM 的全部潜力：利用 vLLM 优化性能”，红帽博客，2025 年 2 月 27 日。

[5] Eldar Kurtić 等。“2:4 Sparse Llama:Smaller models for efficient GPU inference”（2:4 稀疏化 Llama：实现高效 GPU 推理的更小模型），红帽开发人员博客，2025 年 2 月 28 日。

[6] Alexandre Marques 等。“Fly Eagle(3) fly:Faster inference with vLLM & speculative decoding”（Eagle-3 助力性能跃升：借助 vLLM 与推测解码技术加速推理），红帽开发人员博客，2025 年 7 月 1 日。

[7] Woosuk Kwon 等。“vLLM:Easy, Fast, and Cheap LLM Serving with PagedAttention”（vLLM：基于 PagedAttention 实现简单、快速且低成本的 LLM 服务），vLLM 博客，2023 年 6 月 20 日。

[8] Michael Goin。“[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025”（[vLLM Office Hours 第 38 期] vLLM 2025 年回顾与 2026 年路线图——2025 年 12 月 18 日），YouTube，2025 年 12 月 8 日。

[9] Woosuk Kwon。“Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale”（如今，vLLM 支持超过 500 种模型架构，可在超过 200 种加速器上运行，并为全球范围内的大规模推理提供动力），X，2026 年 1 月 26 日。

[10] Michael Goin。“Distributed inference with vLLM”（利用 vLLM 实现分布式推理），红帽开发人员，2025 年 2 月 6 日。

[11] Robert Shaw。“llm-d:Kubernetes-native distributed inferencing”（llm-d：Kubernetes 原生分布式推理），红帽开发人员，2025 年 5 月 20 日。

为什么要关注 AI 推理

为何推理至关重要？

什么是阻碍扩展的元凶？

66%

那么，该如何优化推理呢？

99% 以上

两倍

50%

vLLM 是如何优化推理的？

50%

2.1 倍

24 倍

为什么 vLLM 如此受欢迎？

超过 10,000 次

如今的 vLLM 社区

超过 50 万

超过 200

超过 500

超过 2,200

分布式推理如何发挥作用？

3.9 倍

是否有相应的开源社区？

两倍

更多 AI 资源

红帽 AI 专家解读推理

利用红帽 AI 构建代理式 AI 系统

解锁更智能的 AI：推理时扩展

利用 vLLM 构建更高效的 AI

什么是生成式 AI？

如何在企业层面扩展 AI

为什么压缩模型能降低推理成本

探索红帽 AI 推理服务器

Kubernetes 原生分布式推理

Ollama 与 vLLM

基于 llm-d 构建 vLLM

AI 代理的平台工程

利用 OpenShift AI 实现 vLLM 自动扩展

构建生产就绪型 AI 工具箱

爱尔兰推进高效 AI 落地的下一步行动

利用 AI 驱动医疗卫生领域的创新突破

红帽 AI 推理服务器

让您的 LLM 更快地从代码阶段迈向生产阶段。

引用来源

平台

工具

试用购买与出售

联系我们

关于红帽

切换页面语言

Red Hat legal and privacy links

Red Hat legal and privacy links