推动 AI 从实验阶段迈向生产阶段的开源引擎，以及为何推理至关重要

2025 年 10 月 10 日Brian Stevens4 分钟阅读

这篇博客文章改编自我近期与加州大学伯克利分校 Ion Stoica 的一次对话，具体内容收录于“Red Hat Research Quarterly”（《红帽研究季刊》）文章《从学术孤岛到初创公司：为何大学必须成为行业内 AI 发展浪潮中不可或缺的一部分》。点击此处阅读我们的完整对话。

在过去几年里，关于人工智能（AI）的讨论主要围绕大语言模型（LLM）以及相关海量训练工作展开。技术行业一直专注于探索阶段，但时代发展瞬息万变。

业内讨论的话题正从“我们如何构建模型？”转向“我们如何在生产环境中大规模运行模型？”

这种转变不仅是技术细节的更新，更是企业 AI 新的重心所在。当 AI 走出研究实验室，成为一项核心业务能力时，重点就落在了推理环节，即经过训练的模型在生成答案或采取行动前，它的“大脑”中触发神经突触的瞬间反应。在企业环境中，推理必须迅速、经济高效且完全可控。

应对推理挑战的开源解决方案

将 AI 从概念验证阶段推进至可靠的生产级服务，这在复杂性、成本和控制方面给 IT 领导者带来了巨大的挑战。

首先，运行这些模型（尤其是在企业所需的规模下）所需的硬件不仅价格昂贵，而且往往十分稀缺。其次，需求是不可预测的。您可能会遇到使用量激增后紧接着陷入长时间低活跃期的情况，而这种情况在数百个领域专用模型变体中会变得更加复杂。情况如此复杂多变，使得最大限度地提高资源利用率与保护这些关键投资变得极其困难。

我们见证了开源社区通过专注于 LLM 服务的性能与效率优化，积极应对这一挑战。vLLM 是引领这场变革的最成功项目之一，该项目由 Ion Stoica 领导，在加州大学伯克利分校的 Sky Computing 实验室中创建。正如 Ion 在我们的谈话中提到的，这种学术根源至关重要；它展现了大学研究如何直接解决现实世界中最紧迫的推理问题。vLLM 已迅速成为高性能 LLM 服务的事实标准，这是一个专为提高速度和效率而设计的引擎，可最大限度地提高吞吐量并尽可能减少延迟。

强化企业级社区创新

vLLM 等社区项目是创新的起点，但这些创新成果必须经过调整才能满足企业生产环境的严苛要求。这正是红帽作为值得信赖的 Linux 和 Kubernetes 专家彰显价值之时。

我们正在将 vLLM 的开创性工作与其他社区驱动的项目相结合，为生产性 AI 打造一个强化、受支持且可扩展的平台。这一演变过程中的一个关键组件是 llm-d，这是一个分布式推理框架，用于在集群及更大范围内管理 LLM。

通过集成 llm-d，我们从根本上改变了 LLM 在 Kubernetes 上原生运行的方式。这将容器编排久经验证的价值（控制、一致性和高效资源调度）延伸至 AI 迄今为止最具挑战性的阶段：大批量、需求多变的推理。

这种组合使企业组织能够：

充分发挥基础架构支出的价值：通过利用 Kubernetes 编排，我们实现了大型模型的分布式服务。这使得 IT 团队能够在多个工作负载和模型中充分利用昂贵且功能有限的硬件加速器，将基础架构视为弹性计算容量池，而不是孤立的硬件。
缩短响应时间：分布式推理能够以智能方式管理不可预测的需求，确保应用获得所需响应，避免延迟激增。
满怀信心地加速部署：我们提供一条值得信赖的途径，将前沿研究和社区创新成果转化为经过强化且受支持的软件。这有助于 AI 工程师缩短价值实现时间，并为平台团队提供必要的管理和治理控制措施。

至关重要的 AI 开源模式

Ion 和我一致认为，这条孕育出 vLLM 和 llm-d 的创新管道，始于学术研究，经开源社区改进，并最终实现企业级稳定部署与支持，正是定义未来十年 AI 采用的范式。

要使 AI 真正成为不可或缺的商业工具，它不能孤立地存在于专有实验室中，也不能仅停留在概念验证阶段。它必须易于访问、透明，并建立在允许持续协作改进的基础之上。红帽致力于确保开放混合云始终是实施这项创新的最佳平台，为企业提供所需的基础，使他们能够掌控自己的数据、主导发展方向，并自信地驾驭不断演进的 AI 格局。

关于作者

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio

按频道浏览

探索所有频道

推动 AI 从实验阶段迈向生产阶段的开源引擎，以及为何推理至关重要

应对推理挑战的开源解决方案

强化企业级社区创新

至关重要的 AI 开源模式

关于作者

Brian Stevens

更多此类内容

按频道浏览

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links