什么是 AI 推理？

Published 2025 年 1 月 7 日•10 分钟阅读

AI 推理是指 AI 模型依据数据提供答案的过程。通常人们所说的“AI”，实际上指的是 AI 推理的成果：这是机器学习技术的漫长而复杂的演进过程中的最后一步，就像是人类的“顿悟”时刻。

使用充足的数据训练人工智能（AI）模型，有助于提高 AI 推理的准确性和速度。

举个例子，我们用关于动物的数据对一个 AI 模型进行训练，使其学习关于动物的方方面面，从不同动物之间的异同，到典型的健康状况和行为习惯等，而在这一过程中，模型还需要依赖庞大的数据集，才能建立这些联系并识别出其中的规律。

训练成功后，该模型就能够进行各种推理，比如识别狗的品种、辨别猫的叫声，甚至在马匹受惊时发出预警。尽管该模型的认知完全来源于抽象数据集，从未在真实环境中亲眼见过这些动物，但由于在训练时接触了大量数据，因此它能够在新的环境中实时进行推理。

我们人类的大脑也会进行类似的关联。我们可以从书籍、电影和网络资源中了解不同的动物，比如看动物的图片、看视频，以及听它们的声音。因而，当我们去动物园时，就能对面前的动物做出推断（“那是一头水牛！”）。即使我们从未去过动物园，也能基于探究到的信息而识别动物。同样地，在 AI 推理过程中，AI 模型也能够根据之前学习的数据来识别对象或做出推断。

观看我们的下一次现场活动，了解红帽 AI 的新动向及未来发展趋势。观看下一场现场直播视频。

AI 推理是 AI 的运行阶段，在这一阶段，模型能够将其在训练过程中所学到的内容应用于现实场景中。AI 能够识别规律并得出结论，这是其有别于其他技术之处。其推理能力不仅能辅助完成日常的实际任务，还能解决极为复杂的计算机编程问题。

预测性 AI 与生成式 AI：有何区别

如今，企业可以在各种日常用例中运用 AI 推理。下面是一些示例：

医疗保健领域：AI 推理可以帮助医护人员将患者病史与当前数据进行对比，并以比人类更快的速度追踪规律和异常情况。例如，发现脑部扫描中的一个异常点，或是心跳中的一次额外“搏动”。这有助于更早、更快地捕捉不良迹象，发现威胁患者健康的问题。

金融领域：通过采用包含大量银行和信贷信息的大型数据集对 AI 模型进行训练后，AI 推理能够实时识别错误或异常数据，从而尽早尽快地察觉欺诈行为。这有助于优化客户服务资源，保护客户隐私，并提升品牌声誉。

汽车领域：随着 AI 开始广泛应用于汽车行业，自动驾驶汽车正在改变我们的驾驶方式。AI 推理可以帮助车辆规划从 A 点到 B 点的最高效行驶路线，或者在接近停车标志时自动刹车，这一切都可以帮助提升驾乘人员的舒适度和安全性。

许多其他行业也在以创新性的方式应用 AI 推理。它可以应用于快餐店的免下车服务、兽医诊所或酒店礼宾服务。越来越多的企业也正在探索如何利用这项技术来发挥自身优势，提高业务精准性、节省时间和金钱，并在竞争中保持领先地位。

更多 AI/ML 用例

AI 训练是利用数据来教会模型如何建立联系并识别规律的过程。训练是对模型进行教导的过程，推理则是 AI 模型的实际应用阶段。

什么是基础模型？

大多数 AI 训练都是在构建模型的初始阶段进行。完成训练后，模型就能对其从未接触过的数据建立关联。采用更庞大的数据集来训练 AI 模型，意味着它能够学习到更多的关联，从而做出更准确的推理。如果模型在训练后难以做出准确推理，还可以通过微调来增加知识量并提高准确性。

训练和 AI 推理的结合才使得 AI 能够模仿人类能力的方式，例如根据证据和推理得出结论。

模型大小等因素会改变操作模型所需的资源量。

了解小型模型如何简化 GPU 推理过程。

不同类型的 AI 推理可以支持不同的用例。

批量推理：批量推理得名于其接收和处理数据的方式：以大批量的形式进行。这种方法并非实时处理推理，而是按批次处理数据，有时按小时，甚至按天处理，具体取决于数据量和 AI 模型的效率。这些推理也可称为“离线推理”或“静态推理”。
在线推理：在线推理也称为“动态”推理，可以实时提供响应。这类推理需要硬件和软件的支持，以降低延迟障碍并实现高速预测。在线推理在边缘场景中很有帮助，即 AI 在数据所在的位置进行工作。这也许是手机上、汽车里，或者网络连接有限的远程办公室中。
OpenAI 的 ChatGPT 便是在线推理的典型范例，它需要大量的前期运维支持，才能快速且准确地作出响应。
流式推理：流式推理所指的 AI 系统，未必用于与人类进行交互。该模型不是基于提示或请求来运作，而是接收持续不断的数据流，以便进行预测并更新其内部数据库。流式推理能够监控变化、保持运行规律，或在问题实际发生前进行预测防范。

了解利用 vLLM 进行分布式推理如何缓解瓶颈

AI 推理服务器是一种可助力 AI 模型从训练阶段跨越到实际运行阶段的软件。它利用机器学习技术，使模型能够运用所学内容并将其付诸实践，从而生成推理结果。

为确保高效生成结果，AI 推理服务器和 AI 模型需要相互兼容。以下是几种推理服务器及其最佳适配模型的示例：

多模态推理服务器：这种类型的推理服务器能够同时支持多个模型。这意味着它可以接收代码、图像或文本形式的数据，并在单个服务器上处理所有这些不同的推理。多模态推理服务器能够更高效地使用 GPU 和 CPU 内存来支持多个模型。这有助于简化硬件配置，使其更容易扩展，并优化成本。
单模型推理服务器：这种推理服务器仅支持一个模型，而非多个。AI 推理流程专门用于与针对特定用例训练的模型进行通信。它可能只能处理文本形式或代码形式的数据。得益于这样的专用性，它能够实现极高的效率，这在实时决策场景或资源受限的情况下非常有帮助。

在运行 AI 推理时，最大的挑战在于扩展、资源以及成本。

复杂性：训练模型执行简单任务相对容易，比如生成一幅图片，或者向客户说明退货政策。然而，当我们期望模型处理更复杂的数据，例如识别金融欺诈或诊断医学异常时，它们在训练过程中就需要更多的数据，同时也需要更多资源来支持处理这些数据。
资源：更复杂的模型在生成推理时需要处理大量数据，因此会需要专门的硬件和软件来提供支持。这些资源的一个关键组成部分是中央处理器（CPU）内存。CPU 通常被视为计算机的核心或控制中心。当模型准备利用其已知内容（即训练数据）来生成答案时，它必须参考存储在 CPU 内存中的数据。
成本：实现 AI 推理所涉及的所有这些要素都价格不菲。无论您的目标是扩大规模，还是升级到最新的 AI 支持硬件，要获得全面的解决方案，所需资源极为可观。随着模型复杂性的增加和硬件的不断演进，成本可能会急剧上升，使得企业组织难以跟上 AI 创新的步伐。

在企业层面进行 AI 推理的规模化扩展时，复杂程度只会愈发加剧。而当用户无法轻松实现大规模推理时，产品上市时间便会延长，生成式 AI 用例也更难以在整个企业组织范围内落地推行。

llm-d 是一个开源 AI 框架，可加速大规模分布式推理。这意味着，llm-d 可以支持 LLM 推理过程中复杂且非统一的需求。使用 llm-d 或 LLM Compressor 等工具，可以帮助您更快地进行推理，从而减轻团队和资源的重大负担。

什么是 vLLM？

AI 推理正被应用于高吞吐量、高动态变化的用例中。然而，要大规模一致部署 LLM，往往需要庞大的计算能力、海量资源及专业运维技能。vLLM 可通过更高效地利用企业 AI 推理所需的硬件，有效应对这些挑战。正因如此，vLLM 对于既追求速度又需要灵活性与可控性的行业尤其具有吸引力。

作为一种开源解决方案，vLLM 能够让企业实现以下目标：

拥有并管理 GPU 资源。
完全掌控自身数据。
在尖端模型发布后立即对其进行实验。

vLLM 可部署于多种硬件平台，包括 NVIDIA 和 AMD GPU、Google TPU、Intel Gaudi 和 AWS Neuron。其兼容性不受特定硬件限制，可在云端、数据中心乃至边缘计算环境中稳定运行。

通过以下 3 个真实用例，了解知名企业组织如何利用 vLLM 实现有效扩展。

探索 3 个 vLLM 真实用例

红帽 AI 是一个包含各种产品与服务的平台，能够在您企业 AI 旅程的任何阶段提供帮助，无论您是刚刚起步，还是准备进行扩展。针对您企业独特的用例，它既能支持生成式 AI，也能支持预测性 AI 相关工作。

借助红帽 AI，您就可以访问红帽® AI 推理服务器，在混合云上优化模型推理，从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持，可最大限度提高 GPU 利用率，加快响应速度。

了解有关红帽 AI 推理服务器的更多信息

红帽 AI 推理服务器包含红帽 AI 资源存储库，这是一个经过第三方验证和优化的模型集合，既能确保模型具有灵活性，又可确保跨团队一致性。通过接入第三方模型存储库，企业能够显著缩短推向市场所需的时间，并降低 AI 应用成功的资金门槛。

探索 Hugging Face 上的存储库

了解有关经红帽 AI 验证的模型的更多信息

红帽 AI 依托开源技术和广泛的合作伙伴生态系统，致力于在各类基础架构上实现卓越的性能、稳定性以及 GPU 支持。

探索合作伙伴生态系统

扩展阅读

什么是分布式推理？

分布式推理通过将推理任务分配给一组互联设备，从而使 AI 模型更高效地处理工作负载。

什么是模型上下文协议（MCP）？

了解模型上下文协议（MCP）如何将 AI 应用连接到外部数据源，助您构建更加智能的工作流。

AIOps 详解

AIOps 即“面向 IT 运维的 AI”（AI for IT operations），是一种利用机器学习及其他先进 AI 技术来实现 IT 运维自动化的方法。

什么是 AI 推理？

红帽 AI

开启企业 AI 之旅：新手指南

红帽 AI

扩展阅读

什么是分布式推理？

什么是模型上下文协议（MCP）？

AIOps 详解

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links