什么是 AI 推理?

复制 URL

AI 推理是指 AI 模型依据数据提供答案的过程。通常人们所说的 “AI”,实际上指的是 AI 推理的成果:这是机器学习技术的漫长而复杂的演进过程中的最后一步,就像是人类的“顿悟”时刻。

使用充足的数据训练人工智能(AI)模型,有助于提高 AI 推理的准确性和速度。

探索红帽 AI

 

举个例子,我们用关于动物的数据对一个 AI 模型进行训练,使其学习关于动物的方方面面,从不同动物之间的异同,到典型的健康状况和行为习惯等,而在这一过程中,模型还需要依赖庞大的数据集,才能建立这些联系并识别出其中的规律。

训练成功后,该模型就能够进行各种推理,比如识别狗的品种、辨别猫的叫声,甚至在马匹受惊时发出预警。尽管该模型的认知完全来源于抽象数据集,从未在真实环境中亲眼见过这些动物,但由于在训练时接触了大量数据,因此它能够在新的环境中实时进行推理。

我们人类的大脑也会进行类似的关联。我们可以从书籍、电影和网络资源中了解不同的动物,比如看动物的图片、看视频,以及听它们的声音。因而,当我们去动物园时,就能对面前的动物做出推断(“那是一头水牛!”)。即使我们从未去过动物园,也能基于探究到的信息而识别动物。同样地,在 AI 推理过程中,AI 模型也能够根据之前学习的数据来识别对象或做出推断。

什么是基础模型? 

AI 推理是 AI 的运行阶段,在这一阶段,模型能够将其在训练过程中所学到的内容应用于现实场景中。AI 能够识别规律并得出结论,这是其有别于其他技术之处。其推理能力不仅能辅助完成日常的实际任务,还能解决极为复杂的计算机编程问题。

预测性人工智能与生成式人工智能:有何区别

红帽 AI | 通过开源平台构建、部署和运行 AI 模型与应用

如今,企业可以在各种日常用例中运用 AI 推理。下面是一些示例:

医疗保健领域:AI 推理可以帮助医护人员将患者病史与当前数据进行对比,并以比人类更快的速度追踪规律和异常情况。例如,发现脑部扫描中的一个异常点,或是心跳中的一次额外“搏动”。这有助于更早、更快地捕捉不良迹象,发现威胁患者健康的问题。

金融领域:通过采用包含大量银行和信贷信息的大型数据集对 AI 模型进行训练后,AI 推理能够实时识别错误或异常数据,从而尽早尽快地察觉欺诈行为。这有助于优化客户服务资源,保护客户隐私,并提升品牌声誉。

汽车领域:随着 AI 开始广泛应用于汽车行业,自动驾驶汽车正在改变我们的驾驶方式。AI 推理可以帮助车辆规划从 A 点到 B 点的最高效行驶路线,或者在接近停车标志时自动刹车,这一切都可以帮助提升驾乘人员的舒适度和安全性。

许多其他行业也在以创新性的方式应用 AI 推理。它可以应用于快餐店的免下车服务、兽医诊所或酒店礼宾服务。越来越多的企业也正在探索如何利用这项技术来发挥自身优势,提高业务精准性、节省时间和金钱,并在竞争中保持领先地位。

更多 AI/ML 用例

AI 训练是利用数\据来教会模型如何建立联系并识别规律的过程。训练是对模型进行教导的过程,推理则是 AI 模型的实际应用阶段。

大多数 AI 训练都是在构建模型的初始阶段进行。完成训练后,模型就能对其从未接触过的数据建立关联。采用更庞大的数据集来训练 AI 模型,意味着它能够学习到更多的关联,从而做出更准确的推理。如果模型在训练后难以做出准确推理,还可以通过微调来增加知识量并提高准确性。

训练和 AI 推理的结合才使得 AI 能够模仿人类能力的方式,例如根据证据和推理得出结论。 

不同类型的 AI 推理可以支持不同的用例。

  • 批量推理:批量推理得名于其接收和处理数据的方式:以大批量的形式进行。这种方法并非实时处理推理,而是按批次处理数据,有时按小时,甚至按天处理,具体取决于数据量和 AI 模型的效率。这些推理也可称为“离线推理”或“静态推理”。
  • 在线推理:在线推理也称为“动态”推理,可以实时提供响应。这类推理需要硬件和软件的支持,以降低延迟障碍并实现高速预测。在线推理在边缘场景中很有帮助,即 AI 在数据所在的位置进行工作。这也许是手机上、汽车里,或者网络连接有限的远程办公室中。

    OpenAI 的 ChatGPT 便是在线推理的典型范例,它需要大量的前期运维支持,才能快速且准确地作出响应。

  • 流式推理:流式推理所指的 AI 系统,未必用于与人类进行交互。该模型不是基于提示或请求来运作,而是接收持续不断的数据流,以便进行预测并更新其内部数据库。流式推理能够监控变化、保持运行规律,或在问题实际发生前进行预测防范。 

AI 推理服务器是一种可助力 AI 模型从训练阶段跨越到实际运行阶段的软件。它利用机器学习技术,使模型能够运用所学内容并将其付诸实践,从而生成推理结果。

为确保高效生成结果,AI 推理服务器和 AI 模型需要相互兼容。以下是几种推理服务器及其最佳适配模型的示例:

  • 多模态推理服务器:这种类型的推理服务器能够同时支持多个模型。这意味着它可以接收代码、图像或文本形式的数据,并在单个服务器上处理所有这些不同的推理。多模态推理服务器能够更高效地使用 GPU 和 CPU 内存来支持多个模型。这有助于简化硬件配置,使其更容易扩展,并优化成本。
  • 单模型推理服务器:这种推理服务器仅支持一个模型,而非多个。AI 推理过程专门用于与针对特定用例训练的模型进行通信。它可能只能处理文本形式或代码形式的数据。得益于这样的专用性,它能够实现极高的效率,这在实时决策场景或资源受限的情况下非常有帮助。 

在运行 AI 推理时,最大的挑战在于扩展、资源以及成本。

  • 复杂性:训练模型执行简单任务相对容易,比如生成一幅图片,或者向客户说明退货政策。然而,当我们期望模型处理更复杂的数据,例如识别金融欺诈或诊断医学异常时,它们在训练过程中就需要更多的数据,同时也需要更多资源来支持处理这些数据。
     
  • 资源:更复杂的模型在生成推理时需要处理大量数据,因此会需要专门的硬件和软件来提供支持。这些资源的一个关键组成部分是中央处理器(CPU)内存。CPU 通常被视为计算机的核心或控制中心。当模型准备利用其已知内容(即训练数据)来生成答案时,它必须参考存储在 CPU 内存中的数据。
     
  • 成本:实现 AI 推理所涉及的所有这些要素都价格不菲。无论您的目标是扩大规模,还是升级到最新的 AI 支持硬件,要获得全面的解决方案,所需资源极为可观。随着模型复杂性的增加和硬件的不断演进,成本可能会急剧上升,使得企业组织难以跟上 AI 创新的步伐。

vLLM 作为一款推理服务器,可加快生成式 AI 应用的输出速度,是应对这些挑战的有效解决方案。

什么是 vLLM?

红帽 AI 是一系列产品与服务的组合,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备在混合云环境中进行扩展。针对您企业独特的用例,它既能支持生成式 AI ,也能支持预测性 AI 相关工作。

探索红帽 AI

红帽 AI 能够加快推向市场的速度,并降低构建 AI 平台所涉及的资源和资金门槛。它能对小型、专用的模型进行高效微调,并且可灵活地在数据所在的任何位置进行部署。

红帽 AI 依托开源技术和广泛的合作伙伴生态系统,致力于在各类基础架构上实现卓越的性能、稳定性以及 GPU 支持。

阅读关于红帽收购 Neural Magic 的新闻稿

红帽 AI | 通过开源平台构建、部署和运行 AI 模型与应用

红帽 AI 可提供小型专用模型、高效的定制技术以及随时随地进行开发和部署的灵活性,加快企业对 AI 采用,帮助您开启 AI 之旅或为扩展做好准备。进一步了解红帽 AI 产品组合。

扩展阅读

什么是参数高效微调(PEFT)?

PEFT 是一组仅调整 LLM 中部分参数的技术,可节省资源。

LoRA 与QLoRA:有何区别

LoRA(低秩自适应)和 QLoRA(量化低秩自适应)技术都可用于训练 AI 模型。

什么是 vLLM?

虚拟大型语言模型(vLLM)是一系列开源代码的集合,可帮助语言模型更高效地执行计算。

AI/ML 相关资源

相关文章