什么是 AI 基础模型?

复制 URL

基础模型是一种经过预训练的机器学习(ML)模型,能够执行一系列的任务。 

直到最近,人工智能(AI)系统仍然是专领域专用的工具,也就是说,它们是针对特定应用或单一用例进行训练的。随着机器学习领域开始出现两个新趋势,基础模型(也称为基本模型)一词开始被大众熟知:

  1. 少量的深度学习架构已被用于各种各样的任务。
  2. 人工智能(AI)模型能够产生与其训练中原本预期的概念不同的新概念。 

基础模型(如 IBM 的 Granite 模型)经过编程,学会了一般性的上下文理解,它可以识别和理解数据中的模式、结构和表示。这种对如何沟通和识别模式的基本理解创建了一个基础知识水平,经过进一步修改或微调后,就能执行几乎任何行业的特定领域任务。

探索红帽 AI

要使基础模型能够正常运作,离不开以下两个决定性特征:迁移学习和规模。迁移学习是指一个模型能够将一种情况的信息应用到另一种情况,并运用其内部“知识”来举一反三。 

 规模则指的是硬件,尤其是图形处理单元(GPU),它允许一个模型同时执行多个计算,也称为并行处理。GPU 对于训练和部署深度学习模型(包括基础模型)至关重要,因为它们提供了快速处理数据和进行复杂统计计算的能力。

规模和训练都有助于运行 AI 推理。AI 推理是 AI 的运行阶段,在这一阶段,模型能够将其在训练过程中所学到的内容应用于现实场景中。

深度学习和基础模型
许多基础模型,尤其是用于自然语言处理(NLP)、计算机视觉和音频处理的基础模型,都是利用深度学习技术进行预训练的。深度学习是一项支撑许多(但不是全部)基础模型的技术,也是该领域许多进步成果的驱动力量。深度学习(也称为深度神经学习或深度神经网络)会让计算机通过观察,学习、模仿人类获取知识的方式。 

Transformer 和基础模型
虽然并非所有基础模型都使用 Transformer,但 Transformer 架构已是很流行的一种用于构建涉及文本的基础模型的方式,ChatGPT、BERT 和 DALL-E 2 都使用的是这种架构。Transformer 允许 ML 模型捕获数据序列中元素间的上下文关系和依赖项,从而增强 ML 模型的能力。Transformer 是一种用于 NLP 模型的人工神经网络(ANN);不过,单独使用计算机视觉或语音处理模型的 ML 模型中通常不会用到它们。

红帽资源

基础模型经过训练后,可以依靠从大型数据池中获得的知识来帮助解决问题;这一本领可以在许多方面为企业提供有价值的见解和贡献。基础模型能够执行的一些常规任务包括:

自然语言处理(NLP)
通过识别上下文、语法和语言结构,在 NLP 中训练的基础模型可以从训练数据中生成和提取信息。通过训练将文本与情绪(积极、消极、中立)联系起来,对 NLP 模型进行进一步微调,可能对希望分析书面消息(如客户反馈、在线评论或社交媒体帖子)的公司有用。NLP 是更广泛的领域,包括开发和应用大型语言模型(LLM)。

计算机视觉
模型能够识别基本的形状和特征后,就可开始识别模式。而如果进一步微调计算机视觉模型,就可以实现自动化的内容审核、面部识别和图像分类。模型还可以根据学到的模式生成新的图像。 

音频/语音处理
模型能够识别语音元素时,就可理解说话者的语音语调,从而促进更有效和包容的交流。虚拟助理、多语言支持、语音命令和文本转录等功能可以提高可访问性和生产力。 

通过进一步微调,企业组织可以设计更高级的专业机器学习系统,从而满足特定行业的需求,如金融机构的欺诈检测、医疗卫生领域的基因测序,以及客户服务领域的聊天机器人等。

进行 AI/ML 评估

基础模型在人工智能领域提供了可访问性和一定的复杂程度,但许多企业没有资源独自实现这一点。通过采用基础模型并以此为基础来构建,公司可以克服常见的障碍,例如:

对高质量数据的访问受限:基础模型所基于的数据是大多数企业组织无法企及的。

模型性能/准确性:基础模型可以在一开始就提供相当优良的准确度,而企业组织原本可能需要数月乃至数年努力才能建立这样的准确度。 

价值实现时间:训练一个机器学习模型可能需要花费很长时间和许多资源。基础模型提供了一个预训练的起点,企业组织只需对其进行微调,即可得到定制的结果。 

人才有限:基础模型为企业组织提供了一种利用 AI/ML 的方式,他们不必在数据科学资源上进行大量投资。 

支出管理:使用基础模型可以减少对初始训练所需昂贵硬件的需求。虽然供应和微调最终的模型仍有相关成本,但和训练基础模型本身成本相比,只能算九牛一毛。

虽然基础模型有许多令人兴奋的应用,但也有不少潜在的挑战需要注意。

成本
基础模型需要大量资源来开发、训练和部署。基础模型的初始训练阶段需要使用大量的通用数据,消耗数万个 GPU,并且通常需要一群机器学习工程师和数据科学家参与。 

可解释性
“黑匣子”是指 AI 程序在其神经网络中执行一项任务并且不显示其工作的状态。这就会造就一种情况——没有人(包括创建算法的数据科学家和工程师)能够准确解释模型如何获取特定的输出。黑匣子模型缺乏可解释性,所以将其用于高风险决策时可能会产生严重后果,尤其是在医疗卫生、刑事司法或金融等行业。这种黑匣子效应可以发生在任何基于神经网络的模型中,而不仅仅是基础模型。 

隐私和安全 
基础模型需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。

准确性和偏见 
如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业组织利用 AI 来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这首先需要确保在整个设计过程中秉持包容性的理念,并且要更深远地考虑所收集的数据是否代表足够的多样性。 

AI/ML 注意事项

红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合,它筑基于深受客户信赖的红帽解决方案。 

红帽 AI 可以为企业组织提供帮助:

  • 快速采用 AI 并进行创新。
  • 拆解交付 AI 解决方案的复杂流程。
  • 随时随地部署。

探索红帽 AI 

轻松访问 IBM 的 Granite 系列模型

如果您已准备好试用基础模型,但还不确定要如何利用 AI 帮助您实现业务发展,不妨从红帽®企业 Linux® AI 入手,探索不同的应用场景。该基础模型平台有助于开发、测试和运行适用于企业级应用的 Granite 系列大型语言模型

开发人员可以快速访问单个服务器环境,其中包含 LLM 和 AI 工具。它提供了调整模型和构建生成式 AI 应用所需的一切。

红帽 AI 还提供了额外的模型对齐机制,通过名为 InstructLab 的解决方案来改进您的大型语言模型(LLM)。红帽和 IBM 创建了 InstructLab,以引入一种开源社区驱动的方法来增强 LLM 功能。

探索红帽企业 Linux AI 

中心

红帽官方博客

获取有关我们的客户、合作伙伴和社区生态系统的最新信息。

所有红帽产品试用

我们的免费试用可让您亲身体验红帽的产品功能,为获得认证做好准备,或评估某个产品是否适合您的企业。

扩展阅读

什么是 vLLM?

虚拟大型语言模型(vLLM)是一系列开源代码的集合,可帮助语言模型更高效地执行计算。

什么是 AI 推理?

AI 推理是指 AI 模型依据数据提供答案的过程。这是机器学习技术复杂流程中的最后一步。

预测性人工智能与生成式人工智能:有何区别

生成式人工智能和预测性人工智能在功能上有很大不同,并且各自有不同的应用场景。随着人工智能的发展,区分这两种不同类型的 AI 有助于更清楚地了解它们各自的能力和用途。

AI/ML 相关资源