什么是基础模型?
基础模型是一种经过预训练的机器学习(ML)模型,能够执行一系列的任务。
直到最近,人工智能(AI)系统仍然是专领域专用的工具,也就是说,它们是针对特定应用或单一用例进行训练的。随着机器学习领域开始出现两个新趋势,基础模型(也称为基本模型)一词开始被大众熟知:
- 少量的深度学习架构已被用于各种各样的任务。
- 人工智能(AI)模型能够产生与其训练中原本预期的概念不同的新概念。
基础模型(如 IBM 的 Granite 模型)经过编程,学会了一般性的上下文理解,它可以识别和理解数据中的模式、结构和表示。这种对如何沟通和识别模式的基本理解创建了一个基础知识水平,经过进一步修改或微调后,就能执行几乎任何行业的特定领域任务。
基础模型是如何工作的?
要使基础模型能够正常运作,离不开以下两个决定性特征:迁移学习和规模。迁移学习是指一个模型能够将一种情况的信息应用到另一种情况,并运用其内部“知识”来举一反三。
规模则指的是硬件,尤其是图形处理单元(GPU),它允许一个模型同时执行多个计算,也称为并行处理。GPU 对于训练和部署深度学习模型(包括基础模型)至关重要,因为它们提供了快速处理数据和进行复杂统计计算的能力。
规模和训练都有助于运行 AI 推理。AI 推理是 AI 的运行阶段,在这一阶段,模型能够将其在训练过程中所学到的内容应用于现实场景中。
深度学习和基础模型
许多基础模型,尤其是用于自然语言处理(NLP)、计算机视觉和音频处理的基础模型,都是利用深度学习技术进行预训练的。深度学习是一项支撑许多(但不是全部)基础模型的技术,也是该领域许多进步成果的驱动力量。深度学习(也称为深度神经学习或深度神经网络)会让计算机通过观察,学习、模仿人类获取知识的方式。
Transformer 和基础模型
虽然并非所有基础模型都使用 Transformer,但 Transformer 架构已是很流行的一种用于构建涉及文本的基础模型的方式,ChatGPT、BERT 和 DALL-E 2 都使用的是这种架构。Transformer 允许 ML 模型捕获数据序列中元素间的上下文关系和依赖项,从而增强 ML 模型的能力。Transformer 是一种用于 NLP 模型的人工神经网络(ANN);不过,单独使用计算机视觉或语音处理模型的 ML 模型中通常不会用到它们。
红帽资源
基础模型的用例
基础模型经过训练后,可以依靠从大型数据池中获得的知识来帮助解决问题;这一本领可以在许多方面为企业提供有价值的见解和贡献。基础模型能够执行的一些常规任务包括:
自然语言处理(NLP)
通过识别上下文、语法和语言结构,在 NLP 中训练的基础模型可以从训练数据中生成和提取信息。通过训练将文本与情绪(积极、消极、中立)联系起来,对 NLP 模型进行进一步微调,可能对希望分析书面消息(如客户反馈、在线评论或社交媒体帖子)的公司有用。NLP 是更广泛的领域,包括开发和应用大型语言模型(LLM)。
计算机视觉
模型能够识别基本的形状和特征后,就可开始识别模式。而如果进一步微调计算机视觉模型,就可以实现自动化的内容审核、面部识别和图像分类。模型还可以根据学到的模式生成新的图像。
音频/语音处理
模型能够识别语音元素时,就可理解说话者的语音语调,从而促进更有效和包容的交流。虚拟助理、多语言支持、语音命令和文本转录等功能可以提高可访问性和生产力。
通过进一步微调,企业组织可以设计更高级的专业机器学习系统,从而满足特定行业的需求,如金融机构的欺诈检测、医疗卫生领域的基因测序,以及客户服务领域的聊天机器人等。
进行 AI/ML 评估
企业采用基础模型为什么会有好处?
基础模型在人工智能领域提供了可访问性和一定的复杂程度,但许多企业没有资源独自实现这一点。通过采用基础模型并以此为基础来构建,公司可以克服常见的障碍,例如:
对高质量数据的访问受限:基础模型所基于的数据是大多数企业组织无法企及的。
模型性能/准确性:基础模型可以在一开始就提供相当优良的准确度,而企业组织原本可能需要数月乃至数年努力才能建立这样的准确度。
价值实现时间:训练一个机器学习模型可能需要花费很长时间和许多资源。基础模型提供了一个预训练的起点,企业组织只需对其进行微调,即可得到定制的结果。
人才有限:基础模型为企业组织提供了一种利用 AI/ML 的方式,他们不必在数据科学资源上进行大量投资。
支出管理:使用基础模型可以减少对初始训练所需昂贵硬件的需求。虽然供应和微调最终的模型仍有相关成本,但和训练基础模型本身成本相比,只能算九牛一毛。
企业采用基础模型将面临哪些挑战?
虽然基础模型有许多令人兴奋的应用,但也有不少潜在的挑战需要注意。
成本
基础模型需要大量资源来开发、训练和部署。基础模型的初始训练阶段需要使用大量的通用数据,消耗数万个 GPU,并且通常需要一群机器学习工程师和数据科学家参与。
可解释性
“黑匣子”是指 AI 程序在其神经网络中执行一项任务并且不显示其工作的状态。这就会造就一种情况——没有人(包括创建算法的数据科学家和工程师)能够准确解释模型如何获取特定的输出。黑匣子模型缺乏可解释性,所以将其用于高风险决策时可能会产生严重后果,尤其是在医疗卫生、刑事司法或金融等行业。这种黑匣子效应可以发生在任何基于神经网络的模型中,而不仅仅是基础模型。
隐私和安全
基础模型需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。
准确性和偏见
如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业组织利用 AI 来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这首先需要确保在整个设计过程中秉持包容性的理念,并且要更深远地考虑所收集的数据是否代表足够的多样性。
红帽能如何提供帮助
红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合,它筑基于深受客户信赖的红帽解决方案。
红帽 AI 可以为企业组织提供帮助:
- 快速采用 AI 并进行创新。
- 拆解交付 AI 解决方案的复杂流程。
- 随时随地部署。
轻松访问 IBM 的 Granite 系列模型
如果您已准备好试用基础模型,但还不确定要如何利用 AI 帮助您实现业务发展,不妨从红帽®企业 Linux® AI 入手,探索不同的应用场景。该基础模型平台有助于开发、测试和运行适用于企业级应用的 Granite 系列大型语言模型。
开发人员可以快速访问单个服务器环境,其中包含 LLM 和 AI 工具。它提供了调整模型和构建生成式 AI 应用所需的一切。
红帽 AI 还提供了额外的模型对齐机制,通过名为 InstructLab 的解决方案来改进您的大型语言模型(LLM)。红帽和 IBM 创建了 InstructLab,以引入一种开源社区驱动的方法来增强 LLM 功能。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。