LLM 与 SLM:语言模型对比
大语言模型(LLM) 和小语言模型(SLM)都是经过训练、可以解读人类语言(包括编程语言)的人工智能(AI)系统。二者的主要区别在于:训练它们所用的数据集的规模、用这些数据集训练它们时所采用的流程,以及针对不同用例投入使用后所产生的成本/收益。
顾名思义,LLM 和 SLM 都是基于由语言组成的数据集进行训练,这使得二者有别于用图片训练的模型(例如 DALL·E)以及用视频训练的模型(例如 Sora)。网页文本、开发者代码、电子邮件以及手册都属于基于语言的数据集。
SLM 和 LLM 最广为人知的应用之一就是 生成式人工智能(gen AI),它可以针对内容各异、无法预测的提问生成(生成式人工智能由此得名)非预先编辑好的回答内容。LLM 之所以尤为人们所熟知,主要归功于 GPT-4 基础模型和 ChatGPT 。ChatGPT 是一款对话式聊天机器人,它在包含数万亿参数的大型数据集上进行训练,能够回答人类提出的各种各样的问题。虽然生成式 AI 广受欢迎,但 LLM 和 SLM 也有其他非生成式应用,例如预测性 AI。
人们通常会采用不同的数据集来训练 LLM 和 SLM
GPT-4/ChatGPT 的能力范围很好地说明了 LLM 与 SLM 之间的一个基本差异:训练它们所用的数据集。
人们希望 LLM 能够在非常广泛的层面上模拟人类的智慧,因此采用各类大型数据集训练 LLM。以 GPT-4/ChatGPT 为例,其训练所用的数据集涵盖整个公共互联网截至某一特定日期的全部内容。所以,ChatGPT 能够解读和回答普通用户所提出的五花八门的问题,这也是它声名大噪的原因。然而,人们也注意到,ChatGPT 有时可能会给出错误的回答,这种现象俗称“幻觉”,也就是说,ChatGPT 没有经过微调和特定领域的训练,因此无法准确回答每个行业特定的或小众的问题。
而专门经过小型数据集训练的 SLM 则是为特定行业领域(即专业领域)量身打造。比方说,医疗提供商可以使用依托 SLM 且经过医疗数据集训练的的聊天机器人,针对用户用非专业的描述提出的健康问题融入领域特定的知识,从而提高问题与回答的质量。在这种情况下,我们不必用整个互联网的内容(包含每一篇博客文章、科幻小说,或诗作)来训练这款依托 SLM 的聊天机器人,因为这些内容与医疗用例无关。
简而言之,SLM 通常在特定领域表现出色,但与 LLM 相比,在常识和整体语境理解方面则相形见绌。
红帽资源
SLM 和 LLM 拥有不同的训练过程
数据集的规模和范围并非区分 SLM 与 LLM 的唯一因素,重要的是,即使一个模型与 LLM 使用相同的数据集进行训练,它实际上也可能被视作 SLM。这是因为除了数据量之外,训练参数以及整个训练流程也都是每个模型的重要决定因素。换句话说,重要的不只是模型基于多少数据进行训练,还在于它旨在从那些数据中学到什么内容。
参数
在机器学习中,参数是决定模型将做出何种预测的内部变量。换句话说,参数体现了模型如何处理数据集中的原始数据。在训练过程中,AI 模型会不断调整其参数以提高预测的准确性,这就好比转动收音机的旋钮以找到正确的频道。除了参数的总数之外,这一极其复杂的过程中还涉及其他影响因素,包括参数如何在模型中分层、它们彼此之间如何加权,以及它们是如何针对模式识别(而非简单记忆)进行优化。
对于 SLM 和 LLM 所含参数数量的界定,并没有明确的行业标准。不过,最关键的是,SLM 所含的参数通常远少于 LLM,因为 SLM 的用例更侧重于特定的知识领域。以 LLM GPT-4/ChatGPT 为例,据说它接受了万亿级别的参数训练,因而能够对几乎任何用户输入做出响应。不过值得注意的是,GPT-4 是 LLM 中规模极为庞大的一个特例。还有许多规模较小的 LLM(但还不完全算是 SLM),比如 IBM 的开源 Granite 模型,其参数规模在 30 亿至 350 亿之间。SLM 所含的参数通常较少(有时仍达数十亿之多),因为其预期应用范围要狭窄得多。
微调
微调是模型训练中可区分 SLM 和 LLM 的另一个方面,这是利用新数据调整和更新预训练模型的过程。通常情况下,微调的目的是根据特定用例自定义预训练模型。这涉及引入新的数据集,以测试现有参数在新的情境下是否仍能产生可接受的结果。一般而言,模型包含的参数越多,微调就越困难、耗时更多、资源消耗也更大,这意味着 LLM 进行微调要比 SLM 更费力。
除了参数和微调之外,SLM 与 LLM 的训练过程在类型和复杂程度上也通常存在差异。要理解不同类型的模型训练,比如 “自注意力机制” 或 “编码器 - 解码器模型架构”,需要具备较高水平的数据科学专业知识。SLM 和 LLM 在训练方面的基本差异在于,相较于 LLM,SLM 通常更倾向于采用资源利用效率更高且侧重于特定用例的训练方法。
偏差
尽管每一个 AI 模型都会进行一定程度的微调,但大多数 LLM 的规模之大,使得无法针对每一种可能的推断对其进行调整。LLM 通常是基于互联网等可公开获取的数据集进行训练,而 SLM 则往往依据特定行业或公司的数据集展开训练。这可能会引入一些偏差,比如某些群体及观点的代表性不足或呈现失当,又或者出现事实性的不准确情况。由于 LLM 和 SLM 都是语言模型,它们还可能继承与方言、地理位置和语法相关的语言偏差。
简而言之,任何语言模型都可能继承偏差,但鉴于 LLM 的规模,它们尤其会带来更多产生偏差的机会。而对于基于较小数据集进行训练的 SLM,可以更轻松地缓解必然会出现的偏差。
LLM 和 SLM 需要不同的资源
针对业务用例训练任何模型,无论是 LLM 还是 SLM,都是一个资源密集型的过程。不过,训练 LLM 尤其耗费资源。以 GPT-4 为例,总共需要 25,000个 NVIDIA A100 GPU 同时并连续运行 90 至 100 天。需要再次说明的是,GPT-4 代表了 LLM 范畴中规模最大的极端情况。Granite 之类的其他 LLM 则不需要这么多资源。虽然训练 SLM 仍然需要相当多的计算资源,但与 LLM 相比,所需资源要少得多。
训练与推理的资源需求
同样需要注意的是模型训练和模型推理之间的区别。如上文所述,训练是开发 AI 模型的第一步。推理则是已训练好的 AI 模型依据新数据进行预测的过程。例如,当用户向 ChatGPT 提出一个问题时,这就会促使 ChatGPT 向用户返回一个预测结果;这个生成预测的过程就是一次推理。
一些预训练的 LLM,比如 Granite 系列模型,可以利用单个高性能工作站的资源进行推理(例如,Granite 模型可以在一个 V100-32GB GPU2 上运行),不过,许多 LLM 需要多个并行处理单元来生成数据。此外,同时访问 LLM 的用户数越多,模型进行推理的速度就越慢。相比之下,SLM 通常设计为可以使用智能手机或其他移动设备的资源来进行推理。
开始使用 LLM 与 SLM 的成本/效益
对于“哪个模型更好?”这个问题,并没有一个确定的答案。这完全取决于您企业组织的计划、资源、专业知识、时间表以及其他相关因素。同样重要的是,要确定您的用例是需要从头开始训练一个模型,还是对一个预训练模型进行微调。在 LLM 与 SLM 之间做出选择的常见考量因素包括:
成本
一般来说,LLM 在训练、微调以及运行推理时需要的资源要多得多。重要的是,训练是一项频次较低的投入。计算资源只有在模型接受训练时才需要,而训练是一项间歇性的任务,并非持续不断地进行。然而,运行推理意味着一项持续性的成本支出,而且随着模型被越来越多的用户使用,这方面的需求还会增加。在大多数情况下,这需要大规模的云计算资源、可观的本地资源投入,或者两者都需要。
SLM 经常被评估用于低延迟用例,例如边缘计算。这是因为它们往往仅依靠单个移动设备上现有的资源就能运行,而无需持续、稳定地连接到更重要的资源。
专业知识
许多流行的预训练 LLM,如 Granite、Llama 和 GPT-4,为开启 AI 之旅提供了一种具备更出色“即插即用”功能的选择。对于希望开始尝试 AI 的组织而言,这些模型往往更可取,因为它们无需由数据科学家从头开始设计和训练。相比之下,SLM 则通常需要同时具备数据科学和特定行业知识领域的专业技能,才能基于细分数据集进行精准的微调。
安全防护
LLM 的一个潜在风险是通过应用程序编程接口(API)暴露敏感数据。具体而言,使用所在企业组织的数据对 LLM 进行微调时,需要格外留意合规性以及公司政策。SLM 能够提供更高程度的控制,因此其数据泄露风险可能相对较低。
红帽能为您做些什么?
红帽 AI 提供生成式 AI 和预测性 AI 功能,以及 MLOps 支持,可在混合云环境中大规模构建灵活、可信的 AI 解决方案。它有助于加快 AI 的应用,简化交付 AI 解决方案的复杂性,并在数据所在的任何位置灵活地进行开发和部署。
结合红帽的开放混合云基础架构,红帽 AI 能让各企业组织为企业构建量身定制的 AI 解决方案,管理模型和应用的生命周期,适应硬件加速需求,并在单一平台上与关键工作负载一同进行部署、运行和运维。
适用于新手的机器学习和 AI
如果您刚开始探索 ML 和 AI 模型,可以试试 InstructLab,这是一个由社区驱动的用于训练 LLM 的解决方案。在这里,您可以免费进行试验,并直接为您所使用的 AI 模型的开发做出贡献。
轻松访问 IBM 的 Granite 系列模型
如果您已经准备好更进一步,红帽® 企业 Linux® AI 是一个基础模型平台,您可以在该平台上针对企业应用开发、测试并运行 Granite 系列 LLM。Granite 是一系列开源许可 AI 模型,并享有红帽的全面支持和保障。其开源方法鼓励生成式 AI 的创新,同时保持信任和安全性。
企业级扩展
红帽® OpenShift® AI 是一个能够在混合云环境中大规模支持各类模型的平台。您可以针对自身独特的用例,利用自己的数据来训练、即时调整、微调和提供 AI 模型。
这些产品共同提供了一个统一的解决方案,使数据科学家和开发人员能够展开协作,从而使团队能够更快地将模型从实验阶段推向生产阶段。
与合作伙伴共同发展
此外,红帽的合作伙伴集成有利于形成由众多可信 AI 工具构成且不断发展的生态系统,与开源平台搭配使用。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。