在最近与红帽客户的对话中,当话题不可避免地转向 AI 时,我发现自己经常重复同样的口头禅:小而美。
让我解释一下。在 AI 领域,从大处着眼肯定不会有什么坏处。这项技术蕴藏着巨大的商机。客户完全有理由制定大胆而雄心勃勃的计划来抓住这些机会。
事实上,作为全球最大的综合能源和化工公司之一,Aramco 目前正与红帽携手探索这样的机遇。通过谅解备忘录,我们将共同探索 AI 如何为当地人才提供培训和技能培养计划。此外,还有其他机遇,例如 AI 如何提高基础架构工具的性能和资源利用率,以及改进容器化应用网络安全措施的新策略。
与此同时,我看到许多公司通过缩小关注点和小处思考,利用 AI 快速取得成功。这些公司的共同点是专注于非常具体的工作场所挑战,并使用小语言模型(SLM)来解决这些挑战。
在 AI 领域,“小”一词是相对而言的。虽然大型语言模型(LLM)可能拥有数千亿(甚至数万亿)个参数,但 SLM 的参数范围仍然可能从几百万到几十亿不等。换句话说,它并没有那么小。因此,如果允许我创造一个新术语,我更倾向于将 SLM 视为聚焦语言模型(FLM)。
考虑到 SLM 的规模,更容易通过微调来进行定制,在这种微调中,SLM 使用与行业甚至公司特定专业知识相关的有限数据集进行训练。通过采用这种方法,智能公司的员工可以更快地解决业务问题,并更深入地了解如何将 AI 应用到解决他们和同事可能面临的其他业务流程瓶颈。
无论您如何称呼它们,SLM 都可以在特定的、有针对性的领域表现出色。例如,金融服务提供商可能会使用基于监管数据训练的 SLM 来发现不合规的交易。医疗保健提供者可以使用基于医疗数据集训练的 SLM 驱动的聊天机器人,将特定领域的知识注入到对患者病情询问的回复中。
这是一种非常高效的方法,因为 SLM 不需要使用与其设计用例不直接相关的任何数据进行训练。它不需要陷入无关信息的泥沼。而且,SLM 不需要解释和响应关于大量主题的广泛查询。
这是 LLM 的工作,也是其令人眼花缭乱的复杂性和大量资源要求的主要原因。相比之下,训练和微调 SLM 所需的时间更短,其硬件要求要少得多,并且返回错误或不相关响应的可能性也大大降低。
AI 可以填补技能缺口
随着 2025 年的到来,在我看来,SLM 在解决我们面临的许多业务问题方面可以发挥宝贵的作用。一个立即浮现在我脑海中的例子是持续的技能危机,随着欧洲劳动力迅速老化的高级成员退休年龄的临近,这种危机加剧。
SLM 可能非常适合处理一些由长期服务、知识渊博的员工完成的任务,例如解析法律或监管文件,或者分析客户反馈以查找有关特定产品或服务的反复投诉的迹象。在涉及工程技能的地方,可以部署 SLM 来分析从安装在机器和设备上的传感器和智能设备收集的数据,以预测维护需求。
简而言之,SLM 可能是企业在 2025 年在 AI 方面迈出重要一步的好方法,这种方式高效、可访问、高度可定制,并且有可能为他们的努力带来更快的回报。
同时,通过使用开源技术,他们可以使用通过协作开发的开放技术进一步简化这种体验。这意味着,不必从基本原理着手开展每个 AI 项目,还可以从其他团队在 SLM 方面经历的见解和挑战中受益。
此外,他们还可以灵活地构建自己的专用、高度调优的 SLM,接受针对其公司的数据和知识的培训,并以他们想要的方式支持他们的业务用例。