在 AI 行业,过去 3 年里我们一直痴迷于规模化。我们不断追逐参数数量,力求达到万亿级规模,坚信“更大”是通往“更智能”的唯一途径。但当喧嚣散去,企业正面临一种新的现实:规模不再是关键指标,真正重要的是能否提供可靠、确定性的结果。
红帽始终坚信,最强大的技术是那些分布式、开放且契合实际需求的技术。小语言模型(SLM)正是这种转变的代表。相比于区分 SLM 和大语言模型(LLM),更重要的是模型在架构中承担的角色。真正关键的是,小模型带来的功能主权。
我们正在告别对话式 AI 时代(即向巨大的黑箱模型提问),并进入代理式 AI 时代,在这个新时代,将由一系列专用模型处理企业的实际工作。
每家企业都将运行 AI 代理
我们正处在一场根本性变革的边缘,就像当初向网络时代过渡一样。
回想一下企业身份的演变历程。1995 年,业界提出这样一个问题:“为什么需要电子邮件地址?”2005 年,这个问题变成了为什么需要网站。2015 年,则变成了为什么要出现在社交媒体上。到 2026 年,问题将是“正在运行多少个代理?”
我们正在走向一个 AI 代理数量超过人类数量的世界。每个企业都会拥有大量代理:
- 面向客户的代理:不仅要回答问题,还要解决复杂的物流问题。
- 工作流代理:自动完成部门之间那些隐形的“衔接工作”。
- 无头代理:静默执行 API 调用,以核对库存并处理付款。
但是,您无法依靠别人补贴的云词元来构建可持续、经济高效的代理团队。正因如此,SLM 成为支撑企业用例和规模化的必备工具。
为什么 SLM 在代理式后端中占据主导地位
虽然前沿 LLM 是高通量工程的杰作,但对于即时响应的数字员工这一角色,它们往往过于繁重。在代理式工作流中,我们不仅需要原始能力,还需要低延迟执行。SLM 让我们能够提供亚秒级的响应时间和确定性可靠性,这正是业务关键型自动化所需的。
一.专业化的力量(效率胜于规模)
虽然很少有企业组织会考虑微调一个拥有 4,000 亿参数的模型,但拥有 30 亿或 70 亿参数的模型可提供易于上手且非常高效的切入点。这正是架构级控制的起点。 2025 年底的研究表明,即使是一个拥有 3.5 亿参数的模型,只要基于高质量的合成数据进行微调,在特定的工具调用和 API 编排领域,其表现也能胜过通用的前沿模型。对于可靠的代理式后端而言,目标并不是宽泛、富有诗意的语言能力,而是高精度的专业化能力。
二.确定性和“可靠性数学”
企业级 AI 面临的最大障碍之一是非确定性,即代理可能这次输出格式正确,下次就出错。虽然没有任何 LLM 是完美的确定性数学函数,但 SLM 让我们能够实施架构级控制,这在以前是难以做到的。通过使用 JSON 模式或上下文无关文法(CFG)等约束解码技术,我们可以剪枝模型的词元搜索空间,从而让模型实际上不可能选择无效的下一个字符。这可将重心从开放式的自由生成转向模式约束下的精准可靠。结合本地执行和专门微调,SLM 在结构化任务中可以实现超过 98% 的有效性,为敏感的代理式工作流提供所需的可预测可靠性。
三.数据主权必不可少
数据是您最宝贵的资产。在代理式时代,这些模型将处理您的客户关系管理(CRM)、专有代码和内部策略。将这些数据提供给第三方云提供商以换取“智能即服务”是一种战略性错误。
在本地或您自己的混合云环境中运行 SLM 意味着您始终是 IP 的所有者。它支持“零信任”AI 架构,确保敏感数据绝不会离开您的边界,从而满足医疗保健、金融和政府等行业常见的严格监管要求。
结语
我们正在从可生成对话和内容的生成式 AI(gen AI)时代过渡到可代表我们执行任务的代理式 AI 时代。在这个新时代,问题不再是哪个模型最大,而是哪个基础架构最可靠、最安全。当业务运营依赖于一系列专用数字代理时,“黑箱”云模型已经无法满足需求。您需要的是自主可控、高速响应、精准执行。
红帽相信通往代理式未来的道路是开放的。通过利用可借助红帽 AI 产品组合进行微调、部署和编排的精选小语言模型,企业可以将 AI 从实验室真正融入核心业务逻辑。
这个领域正在快速发展,但目标清晰明确:停止追逐巨型模型,开始构建坚实根基。AI 的未来在于轻量化、高速化,并基于开放混合云构建。
了解更多
关于作者
Catherine Weeks is an Engineering Director in Red Hat AI, where she leads the teams building software with the latest generative AI innovations.
With a background in software design, Catherine is a leader who excels at translating complex customer needs into practical engineering solutions. She is known for her ability to work at every level—from high-level strategy down to the hands-on work of getting it done. This approach helps her balance the fast-moving world of AI innovation with the need to build the reliable, high-quality products customers depend on, all while fostering a supportive team culture.
With over 20 years in the software industry, Catherine has a proven record of mentoring strong teams and has always been a champion for the end-user.
Ricardo is a Principal Software Engineer working at the Red Hat's Office of the CTO in the Emerging Technologies organization as Initiative lead. Ricardo is currently focused on the different kinds of architectures in the AI space like SLMs and multimodality. He has been part of the MicroShift and Edge Manager projects since its inception.
He is a former member of the Akraino Technical Steering Committee and Project Technical Lead of the Kubernetes-Native-Infrastructure blueprint family. He's been doing R&D related to OpenStack, as well as, contributing to OpenDaylight project and OPNFV. He is passionate about new technologies and everything related to the Open Source world. Ricardo holds a MSc Degree in Telecommunications from Technical University of Madrid (UPM). He loves music, photography and outdoor sports.