人工智能(AI)的概念并不新鲜,但相关技术的最新发展已将这一概念从假想而非现实的存在,转变为我们许多人每天都在使用的工具。人工智能的重要性与日俱增,其普及既让人兴奋,也可能令人担忧。这是因为许多人工智能工具的基础本质上是黑匣子,由少数强大的公司拥有和控制。
红帽坚信,每个人都应有能力为 AI 做出贡献。AI 创新不应局限于那些能负担海量处理能力以及训练这些日益庞大的大型语言模型(LLM)所需专业数据科学家的公司。
相反,我们将数十年的开源经验应用于 AI 工具和框架的开发,让每个人都能为 AI 做出贡献并从中受益,同时帮助塑造 AI 的未来和发展。我们相信,开源是充分发挥 AI 潜力的唯一途径,可以让 AI 变得更安全、更易于访问和更大众化。
什么是开源?
虽然“开源”一词最初指的是一种软件开发方法,但后来已扩展到包含一种更通用的工作方式,即开放、去中心化和深度协作。如今,开源运动已远远超出了软件领域,世界各地的协作努力,包括科学、教育、政府、工业、医疗保健等领域,都有采用开源的方式。
开源文化有一些基本原则和价值观,使其能发挥如此大的效能和影响力,其中包括:
- 协作参与
- 共同承担责任
- 开放交换
- 任人唯贤和包容
- 面向社区的开发
- 开放协作
- 自组织
- 尊重和互惠
历史表明,当开源原则成为协作的基础时,不可思议的事情就有可能实现。一些关键的例子包括:Linux 作为世界上最强大、最普及的操作系统的开发和普及,Kubernetes 和容器的出现和发展,以及互联网本身的开发和扩展。
开源和 AI
那么,在这个新的 AI 时代,开源方式是否仍然具有相关性?
我们认为,简短的回答是:“当然,是的。”但是,让我们扩展这一点,并深入了解为什么我们相信这一点。
AI 时代开源的 6 大优势
我们可以在这里讨论的不止六个优势,但我们将从最重要的几个开始。
1.加快创新速度
与封闭的企业和专有解决方案不同,当技术以协作和开放的方式开发时,创新和发现可以更快地发生。
当工作公开共享,且其他人能够在此基础上继续开发时,团队便无需为每个新项目都从基本原理开始,从而节省了大量时间和精力。新的想法可以建立在之前项目的基础上。这不仅节省了时间和金钱,而且随着越来越多的人一起解决问题、分享见解和审查彼此的工作,它还增强了成果。
一个规模更大、协作性更强的社区能够取得更大的成就。与单独工作的小规模孤立团队相比,更多人一起解决复杂问题能够更快、更有效地进行创新。
2.大众化访问
开源也使得这些新兴人工智能技术的获取变得民主化。开放共享研究成果、代码和工具,有助于消除通常限制获得前沿创新的一些障碍。
InstructLab 项目就是一个很好的例子。InstructLab 是一个与模型无关的开源 AI 项目,简化了向 LLM 贡献技能和知识的过程。该项目的目标是让任何人都能帮助塑造生成式 AI(gen AI),包括那些不具备通常所需的数据科学技能和培训的人员。这使得更多的个人和组织能够以可信的方式为 LLM 的培训和改进做出贡献,从而……
3.改进安全性、保密性和隐私性
由于开源项目降低了进入门槛,因此有更多、更多样化的贡献者群体能够帮助识别和解决 AI 模型开发过程中潜在的安全和偏见问题。
用于训练和微调封闭式 AI 模型的数据和方法都是专有的,受到严密保护。局外人很少能够深入了解这些模型的工作原理,以及它们是否包含任何潜在的危险数据或固有的偏见。
但是,如果模型和用于训练模型的数据是开放的,任何愿意参与的人都可以对其进行检查,从而减少潜在的危险,并将偏差降至最低。此外,开源贡献者可以创建工具和流程来跟踪和审核未来的模型和应用开发,随着时间的推移帮助提高和维护其安全性。
这种开放性和透明度也能建立信任,因为用户可以直接检查自己的数据是如何被使用和处理的,从而验证自己的隐私和数据主权是否得到了尊重。
最后,公司可以使用 InstructLab 等开源项目创建自己的微调模型并对其进行严格控制,从而保护其私有、敏感或其他专有数据。
4.提供灵活性和选择自由
虽然在谈到新一代 AI 时,大多数人看到和想到的都是单体式、专有的黑匣子 LLM,但我们开始看到越来越多的人朝着更小、独立、专用的 AI 模型发展。
这些小语言模型(SLM)通常在较小的数据集上进行训练,以赋予其基本功能,然后使用特定领域的数据和知识针对特定用例进一步定制。
这些 SLM 的效率要远远高于大型同类产品,事实证明,在用于预期用途时,其性能也同样(甚至更好)。它们的训练和部署速度更快、效率更高,并且可以根据需要进行自定义和调整。
而这在很大程度上正是 InstructLab 项目的设计初衷。有了它,您可以采用一个较小的开放式 AI 模型(例如 IBM 的一个开源Granite 模型),并使用您喜欢的任何额外数据和训练进行增强。
例如,您可以使用 InstructLab 来创建经过高度调优、专门构建的客户支持聊天机器人,该机器人会根据您的内部知识和最佳实践进行培训,从而使您能够随时随地为每个人提供最佳的客户服务体验。
更重要的是,这可以让您避免供应商锁定,并在部署 AI 模型和在此基础上构建的任何应用的位置和方式方面提供灵活性。
5.打造充满活力的生态系统
红帽深信“协作创新,同行者众”,自首次推出红帽企业 Linux(RHEL)以来,我们一直秉承这一信念。这种信念在很大程度上基于我们的合作伙伴不仅为红帽,也为我们的客户带来的不可思议的价值。
在 AI 时代依然如此,我们以红帽 AI 的形式提供一系列开源工具和框架,我们的合作伙伴将以此为基础为我们的客户创造更多价值。而这一切之所以成为可能,是因为我们以开放的方式运营,并与我们的上游项目以及世界各地的其他研究人员、公司和合作伙伴通力协作。
没有一家供应商能够提供企业所需的一切,甚至希望跟上当今技术发展的速度。开源原则和实践通过促进跨项目和行业的合作伙伴关系和协作机会,加速创新并实现充满活力的生态系统。
6.降低成本
到 2025 年初,据估计美国数据科学家的平均基本工资将超过 125000 美元,而且越来越资深的数据科学家能够掌控更多。
显然,随着人工智能的力量和普及度呈爆炸式增长,对数据科学家的需求量巨大且不断增长,但很少有公司对吸引和留住所需的专业人才抱有很大希望。
真正的大型 LLM 在构建、训练、维护和部署方面都非常昂贵,需要整个仓库装满高度优化(且非常昂贵)的计算机设备,以及大量的存储空间。
开放、小型、专用的模型和 AI 应用的构建、训练和部署效率显着提高。像 InstructLab 这样的项目不仅需要 LLM 的一小部分计算能力,而且使没有专业技能和经验的人也能积极有效地为训练和微调 AI 模型做出贡献。
显然,开源为 AI 开发带来的成本节约和灵活性对于希望利用 AI 应用带来的竞争优势的中小型企业来说是有利的。
总结
我们认为,在构建 AI 时,务必要遵循开放原则,并与诞生了云计算、互联网、Linux 和许多其他强大且深度创新的开放技术的社区同心协力。
这正是红帽 AI 产品战略的发展方向。我们一直在产品和项目中拥抱开源的力量,我们也在 AI 领域践行同样的理念。
每个人都应该能够从 AI 中受益,因此每个人都应该能够帮助确定和塑造其发展轨迹,并为其发展做出贡献。开源和协作创新对于 AI 的未来至关重要,只有这样,AI 才能继续为所有人所用并从中受益。
关于作者
Deb Richardson joined Red Hat in 2021 and is a Senior Content Strategist, primarily working on the Red Hat Blog.