很难想象有哪个现代计算机系统没有因人工智能(AI)的强大能力而得到提升。例如,当您用智能手机摄像头拍一张照片时,从物体检测到深度感知,平均有 20 多个深度学习(DL)模型开始工作,所有这些模型协同工作,帮助您拍出完美的照片!
业务流程、生产力应用和用户体验都可以通过使用某种形式的 AI 来增强,很少有其他技术能够达到同样的规模、速度和覆盖范围。然而,与任何其他技术一样,人工智能也有其自身的风险,其中包括安全防护和安全性,甚至可能还有法律义务。在本文中,我们将简要介绍其中一些安全防护和安全的问题,特别是与生成式 AI(gen AI)相关的问题,以及我们如何开发更安全、更可靠和更值得信赖的 AI 系统。
安全防护和安全性的区别
与任何计算机系统(硬件或软件)一样,AI 系统也可能被用于不法目的,如越狱、即时注入、对抗性训练等。然而,AI 系统为行业带来了一种新的范式,即输出数据安全性的概念。这主要是因为以下原因:
- AI 输出通常是基于之前的模型训练生成的,其输出的质量取决于训练中使用的数据的质量。众所周知的模型以使用尽可能多的可用数据而自豪,这通常通过用于训练模型的令牌数量来衡量。从理论上讲,使用的令牌越多,模型的训练就越有效
- 模型的输出可用于帮助制定业务、用户和技术决策。这会带来财务损失的风险,以及潜在的安全和法律问题。例如,互联网上不乏不安全的代码,因此在其上训练的任何模型都存在生成不安全代码的风险。如果这些生成的代码直接在软件项目中使用,它可能会成为一种全新的供应链攻击
虽然 AI 安全防护和安全防护的某些方面是相互纠缠的,但大多数安全框架倾向于分开处理它们。对于大多数公司来说,计算机安全标准是一个相对较新的范式,我们仍在努力理解它们。
使用 AI 模型时的安全注意事项
简而言之,生成式 AI 模型的工作原理是预测句子中的下一个单词。尽管这些模型已经发展得更加先进,但它们仍然基本遵循这一原则。这意味着在谈论 AI 安全性时,需要考虑一些有趣的事情。
输入的是垃圾,输出的也只能是垃圾
“垃圾输入,垃圾输出” 是一个非常基本的计算原理,它仍然适用于 AI 模型,但方式略有不同。生成式 AI 模型在训练阶段从一组特定的数据中“学习”。通常,此培训阶段分为两个部分。第一部分是预训练阶段,使用大量数据(通常从互联网获取)。第二部分是微调阶段,在此阶段中,特定于模型用途的数据用于使模型更好地处理更有针对性的任务或一组任务。一些模型可能会经历两个以上的阶段,具体取决于模型的架构和用途。
正如您所料,如果使用从互联网批量获取的数据来训练模型,而没有过滤掉敏感、不安全和令人反感的内容,可能会产生一些意外的不良结果。
模型产生幻觉
我经常将 AI 模型比作小孩。当孩子不知道问题的答案时,他们通常会编造一个完全错误但令人信服的故事。模型在很多方面都很相似,但结果可能更危险或更具破坏性,特别是当模型生成的答案可能具有财务、社会或安全影响时。
安全测试和基准测试
虽然 AI 行业仍处于非常初级的阶段,但我们认为一些基准测试标准的提案有趣且值得关注:
- MLCommons AI 安全工作组 发布了 MLCommons AI 安全 v0.5 基准概念验证 (POC)。POC 侧重于评估大语言模型(LLM)的安全性,方法是评估模型对多个危险类别提示的响应
- 美国商务部下属的国家标准与技术研究院(NIST)发布了人工智能风险管理框架(AI RMF 1.0)。AI RMF 讨论如何量化和检测风险,以及了解其表现、影响和管理
- Trusty AI 是红帽发起的一个开源项目,致力于缓解与 AI 偏差相关的问题
构建护栏
Guardrail 应用和模型使用各种方法来帮助确保模型的输出符合设定的安全要求。有各种开源工具和项目可以帮助设置这些防护栏。然而,Guardrail 只是另一种软件,也有自己的风险和局限性。模型创建者应建立机制,在将模型投入生产之前,对模型的危害性进行衡量和基准测试。
为什么开源与众不同
虽然行业仍在讨论 AI 开源模型的构成以及该模型应该是什么,但 IBM 和红帽通过为我们交付的 AI 模型实施开放标准和开放数据,走在了前面。其中包括:
- 附带红帽企业 Linux(RHEL)AI的IBM 的 Graite 基础模型已基于开放数据进行了预训练。这意味着所有数据源都已发布并可供检查。还对预训练数据使用了多种数据清理技术,以帮助在将数据馈送到模型之前过滤掉潜在的敏感、不安全和令人反感的内容
- 红帽的 InstructLab 项目有助于简化模型训练的微调阶段。除此之外,这有助于减少模型输出的潜在安全和道德问题。最近有大量研究支持这一理论。您可以通过 Google 博客上的这篇文章了解更多信息:利用差异化私有合成训练数据保护用户
红帽还是 AI Alliance 的创始成员之一。这是一个由处于 AI 技术、应用和治理前沿的公司、初创公司、大学、研究机构、政府组织和非营利基金会组成的协作网络。作为这个联盟的一员,我们正在努力推动创建一个真正开放、更安全的 AI 环境,不仅是为了我们的客户,也是为了整个开源社区。
总结
人工智能正处于发展的早期阶段,我们必须现在就考虑它的安全防护,而不是试图在以后阶段才使用它。红帽相信,开源和开放系统可以在 AI 开发领域发挥重要作用。
关于作者
Huzaifa Sidhpurwala is a Senior Principal Product Security Engineer - AI security, safety and trustworthiness, working for Red Hat Product Security Team.