Sécurité et sûreté des systèmes d'IA

13 juin 2024Huzaifa Sidhpurwala5 minutes (temps de lecture)

Il est difficile d'imaginer des systèmes informatiques modernes qui n'aient pas été améliorés par la puissance de l'intelligence artificielle (IA). Par exemple, lorsque vous prenez une photo avec l'appareil de votre smartphone, en moyenne, plus de vingt modèles d'apprentissage profond entrent en action, de la détection d'objets à la perception de la profondeur, et ils fonctionnent tous de façon unifiée pour vous aider à réaliser des clichés parfaits.

L'IA permet d'améliorer les processus métier, les applications de productivité et l'expérience utilisateur. Or, rares sont les technologies qui ont connu le même développement avec cette taille, cette rapidité et cette portée. Comme toute autre technologie, l'IA comporte cependant ses propres risques, qui, dans notre cas, concernent la sécurité et la sûreté et même parfois les obligations légales. Dans cet article, nous parlerons de certains de ces problèmes de sûreté, en particulier de ceux liés à l'IA générative, et de la manière dont nous pouvons développer des systèmes d'IA plus sûrs, plus sécurisés et plus fiables.

Faire la distinction entre sécurité et sûreté

Comme n'importe quel système informatique (matériel ou logiciel), les systèmes d'IA peuvent être utilisés à des fins malveillantes, comme le « jailbreaking », l'injection d'invites, l'entraînement contradictoire, etc. Les systèmes d'IA introduisent cependant un nouveau modèle dans le secteur : la sûreté des données d'exploitation. Cela est principalement dû aux raisons suivantes :

Le résultat de l'IA est souvent généré sur la base d'un entraînement antérieur du modèle, et la qualité du résultat dépend de la qualité des données utilisées au cours de l'entraînement. Les modèles connus se félicitent de l'utilisation de la quantité de données disponible, qui est souvent mesurée par le nombre de jetons utilisés pour entraîner le modèle. La théorie est que plus il y a de jetons textuels utilisés, plus l'entraînement du modèle est efficace.
Les résultats du modèle peuvent contribuer à la prise de décisions métier, utilisateur et techniques. Vous risquez de subir des pertes financières et des conséquences juridiques et en matière de sûreté. Par exemple, Internet regorge de codes non sécurisés. Tout modèle entraîné avec ces codes risque donc de générer du code non sécurisé. Si le code généré est utilisé directement dans un projet logiciel, il peut constituer un nouveau type d'attaque contre la chaîne logistique.

Bien que certains aspects de la sécurité et sûreté de l'IA soient liés, la plupart des frameworks de sécurité ont tendance à les traiter séparément. La mise en place des normes de sûreté sur les ordinateurs est une méthode relativement nouvelle pour la plupart des entreprises, et nous essayons encore de nous y familiariser.

Questions de sûreté lors de l'utilisation des modèles d'IA

En résumé, les modèles d'IA fonctionnent en prédisant le mot suivant dans une phrase. Bien que ces modèles aient évolué pour être beaucoup plus avancés, ils fonctionnent toujours fondamentalement sur ce principe. Par conséquent, il y a certains points intéressants à prendre en compte lorsqu'il est question de sûreté de l'IA.

À données inexactes, résultats erronés

La phrase « À données inexactes, résultats erronés » est un principe informatique de base qui s'applique également aux modèles d'IA, mais d'une manière légèrement différente. Un modèle d'IA « apprend » à partir d'un ensemble de données particulier lors de sa phase d'entraînement. En général, cette phase d'entraînement se divise en deux parties. La première partie est la phase préliminaire, au cours de laquelle un grand volume de données est utilisé, souvent obtenues sur Internet. La deuxième partie est la phase d'ajustement, où les données spécifiques à l'objectif du modèle sont utilisées pour améliorer le modèle pour une tâche ou un ensemble de tâches plus ciblées. Certains modèles peuvent passer par plus de deux phases, en fonction de leur architecture et de leur finalité.

Comme on peut s'y attendre, l'entraînement de votre modèle sur la base de données obtenues en masse sur Internet, sans filtrage des contenus sensibles, dangereux et offensants, peut entraîner des résultats inattendus et négatifs.

Des modèles qui fabulent

Je compare souvent les modèles d'IA à des enfants. Les enfants qui ne connaissent pas la réponse à une question inventent souvent une histoire entièrement fausse, mais convaincante. Les modèles présentent de nombreuses similitudes, mais leurs résultats peuvent être plus dangereux ou plus préjudiciables, en particulier lorsqu'ils génèrent des réponses susceptibles d'avoir des implications financières, sociales ou de sécurité.

Tests et évaluations de la sécurité

Bien que le secteur de l'IA n'en soit qu'à ses balbutiements, certaines propositions de normes de référence nous ont semblées intéressantes et méritent de s'y intéresser :

Le groupe de travail MLCommons AI Safety a publié la preuve de concept de MLCommons AI Safety v0.5 (POC). Le POC mesure la sécurité des grands modèles de langage en évaluant les réponses des modèles à des invites dans plusieurs catégories de dangers.
Le NIST (National Institute of Standards and Technology) qui dépend du département du Commerce des États-Unis a publié un projet de cadre de gestion des risques pour l'intelligence artificielle (IA RMF 1.0). AI RMF explique comment quantifier et détecter les risques, ainsi que comprendre leurs manifestes, leurs conséquences et leur gestion
Trusty AI est un projet Open Source lancé par Red Hat qui a pour but de réduire les problèmes de biais en matière d'IA.

La création de garde-fous

Les applications et modèles de garde-fous utilisent diverses méthodes pour s'assurer que la sortie d'un modèle est conforme aux exigences de sécurité définies. Plusieurs outils Open Source et projets existent pour faciliter la mise en place de ces garde-fous. Un garde-fou n'est cependant qu'un autre élément logiciel qui comporte ses propres risques et limites. Il appartient aux créateurs de modèles d'établir des mécanismes pour mesurer et évaluer la dangerosité de leurs modèles avant de les mettre en production.

L'importance de l'Open Source

Alors que le secteur discute toujours de ce qu'est un modèle Open Source pour l'IA et de ce que ce modèle devrait être, IBM et Red Hat ouvrent la voie en mettant en œuvre des normes et des données ouvertes pour les modèles d'IA que nous distribuons. Notamment :

Les modèles de fondation IBM Granite, qui sont fournis avec l'IA Red Hat Enterprise Linux (RHEL), sont pré-entraînés sur les données ouvertes. Cela signifie que toutes les sources de données sont publiées et peuvent être examinées. Plusieurs techniques de nettoyage des données sont également utilisées sur les données de pré-entraînement pour filtrer les contenus potentiellement sensibles, dangereux et offensants avant leur transmission au modèle.
Le projet InstructLab de Red Hat permet de simplifier la phase d'ajustement de l'entraînement des modèles. Cela permet notamment de réduire les problèmes de sécurité et d'éthique potentiels liés qux résultats du modèle. Une quantité considérable de recherches récentes confirment cette théorie. Pour en savoir plus, lisez cet article sur le blog Google : Protecting users with differentially private synthetic training data

Red Hat est également membre fondateur d'AI Alliance. Il s'agit d'un réseau d'entreprises, de startups, d'universités, d'établissements de recherche, d'organisations gouvernementales et de fondations à but non lucratif qui sont à la pointe de la technologie, des applications et de la gouvernance de l'IA. Dans le cadre de cette alliance, nous souhaitons favoriser la création d'un environnement d'IA véritablement ouvert plus sûr et plus sécurisé, pour nos clients, mais aussi pour l'ensemble de la communauté Open Source.

Résumé

L'intelligence artificielle n'en est qu'à ses débuts en matière de développement, et il est essentiel pour nous de réfléchir à sa sécurité et sa sûreté dès aujourd'hui, plutôt que d'essayer de l'intégrer plus tard. Chez Red Hat, nous sommes convaincus qu'il s'agit d'un domaine du développement de l'IA dans lequel l'Open Source et les systèmes ouverts peuvent faire une différence radicale.

En savoir plus sur RHEL AI

À propos de l'auteur

Huzaifa Sidhpurwala

Senior Principal Product Security Engineer - AI security, safety and trustworthiness

Huzaifa Sidhpurwala is a Senior Principal Product Security Engineer - AI security, safety and trustworthiness, working for Red Hat Product Security Team.

Read full bio