Le PEFT, qu'est-ce que c'est ?

Copier l'URL

Pour fonctionner, les grands modèles de langage (LLM) nécessitent des ressources de calcul ainsi que des moyens financiers. Le PEFT (Parameter-Efficient Fine-Tuning), ou réglage fin efficace des paramètres, est un ensemble de techniques qui servent à régler une partie seulement des paramètres d'un LLM afin d'économiser des ressources. 

Avec le PEFT, la personnalisation des LLM devient plus accessible et les résultats sont comparables à ceux d'un modèle auquel un réglage fin traditionnel a été appliqué. 

Découvrir Red Hat AI

Le réglage fin et le PEFT sont deux techniques d'alignement des LLM. Elles permettent d'adapter le réglage et d'utiliser les données ciblées pour obtenir le résultat souhaité. Le PEFT peut être considéré comme une évolution du réglage fin traditionnel.

Le réglage fin traditionnel implique d'entraîner le modèle dans son ensemble, ce qui requiert du temps ainsi qu'un important volume de données et de ressources de calcul. 

Parce que le PEFT ne modifie qu'une petite partie des paramètres d'un modèle, il s'agit d'une méthode plus accessible pour les entreprises qui disposent de ressources limitées. 

Le PEFT permet d'entraîner de grands modèles plus rapidement avec moins de matériel. 

Voici les principaux avantages de cette méthode :

  • Rapidité de l'entraînement : le PEFT met à jour un plus petit nombre de paramètres, ce qui permet d'accélérer les tests et les itérations.
  • Optimisation des ressources : le PEFT utilise beaucoup moins de mémoire GPU que le réglage fin traditionnel et peut être effectué sur du matériel grand public. Il est donc possible d'entraîner un LLM sur un ordinateur portable plutôt que sur un serveur dédié.
  • Protection contre les oublis catastrophiques : on parle d'oubli catastrophique quand le modèle oublie les connaissances déjà acquises au moment où il reçoit de nouvelles données d'entraînement. Le PEFT permet d'éviter ce phénomène, car il ne met à jour que quelques paramètres au lieu du modèle entier.
  • Portabilité : les modèles réglés avec le PEFT sont plus petits et plus faciles à gérer et à déployer sur les différentes plateformes. Il est ainsi plus simple de les mettre à jour et de les améliorer dans un environnement d'exploitation.
  • Durabilité : le PEFT favorise une exploitation écoresponsable, car il utilise moins de ressources de calcul.
  • Accessibilité : même avec des ressources de calcul limitées, les équipes et les entreprises peuvent effectuer le réglage fin de modèles et obtenir de bons résultats.

En savoir plus sur l'IA pour les entreprises 

Les LLM sont composés de plusieurs couches de réseaux de neurones. Celles-ci forment une sorte d'organigramme qui commence par une couche d'entrée et se termine par une couche de sortie. Entre les deux, plusieurs autres couches jouent chacune un rôle dans le traitement des données au sein du réseau de neurones.

Pour modifier la manière dont un modèle de langage traite les informations, il faut modifier ses paramètres. 

Découvrir comment optimiser des LLM avec des GPU grâce au PEFT

Paramètres d'un LLM

Les paramètres (ou pondérations) déterminent la façon dont un LLM comprend le langage. 

On pourrait les comparer à un engrenage dans une machine : chaque paramètre dispose d'une valeur numérique spécifique dont la modification affecte la capacité du modèle à interpréter et générer un langage. 

Un LLM peut contenir des milliards, voire des centaines de milliards de paramètres. Plus ce nombre est élevé, plus le modèle est capable de réaliser des tâches complexes. 

Néanmoins, les modèles qui contiennent le plus de paramètres sont aussi ceux qui nécessitent le plus de ressources matérielles. Un tel investissement n'est pas possible pour toutes les entreprises, ce qui souligne l'importance des techniques de réglage telles que le PEFT. 

Pour augmenter l'efficacité d'un modèle, il existe des solutions qui éliminent les paramètres non nécessaires sans perdre en précision.

Réglage fin des paramètres en toute efficacité

La stratégie du PEFT repose sur la modification d'un petit nombre de paramètres tout en préservant la majeure partie de la structure du modèle préentraîné, notamment grâce aux techniques suivantes :

Gel de certaines couches du modèle : lors de l'inférence, les calculs passent par toutes les couches d'un réseau de neurones. En gelant certaines de ces couches, il est possible de réduire la puissance de traitement nécessaire pour effectuer les calculs. 

Ajout d'adaptateurs : les adaptateurs sont comme l'extension d'un jeu de société. Ils viennent s'ajouter aux couches du modèle préentraîné et sont entraînés pour intégrer des informations propres à un domaine ou à une application. Ainsi, le modèle d'origine ne change pas, mais acquiert de nouvelles capacités. 

Voici les principales méthodes utilisées pour le PEFT :

  • LoRA (Low-Rank Adaptation)
  • QLoRA (Quantized Low-Rank Adaptation)
  • Réglage des préfixes
  • Réglage des instructions génératives
  • P-tuning

En savoir plus sur les techniques LoRA et QLoRA

vLLM est un outil de choix dans ce domaine : serveur et moteur d'inférence peu gourmand en mémoire, il est conçu pour améliorer la vitesse et la puissance de traitement des grands modèles de langage dans les environnements de cloud hybride. La compatibilité de vLLM avec le PEFT, en particulier pour la prise en charge de plusieurs adaptateurs LoRA, améliore considérablement l'efficacité, en permettant à un modèle de base de rester chargé dans la mémoire GPU. 

L'utilisation de vLLM au service du PEFT permet à un modèle de distribuer plusieurs versions soumises au réglage fin simultanément. En d'autres termes, le PEFT crée de petits fichiers, tandis que vLLM optimise leur prise en charge en partageant et distribuant les ressources de mémoire (comme le cache clé-valeur) à partir d'un modèle sous-jacent unique. 

En savoir plus sur vLLM

Le réglage fin est une manière de communiquer une intention au LLM pour que celui-ci adapte ses résultats en fonction des objectifs.

Par exemple, un LLM sera capable de rédiger un e-mail dans le style de Shakespeare, sans pour autant connaître les produits vendus par l'entreprise.

Le réglage fin permet d'entraîner ce modèle avec les informations spécifiques de l'entreprise. 

Ce processus consiste à entraîner davantage un modèle préentraîné à l'aide d'un ensemble de données plus adapté, afin qu'il réalise efficacement des tâches précises. Ces données d'entraînement complémentaires modifient les paramètres du modèle et créent une nouvelle version qui remplace le modèle d'origine.

Le réglage fin est essentiel pour personnaliser les LLM destinés à un cas d'utilisation propre à un domaine. Cependant, la technique traditionnelle se révèle coûteuse. 

Coût élevé du réglage fin

Voici les principaux facteurs qui font augmenter le coût du réglage fin d'un LLM :

  • Exigences liées au GPU : le réglage fin nécessite une puissance de traitement importante. Les GPU ont un coût élevé d'achat et d'exploitation, et ils sont longuement sollicités lors du réglage fin. La consommation énergétique et le refroidissement peuvent également entraîner des frais élevés.
  • Exigences liées aux données : le réglage fin d'un LLM à l'aide de nouvelles informations requiert des ensembles de données de qualité, accompagnés de métadonnées pertinentes. Les étapes d'acquisition, de compilation et de prétraitement de ces données sont souvent coûteuses et chronophages. 

L'alignement d'un LLM consiste à entraîner et personnaliser un modèle de langage pour qu'il produise les résultats souhaités.

Plusieurs facteurs sont à prendre en compte pour choisir la technique d'alignement idéale :

  • Dépendance aux données : quel est le volume de données nécessaire ? L'accès aux données requises est-il garanti ?
  • Précision : dans quelle mesure cette technique améliore-t-elle la précision du modèle après le réglage ?
  • Complexité : cette technique est-elle simple à utiliser ?

Par rapport au réglage fin traditionnel, le PEFT nécessite moins de données. Il est intuitif et offre un niveau de précision très élevé. 

Il existe une autre option pour l'alignement des LLM : la génération augmentée de récupération (RAG). Cette technique permet de compléter les données que contient un LLM avec une sélection de sources de connaissances externes, comme des référentiels de données, des corpus et de la documentation. Malgré une forte dépendance aux données, la RAG est plus facile à utiliser que le réglage fin et présente des taux de précision élevés. 

En savoir plus sur la RAG et le réglage fin

Le PEFT fait partie des techniques d'alignement qui peuvent être mises en œuvre avec Red Hat® OpenShift® AI.

Plateforme MLOps flexible et évolutive, la solution OpenShift AI inclut des outils de développement, de déploiement et de gestion d'applications basées sur l'IA. Ces outils prennent en charge l'intégralité du cycle de vie des essais et des modèles d'IA/AA, sur site et dans le cloud public.

En savoir plus sur Red Hat OpenShift AI

Red Hat® AI est une gamme de produits et de services qui permettent aux entreprises d'avancer dans le déploiement de l'IA, qu'elles soient au tout début du processus ou déjà prêtes à évoluer dans le cloud hybride. Cette offre répond aux besoins en matière d'IA prédictive et générative, et convient aux cas d'utilisation propres à chaque entreprise.

Red Hat AI s'appuie sur des technologies Open Source et un écosystème de partenaires axé sur les performances, la stabilité et la prise en charge des GPU au sein d'infrastructures diverses. Cette solution permet de régler efficacement les petits modèles spécifiques et de les déployer avec flexibilité, quel que soit l'emplacement des données.

Ressource

Se lancer avec l'IA en entreprise : guide pour les débutants

Consultez ce guide pour les débutants afin de savoir comment les solutions Red Hat OpenShift AI et Red Hat Enterprise Linux AI peuvent accélérer votre parcours d'adoption de l'IA.

Red Hat OpenShift AI

Plateforme d'intelligence artificielle (IA) dont les outils permettent de développer, d'entraîner, de distribuer et de surveiller rapidement les modèles et les applications basées sur l'IA.

En savoir plus

L'inférence d'IA, qu'est-ce que c'est ?

L'inférence d'intelligence artificielle est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. Il s'agit de l'étape finale d'un processus complexe d'apprentissage automatique.

IA : un modèle de fondation, qu'est-ce que c'est ?

Un modèle de fondation est un type de modèle d'apprentissage automatique (AA) qui est préentraîné pour réaliser une série de tâches.

L'IA générative, qu'est-ce que c'est ?

L'IA générative est une technologie d'intelligence artificielle capable de créer des contenus à partir de modèles d'apprentissage profond entraînés avec de grands ensembles de données.

IA/ML : ressources recommandées

Articles associés