Le PEFT, qu'est-ce que c'est ?

Copier l'URL

Pour fonctionner, les grands modèles de langage (LLM) nécessitent des ressources de calcul ainsi que des moyens financiers. Le PEFT (Parameter-Efficient Fine-Tuning), ou réglage fin efficace des paramètres, est un ensemble de techniques qui servent à régler une partie seulement des paramètres d'un LLM afin d'économiser des ressources. 

Avec le PEFT, la personnalisation des LLM devient plus accessible et les résultats sont comparables à ceux d'un modèle auquel un réglage fin traditionnel a été appliqué. 

Découvrir Red Hat AI

Le réglage fin et le PEFT sont deux techniques d'alignement des LLM. Elles permettent d'adapter le réglage et d'utiliser les données ciblées pour obtenir le résultat souhaité. Le PEFT peut être considéré comme une évolution du réglage fin traditionnel.

Le réglage fin traditionnel implique d'entraîner le modèle dans son ensemble, ce qui requiert du temps ainsi qu'un important volume de données et de ressources de calcul. 

Parce que le PEFT ne modifie qu'une petite partie des paramètres d'un modèle, il s'agit d'une méthode plus accessible pour les entreprises qui disposent de ressources limitées. 

Le PEFT permet d'entraîner de grands modèles plus rapidement avec moins de matériel. 

Voici les principaux avantages de cette méthode :

  • Rapidité de l'entraînement : le PEFT met à jour un plus petit nombre de paramètres, ce qui permet d'accélérer les tests et les itérations.
  • Optimisation des ressources : le PEFT utilise beaucoup moins de mémoire GPU que le réglage fin traditionnel et peut être effectué sur du matériel grand public. Il est donc possible d'entraîner un LLM sur un ordinateur portable plutôt que sur un serveur dédié.
  • Protection contre les oublis catastrophiques : on parle d'oubli catastrophique quand le modèle oublie les connaissances déjà acquises au moment où il reçoit de nouvelles données d'entraînement. Le PEFT permet d'éviter ce phénomène, car il ne met à jour que quelques paramètres au lieu du modèle entier.
  • Portabilité : les modèles réglés avec le PEFT sont plus petits et plus faciles à gérer et à déployer sur les différentes plateformes. Il est ainsi plus simple de les mettre à jour et de les améliorer dans un environnement d'exploitation.
  • Durabilité : le PEFT favorise une exploitation écoresponsable, car il utilise moins de ressources de calcul.
  • Accessibilité : même avec des ressources de calcul limitées, les équipes et les entreprises peuvent effectuer le réglage fin de modèles et obtenir de bons résultats.

Les LLM sont composés de plusieurs couches de réseaux de neurones. Celles-ci forment une sorte d'organigramme qui commence par une couche d'entrée et se termine par une couche de sortie. Entre les deux, plusieurs autres couches jouent chacune un rôle dans le traitement des données au sein du réseau de neurones.

Pour modifier la manière dont un modèle de langage traite les informations, il faut modifier ses paramètres. 

Découvrir comment optimiser des LLM avec des GPU grâce au PEFT

Paramètres d'un LLM

Les paramètres (ou pondérations) déterminent la façon dont un LLM comprend le langage. 

On pourrait les comparer à un engrenage dans une machine : chaque paramètre dispose d'une valeur numérique spécifique dont la modification affecte la capacité du modèle à interpréter et générer un langage. 

Un LLM peut contenir des milliards, voire des centaines de milliards de paramètres. Plus ce nombre est élevé, plus le modèle est capable de réaliser des tâches complexes. 

Néanmoins, les modèles qui contiennent le plus de paramètres sont aussi ceux qui nécessitent le plus de ressources matérielles. Un tel investissement n'est pas possible pour toutes les entreprises, ce qui souligne l'importance des techniques de réglage telles que le PEFT. 

Pour augmenter l'efficacité d'un modèle, il existe des solutions qui éliminent les paramètres non nécessaires sans perdre en précision.

Réglage fin des paramètres en toute efficacité

La stratégie du PEFT repose sur la modification d'un petit nombre de paramètres tout en préservant la majeure partie de la structure du modèle préentraîné, notamment grâce aux techniques suivantes :

Gel de certaines couches du modèle : lors de l'inférence, les calculs passent par toutes les couches d'un réseau de neurones. En gelant certaines de ces couches, il est possible de réduire la puissance de traitement nécessaire pour effectuer les calculs. 

Ajout d'adaptateurs : les adaptateurs sont comme l'extension d'un jeu de société. Ils viennent s'ajouter aux couches du modèle préentraîné et sont entraînés pour intégrer des informations propres à un domaine ou à une application. Ainsi, le modèle d'origine ne change pas, mais acquiert de nouvelles capacités. 

Voici les principales méthodes utilisées pour le PEFT :

  • LoRA (Low-Rank Adaptation)
  • QLoRA (Quantized Low-Rank Adaptation)
  • Réglage des préfixes
  • Réglage des instructions génératives
  • P-tuning

En savoir plus sur les techniques LoRA et QLoRA

vLLM est un outil de choix dans ce domaine : serveur et moteur d'inférence peu gourmand en mémoire, il est conçu pour améliorer la vitesse et la puissance de traitement des grands modèles de langage dans les environnements de cloud hybride. La compatibilité de vLLM avec le PEFT, en particulier pour la prise en charge de plusieurs adaptateurs LoRA, améliore considérablement l'efficacité, en permettant à un modèle de base de rester chargé dans la mémoire GPU. 

L'utilisation de vLLM au service du PEFT permet à un modèle de distribuer plusieurs versions soumises au réglage fin simultanément. En d'autres termes, le PEFT crée de petits fichiers, tandis que vLLM optimise leur prise en charge en partageant et distribuant les ressources de mémoire (comme le cache clé-valeur) à partir d'un modèle sous-jacent unique. 

En savoir plus sur vLLM

Le réglage fin est une manière de communiquer une intention au LLM pour que celui-ci adapte ses résultats en fonction des objectifs.

Par exemple, un LLM peut savoir rédiger un e-mail dans le style de Shakespeare, mais ne rien connaître des produits vendus par l'entreprise.

Le réglage fin permet d'entraîner ce modèle avec les informations spécifiques de l'entreprise. 

Ce processus consiste à entraîner davantage un modèle préentraîné à l'aide d'un ensemble de données plus adapté, afin qu'il réalise efficacement des tâches précises. Ces données d'entraînement complémentaires modifient les paramètres du modèle et créent une nouvelle version qui remplace le modèle d'origine.

Le réglage fin est essentiel pour personnaliser les LLM destinés à un cas d'utilisation propre à un domaine. Cependant, la technique traditionnelle se révèle coûteuse. 

Coût élevé du réglage fin

Voici les principaux facteurs qui font augmenter le coût du réglage fin d'un LLM :

  • Exigences liées aux GPU : le réglage fin nécessite une puissance de traitement importante. Les GPU ont un coût élevé d'achat et d'exploitation, et ils sont longuement sollicités lors du réglage fin. La consommation énergétique et le refroidissement peuvent également entraîner des frais élevés.
  • Exigences liées aux données : le réglage fin d'un LLM à l'aide de nouvelles informations requiert des ensembles de données de qualité, accompagnés de métadonnées pertinentes. Les étapes d'acquisition, de compilation et de prétraitement de ces données sont souvent coûteuses et chronophages. 

L'alignement d'un LLM consiste à entraîner et personnaliser un modèle de langage pour qu'il produise les résultats souhaités.

Plusieurs facteurs sont à prendre en compte pour choisir la technique d'alignement idéale :

  • Dépendance aux données : quel est le volume de données nécessaire ? L'accès aux données requises est-il garanti ?
  • Précision : dans quelle mesure cette technique améliore-t-elle la précision du modèle après le réglage ?
  • Complexité : cette technique est-elle simple à utiliser ?

Par rapport au réglage fin traditionnel, le PEFT nécessite moins de données. Il est intuitif et offre un niveau de précision très élevé. 

Il existe une autre option pour l'alignement des LLM : la génération augmentée de récupération (RAG). Cette technique permet de compléter les données que contient un LLM avec une sélection de sources de connaissances externes, comme des référentiels de données, des corpus et de la documentation. Malgré une forte dépendance aux données, la RAG est plus facile à utiliser que le réglage fin et présente des taux de précision élevés. 

En savoir plus sur la RAG et le réglage fin

La gamme Red Hat® AI offre des fonctionnalités d'inférence rapides, flexibles et efficaces au moyen d'un serveur basé sur vLLM. Elle relie de manière fiable les modèles aux données pour unifier la personnalisation et le développement d'agents spécialisés sur une seule et même plateforme. Conçus sur une base Open Source, nos produits donnent un contrôle total sur les workflows d'IA, de bout en bout et à toutes les échelles. 

La gamme Red Hat AI inclut Red Hat AI Enterprise, une plateforme qui permet de déployer, gérer et mettre à l'échelle des opérations d'inférence d'IA, des workflows d'IA agentique et des applications basées sur l'IA dans tous types d'infrastructures.

Découvrir Red Hat AI

Blog post

Votre stratégie est-elle réellement souveraine ? Présentation de l’outil Red Hat Sovereignty Readiness Assessment

L’outil Red Hat Sovereignty Readiness Assessment est un service d’évaluation en libre-service basé sur le Web qui fournit une base de référence claire et objective du contrôle numérique de votre organisation dans sept domaines essentiels.

Red Hat OpenShift AI

Plateforme d'intelligence artificielle dont les outils permettent de développer, d'entraîner, de distribuer et de surveiller rapidement les modèles et les applications basées sur l'IA.

En savoir plus

What is deep learning?

L'apprentissage profond est une technique d'intelligence artificielle (IA) qui apprend aux ordinateurs à traiter des données en utilisant un algorithme qui s'inspire du cerveau humain.

What are intelligent applications?

Les applications intelligentes permettent d'améliorer un workflow humain grâce à l'intelligence artificielle (IA).

Understanding AI in telecommunications with Red Hat

Découvrez comment utiliser l'IA de façon efficace et économique avec des solutions informatiques adéquates, afin de relever les principaux défis rencontrés dans le secteur des télécommunications.

IA/ML : ressources recommandées