Le PEFT, qu'est-ce que c'est ?

Publié 18 février 2025•6 minutes (temps de lecture)

Pour fonctionner, les grands modèles de langage (LLM) nécessitent des ressources de calcul ainsi que des moyens financiers. Le PEFT (Parameter-Efficient Fine-Tuning), ou réglage fin efficace des paramètres, est un ensemble de techniques qui servent à régler une partie seulement des paramètres d'un LLM afin d'économiser des ressources.

Avec le PEFT, la personnalisation des LLM devient plus accessible et les résultats sont comparables à ceux d'un modèle auquel un réglage fin traditionnel a été appliqué.

Découvrir Red Hat AI

Une plateforme pour des modèles d'IA dans le cloud hybride

Le réglage fin et le PEFT sont deux techniques d'alignement des LLM. Elles permettent d'adapter le réglage et d'utiliser les données ciblées pour obtenir le résultat souhaité. Le PEFT peut être considéré comme une évolution du réglage fin traditionnel.

Le réglage fin traditionnel implique d'entraîner le modèle dans son ensemble, ce qui requiert du temps ainsi qu'un important volume de données et de ressources de calcul.

Parce que le PEFT ne modifie qu'une petite partie des paramètres d'un modèle, il s'agit d'une méthode plus accessible pour les entreprises qui disposent de ressources limitées.

Le PEFT permet d'entraîner de grands modèles plus rapidement avec moins de matériel.

Voici les principaux avantages de cette méthode :

Rapidité de l'entraînement : le PEFT met à jour un plus petit nombre de paramètres, ce qui permet d'accélérer les tests et les itérations.
Optimisation des ressources : le PEFT utilise beaucoup moins de mémoire GPU que le réglage fin traditionnel et peut être effectué sur du matériel grand public. Il est donc possible d'entraîner un LLM sur un ordinateur portable plutôt que sur un serveur dédié.
Protection contre les oublis catastrophiques : on parle d'oubli catastrophique quand le modèle oublie les connaissances déjà acquises au moment où il reçoit de nouvelles données d'entraînement. Le PEFT permet d'éviter ce phénomène, car il ne met à jour que quelques paramètres au lieu du modèle entier.
Portabilité : les modèles réglés avec le PEFT sont plus petits et plus faciles à gérer et à déployer sur les différentes plateformes. Il est ainsi plus simple de les mettre à jour et de les améliorer dans un environnement d'exploitation.
Durabilité : le PEFT favorise une exploitation écoresponsable, car il utilise moins de ressources de calcul.
Accessibilité : même avec des ressources de calcul limitées, les équipes et les entreprises peuvent effectuer le réglage fin de modèles et obtenir de bons résultats.

En savoir plus sur l'IA pour les entreprises

Les LLM sont composés de plusieurs couches de réseaux de neurones. Celles-ci forment une sorte d'organigramme qui commence par une couche d'entrée et se termine par une couche de sortie. Entre les deux, plusieurs autres couches jouent chacune un rôle dans le traitement des données au sein du réseau de neurones.

Pour modifier la manière dont un modèle de langage traite les informations, il faut modifier ses paramètres.

Découvrir comment optimiser des LLM avec des GPU grâce au PEFT

Paramètres d'un LLM

Les paramètres (ou pondérations) déterminent la façon dont un LLM comprend le langage.

On pourrait les comparer à un engrenage dans une machine : chaque paramètre dispose d'une valeur numérique spécifique dont la modification affecte la capacité du modèle à interpréter et générer un langage.

Un LLM peut contenir des milliards, voire des centaines de milliards de paramètres. Plus ce nombre est élevé, plus le modèle est capable de réaliser des tâches complexes.

Néanmoins, les modèles qui contiennent le plus de paramètres sont aussi ceux qui nécessitent le plus de ressources matérielles. Un tel investissement n'est pas possible pour toutes les entreprises, ce qui souligne l'importance des techniques de réglage telles que le PEFT.

Pour augmenter l'efficacité d'un modèle, il existe des solutions qui éliminent les paramètres non nécessaires sans perdre en précision.

Réglage fin des paramètres en toute efficacité

La stratégie du PEFT repose sur la modification d'un petit nombre de paramètres tout en préservant la majeure partie de la structure du modèle préentraîné, notamment grâce aux techniques suivantes :

Gel de certaines couches du modèle : lors de l'inférence, les calculs passent par toutes les couches d'un réseau de neurones. En gelant certaines de ces couches, il est possible de réduire la puissance de traitement nécessaire pour effectuer les calculs.

Ajout d'adaptateurs : les adaptateurs sont comme l'extension d'un jeu de société. Ils viennent s'ajouter aux couches du modèle préentraîné et sont entraînés pour intégrer des informations propres à un domaine ou à une application. Ainsi, le modèle d'origine ne change pas, mais acquiert de nouvelles capacités.

Voici les principales méthodes utilisées pour le PEFT :

LoRA (Low-Rank Adaptation)
QLoRA (Quantized Low-Rank Adaptation)
Réglage des préfixes
Réglage des instructions génératives
P-tuning

En savoir plus sur les techniques LoRA et QLoRA

vLLM est un outil de choix dans ce domaine : serveur et moteur d'inférence peu gourmand en mémoire, il est conçu pour améliorer la vitesse et la puissance de traitement des grands modèles de langage dans les environnements de cloud hybride. La compatibilité de vLLM avec le PEFT, en particulier pour la prise en charge de plusieurs adaptateurs LoRA, améliore considérablement l'efficacité, en permettant à un modèle de base de rester chargé dans la mémoire GPU.

L'utilisation de vLLM au service du PEFT permet à un modèle de distribuer plusieurs versions soumises au réglage fin simultanément. En d'autres termes, le PEFT crée de petits fichiers, tandis que vLLM optimise leur prise en charge en partageant et distribuant les ressources de mémoire (comme le cache clé-valeur) à partir d'un modèle sous-jacent unique.

En savoir plus sur vLLM

Le réglage fin est une manière de communiquer une intention au LLM pour que celui-ci adapte ses résultats en fonction des objectifs.

Par exemple, un LLM sera capable de rédiger un e-mail dans le style de Shakespeare, sans pour autant connaître les produits vendus par l'entreprise.

Le réglage fin permet d'entraîner ce modèle avec les informations spécifiques de l'entreprise.

Ce processus consiste à entraîner davantage un modèle préentraîné à l'aide d'un ensemble de données plus adapté, afin qu'il réalise efficacement des tâches précises. Ces données d'entraînement complémentaires modifient les paramètres du modèle et créent une nouvelle version qui remplace le modèle d'origine.

Le réglage fin est essentiel pour personnaliser les LLM destinés à un cas d'utilisation propre à un domaine. Cependant, la technique traditionnelle se révèle coûteuse.

Coût élevé du réglage fin

Voici les principaux facteurs qui font augmenter le coût du réglage fin d'un LLM :

Exigences liées au GPU : le réglage fin nécessite une puissance de traitement importante. Les GPU ont un coût élevé d'achat et d'exploitation, et ils sont longuement sollicités lors du réglage fin. La consommation énergétique et le refroidissement peuvent également entraîner des frais élevés.
Exigences liées aux données : le réglage fin d'un LLM à l'aide de nouvelles informations requiert des ensembles de données de qualité, accompagnés de métadonnées pertinentes. Les étapes d'acquisition, de compilation et de prétraitement de ces données sont souvent coûteuses et chronophages.

L'alignement d'un LLM consiste à entraîner et personnaliser un modèle de langage pour qu'il produise les résultats souhaités.

Plusieurs facteurs sont à prendre en compte pour choisir la technique d'alignement idéale :

Dépendance aux données : quel est le volume de données nécessaire ? L'accès aux données requises est-il garanti ?
Précision : dans quelle mesure cette technique améliore-t-elle la précision du modèle après le réglage ?
Complexité : cette technique est-elle simple à utiliser ?

Par rapport au réglage fin traditionnel, le PEFT nécessite moins de données. Il est intuitif et offre un niveau de précision très élevé.

Il existe une autre option pour l'alignement des LLM : la génération augmentée de récupération (RAG). Cette technique permet de compléter les données que contient un LLM avec une sélection de sources de connaissances externes, comme des référentiels de données, des corpus et de la documentation. Malgré une forte dépendance aux données, la RAG est plus facile à utiliser que le réglage fin et présente des taux de précision élevés.

En savoir plus sur la RAG et le réglage fin

Le PEFT fait partie des techniques d'alignement qui peuvent être mises en œuvre avec Red Hat® OpenShift® AI.

Plateforme MLOps flexible et évolutive, la solution OpenShift AI inclut des outils de développement, de déploiement et de gestion d'applications basées sur l'IA. Ces outils prennent en charge l'intégralité du cycle de vie des essais et des modèles d'IA/AA, sur site et dans le cloud public.

En savoir plus sur Red Hat OpenShift AI

Red Hat® AI est une gamme de produits et de services qui permettent aux entreprises d'avancer dans le déploiement de l'IA, qu'elles soient au tout début du processus ou déjà prêtes à évoluer dans le cloud hybride. Cette offre répond aux besoins en matière d'IA prédictive et générative, et convient aux cas d'utilisation propres à chaque entreprise.

Red Hat AI s'appuie sur des technologies Open Source et un écosystème de partenaires axé sur les performances, la stabilité et la prise en charge des GPU au sein d'infrastructures diverses. Cette solution permet de régler efficacement les petits modèles spécifiques et de les déployer avec flexibilité, quel que soit l'emplacement des données.

En savoir plus

Tout ce qu'il faut savoir sur les infrastructures d'IA

Les infrastructures d'IA (intelligence artificielle) associent les technologies d'intelligence artificielle et d'apprentissage automatique (IA/AA) afin de développer et déployer des solutions évolutives pour les données.

L'inférence distribuée, qu'est-ce que c'est ?

L'inférence distribuée est une approche qui permet aux modèles d'IA de traiter les charges de travail plus efficacement en répartissant les tâches liées à l'inférence entre plusieurs équipements interconnectés.

L'inférence d'IA, qu'est-ce que c'est ?

L'inférence d'intelligence artificielle est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. Il s'agit de l'étape finale d'un processus complexe d'apprentissage automatique.

IA/ML : ressources recommandées

Ressources associées

Blog post

Poser les bases d'un avenir souverain, axé sur l'IA, avec les partenaires Red Hat
Présentation de technologie

Accélérer l'adoption de l'IA dans le secteur public à l'échelle mondiale
Livre numérique

Optimisez votre usage de Red Hat Enterprise Linux
Blog post

Architecture d'IA souveraine : mise à l'échelle de la formation distribuée avec Kubeflow Trainer et Feast sur Red Hat OpenShift AI

Le PEFT, qu'est-ce que c'est ?

Red Hat AI

Paramètres d'un LLM

Réglage fin des paramètres en toute efficacité

Coût élevé du réglage fin

Votre stratégie est-elle réellement souveraine ? Présentation de l’outil Red Hat Sovereignty Readiness Assessment

Red Hat OpenShift AI

En savoir plus

Tout ce qu'il faut savoir sur les infrastructures d'IA

L'inférence distribuée, qu'est-ce que c'est ?

L'inférence d'IA, qu'est-ce que c'est ?

IA/ML : ressources recommandées

Plateformes

Outils

Essayer, acheter et vendre

Communication

About Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links