Grands et petits modèles de langage
Les grands modèles de langage (LLM) et les petits modèles de langage (SLM) sont deux types de systèmes d'intelligence artificielle (IA) entraînés dans le but d'interpréter le langage humain, notamment les langages de programmation. Leurs principales différences sont généralement liées à la taille des ensembles de données et aux processus d'entraînement utilisés, ainsi qu'au coût et aux bénéfices associés à la mise en œuvre des divers cas d'utilisation.
Comme leur nom l'indique, les LLM et SLM sont entraînés à partir d'ensembles de données de langage, ce qui les distingue des modèles entraînés à l'aide d'images tels que DALL·E ou de vidéos comme Sora. Ces données peuvent être issues du contenu textuel de sites web, de code de développement, d'e-mails ou encore de manuels d'utilisation.
L'une des principales applications des LLM et des SLM est l'IA générative, qui vise à générer du contenu non prédéfini pour répondre à des requêtes multiples et imprévisibles. Les LLM doivent notamment leur popularité au modèle de fondation GPT-4 et à ChatGPT, un dialogueur entraîné à partir d'immenses ensembles de données et à l'aide de milliards de paramètres afin de répondre à une multitude de questions posées par des humains. Ces modèles s'utilisent aussi pour d'autres applications non génératives, comme l'IA prédictive.
Différents ensembles de données d'entraînement
Le champ d'application de GPT-4/ChatGPT illustre bien l'une des principales différences entre les LLM et les SLM : les ensembles de données d'entraînement.
Les LLM visent souvent à imiter les facultés intellectuelles humaines de manière générale, et sont donc entraînés à partir d'une multitude d'ensembles de données très vastes. Dans le cas de GPT-4/ChatGPT, l'entraînement se base sur la totalité des données publiées sur Internet jusqu'à une date donnée. Si c'est en interprétant et en répondant à de multiples requêtes du grand public qu'il a acquis sa notoriété, ChatGPT a également attiré l'attention avec ce que l'on appelle communément des « hallucinations ». Ces réponses incorrectes s'expliquent par un manque de réglage fin et d'entraînement dans un domaine précis pour répondre avec exactitude aux requêtes propres à un secteur ou à une niche.
Les SLM sont quant à eux entraînés avec de plus petits ensembles de données adaptés à des domaines spécifiques. Par exemple, un prestataire de soins de santé peut utiliser un dialogueur alimenté par un SLM et entraîné à partir d'ensembles de données médicales pour intégrer des connaissances spécifiques d'un domaine dans la requête que formule un utilisateur inexpérimenté sur sa santé, en vue de préciser la question et de fournir une réponse de meilleure qualité. Dans cette situation, il n'est pas nécessaire d'entraîner le dialogueur avec toutes les données publiées sur Internet (articles de blog, romans de fiction, poèmes, etc.), car elles ne sont pas pertinentes pour ce cas d'utilisation.
En bref, les SLM sont généralement très performants dans des domaines spécifiques, et à l'inverse des LLM, leurs capacités sont inférieures lorsque les requêtes demandent des connaissances générales et une compréhension globale du contexte.
Ressources Red Hat
Différents processus d'entraînement
La taille et le champ d'application des ensembles de données ne sont pas les seuls aspects qui permettent de distinguer les LLM des SLM, et un modèle peut même être considéré comme un SLM alors qu'il est entraîné avec les mêmes données qu'un LLM. La raison est simple : un modèle se définit non seulement par sa quantité de données, mais aussi par les paramètres utilisés pour l'entraînement et par le processus mis en œuvre. Autrement dit, l'objectif de l'entraînement compte tout autant que la quantité de données utilisées.
Paramètres
Dans le domaine de l'apprentissage automatique (AA), les paramètres sont des variables internes qui déterminent les prédictions qu'un modèle va formuler. Ils ont donc une importance capitale dans la façon dont les modèles traitent les informations brutes contenues dans l'ensemble de données. Au cours de l'entraînement, le modèle d'IA modifie ses paramètres en permanence pour améliorer ses prédictions, tout comme on tournerait le bouton de réglage d'une radio jusqu'à trouver la bonne fréquence. En plus des nombreux paramètres, d'autres facteurs entrent en jeu dans ce processus complexe, notamment la façon dont ils sont organisés dans le modèle, leur priorité et leur optimisation pour identifier des schémas au lieu de simplement mémoriser les données.
Il n'y a pas de nombre standard de paramètres qui distingue un SLM d'un LLM. Pour les différencier, on peut cependant retenir qu'un SLM contient généralement bien moins de paramètres qu'un LLM, car ses cas d'utilisation sont plus précis et portent sur des domaines spécifiques. Par exemple, le LLM GPT-4/ChatGPT aurait été entraîné avec des milliers de milliards de paramètres afin de réagir à presque tout type de requête formulée par un utilisateur. GPT-4 fait toutefois partie des LLM dont la taille est la plus impressionnante. Il existe de nombreux LLM plus petits (mais qui ne sont pas pour autant des SLM), comme les modèles Granite d'IBM, qui sont Open Source et dont le nombre de paramètres varie entre 3 et 35 milliards. Parce que leurs cas d'utilisation sont bien plus restreints, les SLM contiennent généralement moins de paramètres, même si leur nombre peut parfois atteindre plusieurs milliards.
Réglage fin
Le réglage fin est une autre façon de différencier les SLM des LLM. Il s'agit du processus d'adaptation et de mise à jour d'un modèle préentraîné en utilisant de nouvelles données. En général, l'objectif est de personnaliser un modèle existant pour le rendre plus performant dans un cas d'utilisation précis. Ce processus implique d'introduire de nouvelles données pour observer si les paramètres existants continuent de produire des résultats acceptables dans un nouveau contexte. Le réglage fin est souvent plus difficile et plus chronophage, et mobilise davantage de ressources en fonction du nombre de paramètres utilisés dans le modèle. Les LLM demandent donc ici plus de travail que les SLM.
Au-delà des paramètres et du réglage fin, le type et la complexité du processus d'entraînement ne sont pas les mêmes pour les SLM et les LLM. Pour comprendre les différences entre les types d'entraînement, comme les mécanismes d'attention ou les modèles encodeur-décodeur, il est nécessaire d'avoir des connaissances plus approfondies en matière de science des données. Retenons simplement que les SLM suivent plutôt des approches axées sur des cas d'utilisation spécifiques et qui visent à optimiser l'usage des ressources, ce qui est moins le cas des LLM.
Biais
Même si tous les modèles d'IA passent par des phases de réglage fin, la majorité des LLM ont des champs d'application tellement vastes qu'il est impossible de les adapter à toutes les situations. Généralement, ils sont entraînés à l'aide de données accessibles librement, notamment celles publiées sur Internet, tandis que les SLM exploitent des ensembles de données propres à un secteur d'activité ou à une entreprise. Ce mécanisme augmente le risque de biais : certains groupes ou certaines idées peuvent être sous-représentés ou mal représentés, et des erreurs factuelles peuvent même survenir. Parce que les LLM et les SLM sont des modèles de langage, ils peuvent également reproduire des biais linguistiques en fonction des dialectes, de la zone géographique et de la grammaire utilisée.
En résumé, tout modèle de langage peut hériter de biais, mais les LLM sont plus à risque en raison de leur champ d'application plus étendu. Les SLM, entraînés avec des ensembles de données plus restreints, sont moins touchés, mais il est impossible d'éliminer complètement les biais des modèles d'IA.
Différentes ressources
Qu'il s'agisse d'un LLM ou d'un SLM, l'entraînement d'un modèle pour un cas d'utilisation métier est un processus qui nécessite de nombreuses ressources. Ce sont cependant les LLM qui en demandent le plus. Dans le cas de GPT-4, il a fallu utiliser 25 000 GPU NVIDIA A100 simultanément pendant 90 à 100 jours. Gardons à l'esprit toutefois que ce modèle est actuellement le plus grand des LLM. D'autres LLM, comme les modèles Granite, n'ont pas eu besoin d'autant de ressources. L'entraînement d'un SLM mobilise une quantité non négligeable de ressources de calcul, mais à une échelle bien inférieure de celle des LLM.
Ressources mobilisées pour l'entraînement et l'inférence
Il convient également de différencier l'entraînement et l'inférence des modèles. Comme expliqué ci-dessus, l'entraînement est la première étape de développement d'un modèle d'IA. L'inférence correspond au processus qu'un modèle d'IA déjà entraîné suit pour formuler des prédictions à partir de nouvelles données. Par exemple, lorsqu'un utilisateur pose une question à ChatGPT, le modèle génère une prédiction et c'est ce que l'on appelle l'inférence.
Certains modèles préentraînés, comme ceux de la famille Granite, peuvent faire des inférences en mobilisant les ressources d'une seule station de travail hautes performances (par exemple, un seul GPU2 V100 de 32 Go), bien qu'ils soient nombreux à avoir besoin de plusieurs unités de traitement parallèle pour générer des données. En outre, plus le nombre d'utilisateurs qui accèdent au LLM simultanément est élevé, plus le processus d'inférence est ralenti. De leur côté, les SLM sont généralement conçus de sorte que les inférences nécessitent simplement les ressources d'un smartphone ou d'un autre type d'appareil mobile.
Coûts/bénéfices
Aucun modèle n'est intrinsèquement meilleur que les autres. Tout dépend des objectifs, des ressources et des compétences de l'entreprise, ainsi que de son calendrier et d'autres facteurs. Il est également essentiel de décider si le cas d'utilisation requiert d'entraîner un modèle vierge ou de simplement procéder au réglage fin d'un modèle préentraîné. Voici quelques points à prendre en compte pour choisir entre un LLM et un SLM :
Coût
La plupart du temps, les LLM nécessitent bien plus de ressources pour l'entraînement, le réglage fin et les inférences. L'entraînement reste cependant un processus peu fréquent. Les ressources de calcul sont seulement nécessaires pendant ce processus, qui n'est pas une tâche régulière et continue. En revanche, l'exécution des inférences implique un coût continu, qui peut augmenter parallèlement à la hausse du nombre d'utilisateurs du modèle. Dans la plupart des cas, des ressources de cloud computing à grande échelle ou des investissements importants sur site seront nécessaires, voire les deux.
L'utilisation des SLM est souvent envisagée pour des cas d'utilisation à faible latence, comme l'edge computing, parce que ces modèles peuvent généralement s'exécuter avec les ressources disponibles sur un appareil mobile, sans avoir besoin d'une connexion stable et performante à d'importantes ressources.
Compétences
De nombreux LLM préentraînés, comme Granite, Llama et GPT-4, suivent une approche de type « prêt à l'emploi » pour simplifier l'adoption de l'IA. Les entreprises qui souhaitent commencer par faire quelques tests avec cette technologie doivent les privilégier, car aucune intervention de data scientists n'est nécessaire pour leur conception ou leur entraînement. De leur côté, les SLM nécessitent des compétences spécialisées, à la fois en science des données et dans le secteur d'activité en question, pour effectuer un réglage fin à l'aide d'ensembles de données spécifiques.
Sécurité
L'un des risques associés aux LLM est l'exposition de données sensibles au travers des interfaces de programmation d'application (API). Le réglage fin d'un LLM à l'aide des données d'une entreprise doit se faire dans le respect de la conformité et des politiques applicables. En matière de fuite de données, les SLM présentent un moindre risque, car ils offrent un meilleur niveau de contrôle.
Nos solutions
Notre gamme de produits Red Hat® AI fournit des capacités d'IA prédictive et générative, et facilite la mise en œuvre du MLOps pour créer des solutions d'IA fiables et flexibles à grande échelle dans les environnements de cloud hybride. Nos solutions accélèrent l'adoption de l'IA, éliminent les difficultés liées à la distribution de solutions d'IA et offrent la possibilité de développer et déployer des applications dans l'environnement où les données sont stockées.
En association avec notre infrastructure de cloud hybride ouvert, cette gamme de produits offre aux entreprises une plateforme unique pour créer des solutions d'IA sur mesure, gérer le cycle de vie des modèles et des applications, s'adapter aux exigences d'accélération matérielle, ainsi que déployer, exécuter et exploiter des charges de travail essentielles.
AA et IA pour les débutants
InstructLab est une solution communautaire pour l'entraînement des LLM, qui facilite la prise en main des modèles d'IA et d'AA. Elle permet aux utilisateurs de faire des tests et de contribuer directement et gratuitement au développement d'un modèle d'IA.
Accès simplifié aux modèles de la famille Granite d'IBM
Pour aller plus loin, les utilisateurs peuvent passer à la plateforme de modèles de fondation Red Hat® Enterprise Linux® AI, qui permet de développer, de tester et d'exécuter des LLM de la famille Granite pour les applications d'entreprise. Granite est une famille de modèles d'IA sous licence Open Source, entièrement pris en charge et indemnisés par Red Hat. Parce qu'ils sont Open Source, ils encouragent l'innovation dans le domaine de l'IA générative dans un cadre de confiance et de sécurité.
Mise à l'échelle pour les entreprises
Red Hat® OpenShift® AI est une plateforme capable de prendre en charge les modèles à grande échelle dans des environnements de cloud hybride. Cette plateforme facilite l'entraînement, l'ajustement des instructions, le réglage fin et la distribution de modèles d'IA qui reposent sur les données de l'entreprise et sont adaptés à son cas d'utilisation.
En association, ces produits forment une solution unifiée qui favorise la collaboration entre les équipes de science des données et de développement, avec à la clé des modèles qui passent plus rapidement de la phase de test à la production.
Écosystème de partenaires
Les solutions intégrées de nos partenaires ouvrent la voie à un écosystème en plein essor d'outils d'IA fiables et compatibles avec les plateformes Open Source.
Le blog officiel de Red Hat
Découvrez les dernières informations concernant notre écosystème de clients, partenaires et communautés.