Les petits modèles de langage, qu'est-ce que c'est ?

Mis à jour 19 octobre 2025•7 minutes (temps de lecture)

Version réduite d'un grand modèle de langage (LLM), le petit modèle de langage (SLM) repose sur des connaissances plus spécialisées et offre aux équipes une personnalisation plus rapide ainsi qu'une efficacité d'exécution accrue.

Contrairement aux LLM qui présentent des connaissances générales, les SLM sont entraînés pour développer des connaissances spécifiques à un domaine. Plus petits, les SLM mobilisent moins de ressources de calcul pour leur entraînement et leur déploiement, ce qui réduit les coûts de l'infrastructure et accélère le réglage fin. De plus, leur légèreté les rend particulièrement adaptés aux appareils d'edge computing et aux applications mobiles.

Petits et grands modèles de langage

Les SLM et les LLM sont deux types de systèmes d'intelligence artificielle (IA) entraînés dans le but d'interpréter le langage humain, notamment les langages de programmation. Leurs principales différences sont généralement liées à la taille des ensembles de données et aux processus d'entraînement utilisés, ainsi qu'au coût et aux bénéfices associés à la mise en œuvre des divers cas d'utilisation.

Comme leur nom l'indique, les LLM et SLM sont entraînés à partir d'ensembles de données de langage, ce qui les distingue des modèles entraînés à l'aide d'images tels que DALL·E ou de vidéos comme Sora. Ces données peuvent être issues de contenus textuels de sites web, de code de développement, d'e-mails ou encore de manuels d'utilisation.

L'une des principales applications des SLM et des LLM est l'IA générative, qui vise à générer des contenus non prédéfinis pour répondre à des requêtes multiples et imprévisibles. Les LLM doivent notamment leur popularité au modèle de fondation GPT-4 et à ChatGPT, un dialogueur (ou chatbot) entraîné à partir d'immenses ensembles de données et à l'aide de milliards de paramètres afin de répondre à une multitude de questions posées par des humains. Ces modèles s'utilisent pour d'autres applications non génératives, comme l'IA prédictive.

Découvrir les éléments importants pour la création d'un environnement d'IA/AA prêt pour la production

Le champ d'application de GPT-4/ChatGPT illustre bien l'une des principales différences entre les LLM et les SLM : les ensembles de données d'entraînement.

Les LLM visent souvent à imiter les facultés intellectuelles humaines de manière générale, et sont donc entraînés à partir d'une multitude d'ensembles de données très vastes. Dans le cas de GPT-4/ChatGPT, l'entraînement se base sur la totalité des données publiées sur Internet jusqu'à une date donnée. Si c'est en interprétant et en répondant à de multiples requêtes du grand public qu'il a acquis sa notoriété, ChatGPT a également attiré l'attention avec ce que l'on appelle communément des « hallucinations ». Ces réponses incorrectes s'expliquent par un manque de réglage fin et d'entraînement dans un domaine précis pour répondre avec exactitude aux requêtes propres à un secteur ou à une niche.

Les SLM sont quant à eux entraînés avec de plus petits ensembles de données adaptés à des domaines spécifiques. Par exemple, un prestataire de soins de santé peut utiliser un dialogueur alimenté par un SLM et entraîné à partir d'ensembles de données médicales pour intégrer des connaissances spécifiques d'un domaine dans la requête que formule un utilisateur inexpérimenté sur sa santé, en vue de préciser la question et de fournir une réponse de meilleure qualité. Dans cette situation, il n'est pas nécessaire d'entraîner le dialogueur avec toutes les données publiées sur Internet (articles de blog, romans de fiction, poèmes, etc.), car elles ne sont pas pertinentes pour ce cas d'utilisation.

En bref, les SLM sont généralement très performants dans des domaines spécifiques, et à l'inverse des LLM, leurs capacités sont inférieures lorsque les requêtes demandent des connaissances générales et une compréhension globale du contexte.

En savoir plus sur LoRA et QLoRA

Qu'il s'agisse d'un LLM ou d'un SLM, l'entraînement d'un modèle pour un cas d'utilisation métier est un processus qui nécessite de nombreuses ressources. Ce sont cependant les LLM qui en demandent le plus. Dans le cas de GPT-4, il a fallu utiliser 25 000 GPU NVIDIA A100 simultanément pendant 90 à 100 jours. Gardons à l'esprit toutefois que ce modèle est actuellement le plus grand des LLM. D'autres LLM, comme les modèles Granite, n'ont pas eu besoin d'autant de ressources. L'entraînement d'un SLM mobilise une quantité non négligeable de ressources de calcul, mais à une échelle bien inférieure de celle des LLM.

Ressources mobilisées pour l'entraînement et l'inférence

Il convient également de différencier l'entraînement et l'inférence des modèles. Comme expliqué ci-dessus, l'entraînement est la première étape de développement d'un modèle d'IA. L'inférence correspond au processus qu'un modèle d'IA déjà entraîné suit pour formuler des prédictions à partir de nouvelles données. Par exemple, lorsqu'un utilisateur pose une question à ChatGPT, le modèle génère une prédiction et c'est ce que l'on appelle l'inférence.

Certains modèles préentraînés, comme ceux de la famille Granite, peuvent faire des inférences en mobilisant les ressources d'une seule station de travail hautes performances (par exemple, un seul GPU2 V100 de 32 Go), bien qu'ils soient nombreux à avoir besoin de plusieurs unités de traitement parallèle pour générer des données. En outre, plus le nombre d'utilisateurs qui accèdent au LLM simultanément est élevé, plus le processus d'inférence est ralenti. De leur côté, les SLM sont généralement conçus de sorte que les inférences nécessitent simplement les ressources d'un smartphone ou d'un autre type d'appareil mobile.

Aucun modèle n'est intrinsèquement meilleur que les autres. Tout dépend des objectifs, des ressources et des compétences de l'entreprise, ainsi que de son calendrier et d'autres facteurs. Il est également essentiel de décider si le cas d'utilisation requiert d'entraîner un modèle vierge ou de simplement procéder au réglage fin d'un modèle préentraîné. Voici quelques points à prendre en compte pour choisir entre un LLM et un SLM :

Coût

La plupart du temps, les LLM nécessitent bien plus de ressources pour l'entraînement, le réglage fin et les inférences. L'entraînement reste cependant un processus peu fréquent. Les ressources de calcul sont seulement nécessaires pendant ce processus, qui n'est pas une tâche régulière et continue. En revanche, l'exécution des inférences implique un coût continu, qui peut augmenter parallèlement à la hausse du nombre d'utilisateurs du modèle. Dans la plupart des cas, des ressources de cloud computing à grande échelle ou des investissements importants sur site seront nécessaires, voire les deux.

L'utilisation des SLM est souvent envisagée pour des cas d'utilisation à faible latence, comme l'edge computing, parce que ces modèles peuvent généralement s'exécuter avec les ressources disponibles sur un appareil mobile, sans avoir besoin d'une connexion stable et performante à d'importantes ressources.

Lire l'article de blog sur la réduction des coûts associés aux LLM

Expertise

De nombreux LLM préentraînés, comme Granite, Llama et GPT-4, suivent une approche de type « prêt à l'emploi » pour simplifier l'adoption de l'IA. Les entreprises qui souhaitent commencer par faire quelques tests avec cette technologie doivent les privilégier, car aucune intervention de data scientists n'est nécessaire pour leur conception ou leur entraînement. De leur côté, les SLM nécessitent des compétences spécialisées, à la fois en science des données et dans le secteur d'activité en question, pour effectuer un réglage fin à l'aide d'ensembles de données spécifiques.

Sécurité

L'un des risques associés aux LLM est l'exposition de données sensibles au travers des interfaces de programmation d'application (API). Le réglage fin d'un LLM à l'aide des données d'une entreprise doit se faire dans le respect de la conformité et des politiques applicables. En matière de fuite de données, les SLM présentent un moindre risque, car ils offrent un meilleur niveau de contrôle.

Parce qu'elles intègrent de plus en plus les SLM à leurs workflows, les entreprises doivent s'assurer de connaître les limites associées à ce type de modèle.

Biais

Les SLM sont entraînés à l'aide d'ensembles de données plus restreints, ils sont donc moins touchés par les biais que les LLM, même s'il est impossible de les éliminer complètement des modèles d'IA. En effet, l'entraînement des données de modèles de toutes tailles induit un risque de biais : certains groupes ou certaines idées peuvent être sous-représentés ou mal représentés, et des erreurs factuelles peuvent même survenir. Les modèles de langage peuvent également reproduire des biais en fonction des dialectes, de la zone géographique et de la grammaire utilisée.

Les équipes doivent donc porter une attention particulière à la qualité des données d'entraînement afin de limiter la présence de biais dans les résultats.

Champ de connaissances restreint

Les SLM se basent sur un plus petit pool d'informations pour générer des réponses. Ils sont de ce fait très efficaces pour effectuer des tâches spécifiques, mais beaucoup moins adaptés lorsqu'il s'agit de tâches qui nécessitent de vastes connaissances générales.

Dès lors, les équipes peuvent envisager de créer une collection de SLM spécifiques afin de l'utiliser en parallèle à un ou plusieurs LLM. Cette solution est particulièrement intéressante lorsque les équipes sont en mesure d'associer des modèles à leurs applications existantes, car elles bénéficient ainsi d'un workflow interconnecté constitué d'une multitude de modèles de langage fonctionnant conjointement.

Parce qu'ils sont adaptables, les SLM sont intéressants pour de nombreux cas d'utilisation.

Dialogueurs

Les entreprises peuvent utiliser un SLM pour entraîner un dialogueur à partir de contenus spécialisés. Si nous prenons l'exemple d'un service clientèle, le dialogueur peut être entraîné sur la base de connaissances propre à une entreprise de manière à répondre à des questions et à guider les utilisateurs vers les informations pertinentes.

IA agentique

Lorsqu'ils sont intégrés à un workflow d'IA agentique, les SLM peuvent effectuer des tâches à la place d'un utilisateur.

IA générative

Les SLM peuvent exécuter des tâches telles que la génération de texte, la traduction d'un texte existant et la synthèse de contenus écrits.

Découvrir d'autres cas d'utilisation de l'IA générative

Notre gamme de produits Red Hat AI fournit des capacités d'IA prédictive et générative, et facilite la mise en œuvre du MLOps pour créer des solutions d'IA fiables et flexibles à grande échelle dans les environnements de cloud hybride. Nos solutions accélèrent l'adoption de l'IA, éliminent les difficultés liées à la distribution de solutions d'IA et offrent la possibilité de développer et déployer des applications dans l'environnement où les données sont stockées.

En association avec notre infrastructure de cloud hybride ouvert, cette gamme de produits offre aux entreprises une plateforme unique pour créer des solutions d'IA sur mesure, gérer le cycle de vie des modèles et des applications, s'adapter aux exigences d'accélération matérielle, ainsi que déployer, exécuter et exploiter des charges de travail essentielles.

Découvrir la gamme de produits Red Hat AI

Accès simplifié aux modèles de la famille Granite d'IBM

La plateforme Red Hat Enterprise Linux AI permet de développer, de tester et d'exécuter des LLM pour les applications d'entreprise dans un environnement à serveur unique. La solution inclut également Red Hat AI Inference Server, qui maximise le débit et réduit la latence pour garantir des opérations d'inférence rapides et rentables dans le cloud hybride.

En savoir plus sur Red Hat Enterprise Linux AI

Mise à l'échelle pour les entreprises

Red Hat® OpenShift® AI est une plateforme capable de prendre en charge les modèles à grande échelle dans des environnements de cloud hybride. Cette plateforme facilite l'entraînement, l'ajustement des instructions, le réglage fin et la distribution de modèles d'IA qui reposent sur les données de l'entreprise et sont adaptés à son cas d'utilisation.

En association, ces produits forment une solution unifiée qui favorise la collaboration entre les équipes de science des données et de développement, avec à la clé des modèles qui passent plus rapidement de la phase de test à la production.

En savoir plus sur Red Hat OpenShift AI

Écosystème de partenaires

Les solutions intégrées de nos partenaires ouvrent la voie à un écosystème en plein essor d'outils d'IA fiables et compatibles avec les plateformes Open Source.

Découvrir nos partenaires pour l'IA

En savoir plus

RAG et réglage fin

La génération augmentée de récupération (RAG) et le réglage fin permettent d'améliorer les grands modèles de langage (LLM). Avec la RAG, le modèle n'est pas altéré, tandis que le réglage fin nécessite d'en ajuster les paramètres.

Les modèles Granite, qu'est-ce que c'est ?

Les modèles Granite d'IBM correspondent à de grands modèles de langage créés pour les applications d'entreprise. Ils peuvent prendre en charge les cas d'utilisation de l'intelligence artificielle générative qui reposent sur un langage spécifique et du code.

L'inférence distribuée, qu'est-ce que c'est ?

L'inférence distribuée est une approche qui permet aux modèles d'IA de traiter les charges de travail plus efficacement en répartissant les tâches liées à l'inférence entre plusieurs équipements interconnectés.

Collaborer et apprendre

Services et assistance

Services

Les petits modèles de langage, qu'est-ce que c'est ?

Petits et grands modèles de langage

Ressources Red Hat

Ressources mobilisées pour l'entraînement et l'inférence

Coût

Expertise

Sécurité

Biais

Champ de connaissances restreint

Dialogueurs

IA agentique

IA générative

Accès simplifié aux modèles de la famille Granite d'IBM

Mise à l'échelle pour les entreprises

Écosystème de partenaires

Se lancer avec l'IA en entreprise : guide pour les débutants

Tous les essais de produits Red Hat

En savoir plus

RAG et réglage fin

Les modèles Granite, qu'est-ce que c'est ?

L'inférence distribuée, qu'est-ce que c'est ?

IA/ML : ressources recommandées

Plateformes

Outils

Essayer, acheter et vendre

Communication

About Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links