Petits modèles, grand impact : l'avenir de la mise à l'échelle des agents d'IA d'entreprise

20 février 2026Catherine Weeks, Ricardo Noriega4 minutes (temps de lecture)

Dans le secteur de l'IA, nous avons été obsédés par l'évolutivité au cours des trois dernières années. Nous avons recherché des nombres de paramètres se comptant par milliers de milliards, avec la conviction que la taille constituait l'unique voie vers l'intelligence. Cependant, une nouvelle réalité apparaît pour les entreprises : la taille ne constitue pas l'indicateur essentiel, contrairement à l'obtention de résultats fiables et déterministes.

Chez Red Hat, nous avons toujours cru que les technologies les plus puissantes sont celles qui sont distribuées, ouvertes et adaptées aux besoins. Les petits modèles de langage (SLM, small language models) représentent précisément ce changement. La distinction entre les SLM et les grands modèles de langage (LLM, large language models) importe moins que le rôle architectural du modèle. L'élément déterminant réside dans la souveraineté fonctionnelle qu'apporte un petit modèle.

Nous nous éloignons de l'IA conversationnelle (conversational AI), où nous interrogeons un modèle géant de type « boîte noire », pour entrer dans l'ère de l'IA agentique (agentic AI), où une flotte de modèles spécialisés effectue le travail de l'entreprise.

Toutes les entreprises utiliseront des agents d'IA

Nous nous trouvons à l'aube d'un changement aussi fondamental que la transition vers le Web.

L'évolution de l'identité des entreprises illustre ce point. En 1995, le secteur se demandait : « Pourquoi ai-je besoin d'une adresse e-mail ? » En 2005, la question portait sur le site Web. En 2015, il s'agissait de la présence sur les réseaux sociaux. En 2026, la question sera : « Combien d'agents ai-je en activité ? »

Nous nous dirigeons vers un monde qui comptera plus d'agents d'IA que d'individus. Chaque entreprise en possédera un essaim :

Des agents en contact avec la clientèle qui ne se contentent pas de répondre à des questions, mais résolvent des problèmes logistiques complexes.
Des agents de flux de travail qui automatisent le lien invisible entre les services.
Des agents sans interface (headless) qui exécutent silencieusement des appels d'API pour rapprocher les inventaires et traiter les paiements.

Toutefois, la création d'une flotte agentique durable et rentable ne peut reposer sur les jetons cloud subventionnés d'un tiers. C'est ici que le SLM devient l'outil indispensable pour permettre le déploiement des cas d'utilisation et l'évolution de l'entreprise.

Pourquoi les SLM régissent le back-end agentique

Si les LLM de pointe constituent des chefs-d'œuvre d'ingénierie à haut débit, ils s'avèrent souvent trop lourds pour le rôle d'un employé numérique réflexe. Dans un flux de travail agentique, l'exécution à faible latence prime sur la simple puissance brute. Les SLM permettent d'atteindre des temps de réponse inférieurs à la seconde ainsi que la fiabilité déterministe qu'exige l'automatisation des processus critiques.

1. La puissance de la spécialisation (efficacité > évolutivité)

Si peu d'entreprises envisagent d'ajuster un modèle de 400 milliards de paramètres, un modèle de 3 ou 7 milliards de paramètres constitue un point d'entrée gérable et efficace. Ce niveau marque le début du contrôle de l'architecture. Une étude de fin 2025 démontre que même un modèle de 350 millions de paramètres ajusté avec des données synthétiques de haute qualité peut surpasser les modèles frontières généralistes dans des domaines spécifiques d'appel d'outils et d'orchestration d'API. Pour un backend agentique robuste, l'objectif ne réside pas dans une capacité linguistique étendue, mais dans une spécialisation de haute précision.

2. Déterminisme et « mathématiques de la fiabilité »

L'un des principaux obstacles pour l'IA d'entreprise réside dans le non-déterminisme, soit le risque qu'un agent formate correctement une réponse une fois et échoue la suivante. Bien qu'aucun LLM (grand modèle de langage) ne constitue une fonction mathématique parfaitement déterministe, les SLM (petits modèles de langage) permettent d'imposer un contrôle architectural auparavant difficile à atteindre. L'utilisation de techniques de décodage contraint comme JSON Schema ou les grammaires non contextuelles (CFG) permet de restreindre l'espace de recherche de jetons du modèle. Cette approche empêche physiquement le modèle de choisir un caractère suivant non valide. Ce changement de paradigme privilégie la précision limitée par un schéma à une approche ouverte incertaine. Associés à une exécution locale et à un ajustement spécialisé, les SLM peuvent atteindre une validité de plus de 98 % dans les tâches structurées. Ils offrent ainsi la fiabilité prévisible nécessaire aux flux de travail agentiques sensibles.

3. La souveraineté des données n'est pas facultative

Vos données constituent votre actif le plus précieux. Dans un monde agentique, ces modèles géreront votre gestion de la relation client (CRM), votre code propriétaire et votre stratégie interne. Céder ces données à un fournisseur de cloud tiers en échange d'une « intelligence en tant que service » constitue une erreur stratégique.

L'exécution des SLM sur site ou au sein de votre propre environnement de cloud hybride vous permet de rester propriétaire de votre propriété intellectuelle. Cette approche autorise une architecture d'IA « zero trust » (confiance zéro) où les données sensibles ne quittent jamais votre périmètre. Elle répond ainsi aux exigences réglementaires strictes des secteurs de la santé, de la finance et du secteur public.

Conclusion

Nous passons d'un monde où l'IA générative (gen AI) produit des conversations et du contenu à un monde où l'IA agentique agit en notre nom. Dans cette nouvelle ère, la question ne porte plus sur la taille du modèle, mais sur la fiabilité et la protection de l'infrastructure. Lorsque les opérations de votre entreprise dépendent d'une flotte d'agents numériques spécialisés, le modèle cloud de type « boîte noire » ne suffit plus. Vous avez besoin de souveraineté, de rapidité et de précision.

Chez Red Hat, nous sommes convaincus que la voie vers l'avenir agentique est ouverte. En exploitant des petits modèles de langage sélectionnés qui peuvent être ajustés, déployés et orchestrés avec le portefeuille Red Hat AI, les entreprises peuvent intégrer l'IA au cœur de leur logique métier.

Le secteur évolue rapidement, mais l'objectif est clair : cesser de poursuivre les géants pour construire l'infrastructure essentielle. L'avenir de l'IA est compact, rapide et repose sur le cloud hybride ouvert.

En savoir plus

À propos des auteurs

Catherine Weeks

Engineering Director, Red Hat AI

Catherine Weeks is an Engineering Director in Red Hat AI, where she leads the teams building software with the latest generative AI innovations.

With a background in software design, Catherine is a leader who excels at translating complex customer needs into practical engineering solutions. She is known for her ability to work at every level—from high-level strategy down to the hands-on work of getting it done. This approach helps her balance the fast-moving world of AI innovation with the need to build the reliable, high-quality products customers depend on, all while fostering a supportive team culture.

With over 20 years in the software industry, Catherine has a proven record of mentoring strong teams and has always been a champion for the end-user.

Read full bio

Ricardo Noriega

OCTO Initiative Lead

Ricardo is a Principal Software Engineer working at the Red Hat's Office of the CTO in the Emerging Technologies organization as Initiative lead. Ricardo is currently focused on the different kinds of architectures in the AI space like SLMs and multimodality. He has been part of the MicroShift and Edge Manager projects since its inception.
He is a former member of the Akraino Technical Steering Committee and Project Technical Lead of the Kubernetes-Native-Infrastructure blueprint family. He's been doing R&D related to OpenStack, as well as, contributing to OpenDaylight project and OPNFV. He is passionate about new technologies and everything related to the Open Source world. Ricardo holds a MSc Degree in Telecommunications from Technical University of Madrid (UPM). He loves music, photography and outdoor sports.

Read full bio