Un routage intelligent et efficace pour l'IA Open Source avec vLLM Semantic Router

11 novembre 2025Huamin Chen4 minutes (temps de lecture)

Dans le domaine des grands modèles de langage (LLM), la vitesse d'innovation atteint des sommets. Cependant, à mesure que les entreprises mettent ces modèles en production, le débat évolue : il ne s'agit plus seulement d'une question d'échelle brute, mais d'efficacité par jeton textuel et d'utilisation intelligente et ciblée des ressources de calcul.

Autrement dit, toutes les instructions génératives n'exigent pas le même niveau de raisonnement. Prenons l'exemple d'une simple demande, telle que « Quelle est la capitale de la France ? ». Pour y répondre, le recours à un processus de raisonnement en plusieurs étapes n'est pas nécessaire (alors qu'il le serait pour une projection financière). Si les entreprises utilisent des modèles de raisonnement gourmands en ressources pour chaque requête, alors les résultats sont à la fois coûteux et inefficaces. Ce dilemme est ce que l'on appelle le défi de mise en œuvre des « budgets de raisonnement ». C'est pour cette raison que nous avons développé vLLM Semantic Router, un projet Open Source qui sélectionne intelligemment le meilleur modèle pour chaque tâche. Ce système permet d'optimiser les coûts et l'efficacité tout en maximisant la facilité d'utilisation.

Présentation de vLLM Semantic Router

vLLM Semantic Router est un système Open Source qui agit comme une couche intelligente et économique de routage des requêtes pour vLLM, un moteur d'inférence hautement efficace. On pourrait comparer ce système à un agent de prise de décision pour les pipelines d'inférence des LLM. Il permet de relever les défis liés à l'efficacité grâce à un processus de routage dynamique et sensible à la sémantique qui suit les étapes ci-dessous :

Utilisation d'un modèle léger de classification, tel que ModernBERT ou d'autres modèles préentraînés, pour analyser l'intention et la complexité de la requête
Routage des requêtes simples vers un LLM plus léger et plus rapide ou vers un modèle sans raisonnement afin d'économiser des ressources de calcul
Réorientation des requêtes complexes qui nécessitent une analyse approfondie vers des modèles plus puissants axés sur le raisonnement

L'objectif de vLLM Semantic Router est de garantir que chaque jeton textuel généré apporte de la valeur. Codé en Rust et basé sur le framework Candle de Hugging Face, cet outil offre une faible latence et une haute simultanéité. Il est conçu pour offrir des performances élevées.

Grâce à la puissance des technologies Open Source, vLLM Semantic Router favorise la flexibilité des modèles en assurant un basculement efficace entre les modèles et un routage sensible à la sémantique. Les équipes de développement qui l'utilisent peuvent contrôler plus finement l'efficacité et la précision en choisissant automatiquement le LLM ou le mode de raisonnement adapté à la tâche. Il est également important de noter que ce projet prend en charge le déploiement cloud-native via une intégration native à Kubernetes à l'aide du plug-in ext_proc d'Envoy. vLLM Semantic Router est donc conçu pour être déployé, géré et mis à l'échelle dans tous les environnements de cloud hybride qui utilisent Red Hat OpenShift. De plus, il facilite la mise en œuvre des meilleures pratiques cloud-native dans tous les clouds.

vLLM Semantic Router et llm-d

En pratique, vLLM Semantic Router est capable de trouver de nombreux cas d'utilisation de déploiement. Les utilisateurs professionnels peuvent appliquer les mêmes concepts de routage dans le cadre de déploiements avec llm-d dans plusieurs clusters : une équipe peut utiliser un modèle GPT-OSS-120B exécuté dans un cluster de GPU H100 en production, tandis qu'une autre équipe accède au même modèle sur des GPU A100 à des fins d'expérimentation. Grâce aux fonctions de triage de vLLM Semantic Router intégrées à llm-d, les requêtes peuvent partager un point d'entrée unique et être acheminées intelligemment vers le bon point de terminaison de l'infrastructure, garantissant ainsi des performances optimales en fonction de l'utilisateur, des politiques et des ressources de calcul disponibles.

vLLM Semantic Router prend en charge la mise en cache sémantique et la détection des débridages lorsqu'il est déployé avec llm-d. Grâce à la mise en cache sémantique, les instructions génératives répétées ou similaires peuvent réutiliser les résultats d'inférence existants, ce qui réduit la charge de travail de calcul pour les requêtes redondantes. Cet avantage est particulièrement utile dans les environnements de production basés sur des schémas d'interrogation récurrents ou des sessions de messagerie instantanée. La fonctionnalité de détection des débridages exploite la couche de routage distribué de llm-d pour signaler les requêtes non conformes avant qu'elles atteignent le moteur d'inférence. Cette association offre aux entreprises un workflow d'inférence plus sécurisé, plus efficace et conforme aux politiques.

Valeur ajoutée pour les entreprises et la communauté

Pour les entreprises, l'utilisation de vLLM Semantic Router se traduit par une valeur métier tangible, liée à un nouvel équilibre entre coûts et précision. Les tests de performances de ce projet, avec l'ajustement automatique du mode de raisonnement sur la base des modèles MMLU-Pro et Qwen3 30B, ont généré d'importants gains d'efficacité. La précision sur les tâches complexes s'est améliorée de 10,2 %, tandis que la latence et l'utilisation des jetons textuels ont diminué de 47,1 % et de 48,5 %, respectivement. Ces résultats indiquent que vLLM Semantic Router aide non seulement à réduire les coûts d'exploitation globaux, mais aussi à gérer l'empreinte des modèles de raisonnement, pour une consommation d'énergie plus durable.

Lorsque j'ai commencé à développer vLLM Semantic Router, j'étais conscient que ce type de routage basé sur le raisonnement se limitait en grande partie à des systèmes propriétaires fermés. Conformément aux racines Open Source de Red Hat, nous nous devions d'apporter cette fonctionnalité essentielle à la communauté Open Source, en la rendant accessible et transparente pour tous. L'accueil positif dont a immédiatement bénéficié le projet a confirmé sa nécessité. Le projet a rapidement pris de l'ampleur au sein de la communauté. Il a enregistré plus de 2 000 étoiles et près de 300 forks sur GitHub au cours des deux mois qui ont suivi son lancement. Le soutien de la communauté Open Source a confirmé mes convictions pour l'avenir : l'infrastructure d'IA sera conçue de manière collaborative et ouverte.

Chez Red Hat, nous avons une vision claire de l'ère de l'IA : quel que soit le modèle, l'accélérateur sous-jacent ou l'environnement de déploiement, la technologie du vLLM est destinée à être la norme ouverte absolue pour l'inférence dans le nouveau cloud hybride. Et vLLM Semantic Router joue ici un rôle essentiel.

Les interrogations autour de l'inférence évoluent : avant on se demandait simplement si on pouvait l'exécuter, désormais on se demande comment mieux l'exécuter. vLLM Semantic Router ajoute une couche de calcul sophistiquée et sensible aux tâches, qui fournit aux entreprises les outils Open Source nécessaires pour développer une IA efficace, responsable et adaptée à leurs besoins. Rejoignez-nous pour déterminer la prochaine phase de l'inférence des LLM : consultez le site web du projet et découvrez la communauté de vLLM Semantic Router sur GitHub.

À propos de l'auteur

Huamin Chen

Senior Principal Software Engineer

Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.

Read full bio