Cet article de blog est adapté d'un entretien récent que j'ai eu avec Ion Stoica, de l’université de Californie à Berkeley, qui figure dans l'article de Red Hat Research Quarterly intitulé From Silos to Startups: Why University Start a part of Industry's AI Growth. Lisez l'intégralité de notre entretien ici.
Ces dernières années, le discours sur l'intelligence artificielle (IA) a été dominé par les grands modèles de langage (LLM) et l'effort colossal de leur entraînement. Le secteur des technologies s'est concentré sur la phase de découverte, mais cette époque est en train d’évoluer rapidement.
La discussion passe de « Comment construire le modèle ? » à « Comment exécuter réellement le modèle en production à grande échelle ? »
Ce changement est plus qu'un détail technique : il constitue le nouveau centre de gravité de l'IA d'entreprise. Lorsque l'IA quitte le laboratoire de recherche pour devenir une capacité métier essentielle, l'accent est directement mis sur l'inférence, c'est-à-dire l'activation des synapses dans le « cerveau » d'un modèle entraîné avant qu'il ne génère une réponse ou n'agisse. Pour les entreprises, l'inférence doit être rapide, rentable et entièrement contrôlée.
La réponse Open Source au défi de l'inférence
Faire passer l'IA d'une preuve de concept à un service fiable et de qualité production présente des enjeux importants en termes de complexité, de coût et de contrôle pour les responsables informatiques.
Premièrement, le matériel nécessaire à l'exécution de ces modèles, en particulier à l'échelle requise par les entreprises, est coûteux et souvent rare. Deuxièmement, la demande est imprévisible. Des pics d'utilisation peuvent survenir, suivis de longues périodes de faible activité, ce qui peut se reproduire sur des centaines de variantes de modèles spécifiques à un domaine. Cette variabilité rend extrêmement difficile l'optimisation de l'utilisation des ressources et la protection des investissements essentiels.
Nous avons vu la communauté Open Source relever ce défi en se concentrant sur l'optimisation des performances et de l'efficacité pour la distribution des LLM. Un des projets phares à la tête de cette initiative est vLLM, établi sous la direction de Ion Stoica au Sky Computing Lab de l'Université de Californie à Berkeley. Comme Ion l'a mentionné dans notre conversation, cette origine universitaire est essentielle : elle démontre comment la recherche universitaire résout directement les problèmes d'inférence les plus pressants du monde réel. vLLM est rapidement devenu la référence de facto pour la distribution de LLM hautes performances, un moteur conçu pour la rapidité et l'efficacité afin d'optimiser le débit et de minimiser la latence.
Renforcer l'innovation communautaire pour les entreprises
Les projets communautaires tels que vLLM sont le point de départ de l'innovation, mais ils doivent être adaptés pour répondre aux exigences rigoureuses des environnements de production d'entreprise. C'est là que la valeur de Red Hat, en tant qu'expert de confiance de Linux et Kubernetes, entre en jeu.
Nous prenons le travail novateur de vLLM et l'associons à d'autres projets communautaires afin de créer une plateforme renforcée, prise en charge et évolutive pour l'IA en production. Un élément clé de cette évolution est llm-d, un cadre d'inférence distribué pour la gestion des LLM à l'échelle du cluster et au-delà.
L'intégration de llm-d modifie radicalement le mode d'exécution natif des LLM dans Kubernetes. Cela apporte la valeur avérée de l'orchestration des conteneurs (contrôle, cohérence et planification efficace des ressources) à la phase la plus exigeante de l'IA à ce jour : l'inférence à volume élevé et à demande variable.
Cette combinaison permet aux organisations de :
- Optimiser les dépenses d'infrastructure : Grâce à l'orchestration de Kubernetes, nous permettons la distribution distribuée de grands modèles. Les équipes informatiques peuvent ainsi exploiter pleinement leurs accélérateurs matériels limités et coûteux pour plusieurs charges de travail et modèles, et traiter leur infrastructure non pas comme un matériel isolé, mais comme un pool de capacités de calcul flexibles.
- Accélérer les temps de réponse : L'inférence distribuée gère intelligemment la demande imprévisible, garantissant que les applications obtiennent les réponses dont elles ont besoin sans pics de latence.
- Accélérer le déploiement en toute confiance : Nous offrons une voie fiable, de la recherche de pointe et de l'innovation communautaire jusqu'aux logiciels renforcés et pris en charge. Cela accélère le délai de rentabilisation pour les ingénieurs en IA et confère aux équipes de plateforme les contrôles de gestion et de gouvernance nécessaires.
Le modèle ouvert essentiel pour l'IA
Ion et moi sommes d'accord : le pipeline d'innovation qui a donné naissance à vLLM et llm-d (commençant par la recherche universitaire, évoluant au sein des communautés Open Source, et finalement stabilisé et pris en charge pour une utilisation en entreprise) est le modèle qui définira les dix prochaines années d'adoption de l'IA.
Pour que l'IA devienne véritablement un outil métier indispensable, elle ne peut pas rester isolée dans des laboratoires propriétaires ni se limiter à des preuves de concept. Elle doit être accessible et transparente, et reposer sur une base qui permet une amélioration continue et collaborative. L'engagement de Red Hat est de garantir que le cloud hybride ouvert demeure l'environnement privilégié pour opérationnaliser cette innovation, offrant aux entreprises la base dont elles ont besoin pour maîtriser leurs données, contrôler leur destinée et naviguer en toute confiance dans le paysage évolutif de l'IA.
À propos de l'auteur
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Plus de résultats similaires
Implementing best practices: Controlled network environment for Ray clusters in Red Hat OpenShift AI 3.0
Friday Five — December 12, 2025 | Red Hat
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud