Nous sommes ravis de vous présenter nos derniers modèles validés, conçus pour optimiser vos déploiements. Chez Red Hat, notre objectif est d'offrir la confiance, la prévisibilité et la flexibilité dont les organisations ont besoin pour déployer des modèles d'IA générative tiers sur la plateforme Red Hat AI. Cette version enrichit notre collection de modèles optimisés, dont les performances sont étalonnées et la précision évaluée, ce qui vous aide à accélérer le délai de valorisation et à choisir la solution adaptée à votre cas d'usage en entreprise.
Les modèles validés de Red Hat AI vont au-delà d'une simple liste : ils offrent une IA efficace et adaptée aux entreprises. Nous associons des évaluations rigoureuses des performances et des tests de précision à un processus de conditionnement exhaustif, conçu pour favoriser un déploiement sécurisé et simplifié. Chaque modèle est analysé pour détecter les vulnérabilités et intégré à un cycle de vie logiciel géré, ce qui contribue à vous garantir une ressource performante, optimisée en termes de ressources, axée sur la sécurité, facile à gérer et prête pour des mises à jour à long terme.
Que sont les modèles validés ?
Le monde des grands modèles de langage (LLM) se développe rapidement, ce qui rend difficile pour les entreprises de choisir le modèle approprié. Les entreprises ont souvent du mal à planifier les capacités des ressources d'IA et à s'assurer que les performances d'un modèle peuvent être reproduites de manière fiable.
C'est là que les modèles validés de Red Hat entrent en jeu. Nous donnons accès à un ensemble de modèles tiers prêts à l'emploi qui fonctionnent efficacement sur vLLM au sein de notre plateforme. Nous simplifions le processus de sélection en effectuant des tests complets pour vous. Notre processus de validation de modèle comprend les éléments suivants :
- Étalonnage des performances à l’aide de GuideLLM pour évaluer les besoins en ressources et les coûts sur diverses configurations matérielles.
- Évaluations de la précision à l’aide de Language Model Evaluation Harness (LM Eval Harness) pour mesurer la manière dont les modèles répondent à de nouvelles tâches.
- Déploiements reproductibles sur vLLM, le moteur d’inférence à haut débit, pour garantir l'obtention des mêmes résultats.
- Conditionnement axé sur la sécurité et adapté aux entreprises utilisant des formats de conteneurs standardisés dans notre registre de production, afin de créer une ressource sous gestion des versions, analysée pour détecter les vulnérabilités, qui simplifie le déploiement et la gestion du cycle de vie.
Ce processus fournit des conseils clairs sur la planification des capacités. Il vous permet ainsi de dimensionner correctement vos déploiements, de sélectionner le matériel adapté et d'accélérer la mise en production en toute confiance.
Les capacités d'optimisation des modèles de Red Hat
Le déploiement de grands modèles de langage est souvent limité par le coût élevé et la rareté du matériel spécialisé, par exemple les GPU à haute VRAM. Pour favoriser la démocratisation de l'accès et permettre aux entreprises d'exécuter ces modèles à moindre coût, même sur des GPU de plus petite taille ou moins nombreux, Red Hat applique des techniques avancées de compression des modèles.
Ce processus d'optimisation crucial, basé sur des technologies comme LLM Compressor, implique des techniques telles que la quantification (par exemple, la conversion de modèles aux formats INT4, INT8 ou FP8 Dynamic) qui réduisent considérablement l'empreinte mémoire et les exigences de calcul des grands modèles de langage, tout en préservant soigneusement la qualité et la précision de leurs résultats.
Les modèles validés que vous voyez dans notre collection, dont la plupart sont pré-compressés et prêts à être déployés, sont des exemples de cette optimisation en action. En tirant parti de ces ressources, Red Hat vous permet de :
- réduire l'utilisation de la VRAM, ce qui permet de servir des modèles plus volumineux avec des ressources GPU moins coûteuses ou moins nombreuses ;
- réduire les coûts d'exploitation en optimisant l'utilisation du matériel ;
- atteindre un débit plus élevé et une latence réduite lors de la phase d'inférence critique.
Ces ressources validées et optimisées sont facilement disponibles sur notre référentiel public Red Hat AI Hugging Face et au sein du registre de conteneurs Red Hat à l'adresse registry.redhat.io, constituant ainsi une source fiable pour le déploiement d'une IA performante et rentable.
Découvrez les derniers modèles validés
Les derniers modèles validés proposent une gamme complète de modèles performants et variés, tous optimisés et adaptés aux charges de travail de votre entreprise.
- DeepSeek-R1 INT4 : Modèle de codage de haute qualité, particulièrement adapté pour générer, compléter et déboguer du code complexe dans plusieurs langages de programmation.
- Qwen 3 8B FP8 Dynamic : Modèle multilingue polyvalent et puissant d’Alibaba, conçu pour les applications de chatbot mondiales et la création de contenu.
- Kimi K2 Quantized INT4 : Ce modèle est reconnu pour sa fenêtre de contexte remarquablement étendue, ce qui en fait un atout majeur pour la génération augmentée par récupération (RAG) et l'analyse de documents volumineux, tels que des contrats juridiques ou des articles de recherche.
- Gemma-3n 4B FP8 Dynamic : Les derniers modèles efficaces de Google offrent un équilibre entre performances et taille pour les tâches de synthèse et les applications sur appareil.
- openai/gpt-oss-120b & openai/gpt-oss-20b : Grands modèles (et leur variante de taille réduite) de fondation à usage général, capables d'un raisonnement complexe, d'une génération de contenu nuancé et d'une résolution avancée des problèmes.
- Qwen3 Coder 480B-A35B-Instruct-FP8 : Assistant de codage professionnel, conçu pour les pipelines de développement logiciel et d'automatisation exigeants.
- Voxtral-Mini-3B-2507 FP8 Dynamic : Un modèle agile et réactif, axé sur la voix et la parole, particulièrement adapté pour créer des applications vocales en temps réel ainsi que des agents interactifs.
- whisper-large v3 INT4 : Modèle de pointe de reconnaissance vocale d'OpenAI, conçu pour une transcription audio d'une grande précision, la création de comptes rendus de réunion et l'activation de commandes vocales.
- NVIDIA-Nemotron-Nano-9B-v2 : Ce nouveau modèle de raisonnement et de conversation à usage général de NVIDIA utilise une architecture hybride pour les systèmes d'agents d'IA, les chatbots et la RAG, et est utilisable à des fins commerciales.
Lancez-vous
Vous pouvez accéder dès aujourd'hui à ces modèles d'IA puissants et prêts pour le déploiement de deux manières :
- Hugging Face : découvrez les modèles validés et leurs détails sur le référentiel Red Hat AI.
- Red Hat Container Registry : extrayez les images de conteneurs pour un déploiement immédiat sur RHOAI 2.25 ou RHAIIS 3.2.2. Consultez la documentation.
Remarque : tous les modèles sont optimisés pour un déploiement sur vLLM (version 0.10.1.1 ou ultérieure).
Bientôt disponible
Pour une intégration encore plus étroite, ces modèles seront présentés dans le catalogue Red Hat OpenShift AI à partir de la version 3.0, avec une disponibilité générale (GA) prévue pour novembre.
Pour consulter les données complètes sur les performances et l’évaluation, contactez votre représentant commercial.
Ressource
L'entreprise adaptable : quand s'adapter à l'IA signifie s'adapter aux changements
À propos de l'auteur
My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.
Plus de résultats similaires
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud