Red Hat AI Inference Server
Présentation
La véritable valeur de l'IA réside dans ses réponses rapides et précises à grande échelle. Red Hat® AI Inference Server offre cet avantage en optimisant les processus d'inférence, une étape cruciale qui permet aux applications d'IA de communiquer avec des grands modèles de langage (LLM) et de générer des réponses basées sur des données dans l'ensemble du cloud hybride. Le déploiement des modèles est ainsi plus rapide et rentable.
Tâches d'inférence rapides et rentables dans tous les environnements
Intégrée à l'offre Red Hat AI, la solution Red Hat AI Inference Server permet d'effectuer des tâches d'inférence rapides, cohérentes et rentables à grande échelle. Elle est en mesure d'exécuter tous les modèles d'IA générative sur tous les accélérateurs matériels et dans les environnements de datacenter, cloud et d'edge computing. Vous disposez ainsi des choix et de la flexibilité nécessaires pour répondre à vos besoins métiers. AI Inference Server met en œuvre des tâches d'inférence efficaces grâce à l'optimisation des modèles. Vous pouvez tirer parti de LLM Compressor afin de compresser à la fois les modèles de fondation et d'entraînement, ou d'un accès à un ensemble de modèles d'IA générative validés, optimisés et prêts pour un déploiement rapide.
La solution Red Hat AI Inference Server est compatible avec un large éventail d'accélérateurs matériels et de modèles, et peut s'exécuter sur l'infrastructure et le système d'exploitation de votre choix, notamment les plateformes incluses dans Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® et d'autres solutions ou distributions Linux ou Kubernetes spécifiques.
Tableau 1 : fonctions et avantages
Avantage | Description |
Approche efficace des processus d'inférence des modèles à l'aide d'un grand modèle de langage virtuel (vLLM) | AI Inference Server offre une approche efficace des processus d'inférence des modèles en optimisant l'utilisation de la mémoire des processeurs graphiques et la latence d'inférence avec le vLLM. |
Exploitation simplifiée | AI Inference Server fournit une plateforme cohérente pour le déploiement et l'optimisation des modèles dans le cloud hybride. Cette solution propose une approche intuitive pour gérer les techniques avancées d'apprentissage automatique, notamment la quantification, et s'intègre à des outils d'observabilité comme Prometheus et Grafana. |
Cloud hybride flexible | Basée sur le vLLM, la solution AI Inference Server permet aux entreprises d'exécuter des modèles d'IA là où elles en ont besoin, dans des datacenters, dans le cloud et à la périphérie du réseau. |
Caractéristiques techniques
- Exécution de processus d'inférence dans le cloud hybride : basée sur un vLLM d'exécution d'inférence puissant et sophistiqué, la solution AI Inference Server offre aux entreprises une plateforme unifiée et hautes performances afin d'exécuter les modèles de leur choix sur différents accélérateurs ainsi que dans des environnements Kubernetes et Linux. Elle s'intègre également aux outils d'observabilité afin d'améliorer la surveillance et prend en charge les API de LLM, comme celles d'OpenAI, pour un déploiement flexible.
- LLM Compressor : les équipes d'IA peuvent compresser les modèles de fondation et d'entraînement de toutes tailles afin d'économiser des ressources de calcul et de diminuer les coûts associés tout en préservant un haut niveau de précision dans les réponses. Nous pouvons également les assister dans leurs projets d'optimisation des modèles.
- Référentiel de modèles optimisé : hébergée sur la page Red Hat AI sur Hugging Face, la solution AI Inference Server offre un accès instantané à une collection validée et optimisée de grands modèles d'IA prêts pour le déploiement de processus d'inférence, ce qui permet de multiplier par deux à quatre l'efficacité sans compromettre la précision du modèle.
- Compatibilité avec tous nos produits : cette solution est incluse dans Red Hat OpenShift AI et Red Hat Enterprise Linux AI, et fonctionne également avec Red Hat OpenShift et Red Hat Enterprise Linux.
- Déploiements sur des plateformes tierces : la solution AI Inference Server peut être déployée sur des plateformes Linux et Kubernetes tierces, et est couverte par notre politique d'assistance tierce. Dans ce cas, nous ne prenons en charge que le composant Inference Server. Le client est responsable des problèmes liés à sa plateforme sous-jacente s'ils ne peuvent pas être reproduits sur Red Hat Enterprise Linux ou Red Hat OpenShift.
Stratégie d'automatisation optimisée
Pour découvrir comment la solution Red Hat AI Inference Server assure des capacités d'inférence rapides, rentables et évolutives, consultez la page du produit.