Red Hat AI Inference

Red Hat® AI Inference es una stack integrada que ofrece inferencias rápidas, uniformes y rentables a gran escala.

Pruébala

Habla con un representante de Red Hat

Enlaces rápidos

Consulta la documentación del producto

Comienza el proceso de aprendizaje

Accede a la capacitación práctica

Descarga el ebook

Is AI inference costing you too much? Duración del video: 2:16

¿Qué es Red Hat AI Inference?

Red Hat AI Inference proporciona el control operativo para ejecutar cualquier modelo en cualquier acelerador de la nube híbrida.

La stack de inferencia integral, que utiliza vLLM y llm-d, optimiza la economía de los tokens y la capacidad del hardware para obtener tiempos de respuesta más rápidos. La tecnología de open source actúa como el motor de la inteligencia artificial con agentes (Agentic AI) y de los patrones del modelo como servicio (MaaS), lo que permite aumentar la eficiencia sin comprometer el rendimiento.

La importancia de la inferencia de la inteligencia artificial

vLLM impulsa la tecnología de open source

vLLM es un motor de inferencia altamente eficiente que resuelve los problemas de uso de la unidad de procesamiento gráfico (GPU) con un menor costo por token y una latencia estable a gran escala.

Con su enfoque open source portátil y una comunidad en crecimiento, se está convirtiendo en el Linux® de la inferencia de inteligencia artificial generativa.

Red Hat es uno de los principales colaboradores comerciales y ofrece su experiencia única en vLLM para ayudarte a lograr tus objetivos de inteligencia artificial.

Descubre la comunidad de vLLM

La comunidad de vLLM hoy

Tiene más de 500 000 GPU implementadas de forma permanente¹.

Cuenta con más de 200 tipos de aceleradores diferentes².

Aprovecha más de 500 arquitecturas de modelos compatibles².

Es 24 veces más productiva que la competencia³.

Ventajas

Flexibilidad del hardware y los modelos

Mantén la uniformidad operativa con cualquier modelo en cualquier sistema de hardware y nube.

Separa la inteligencia artificial de su infraestructura fundamental para diseñar una arquitectura unificada de MaaS y poner los modelos a disposición en la producción, además de potenciar agentes con eficiencia.

Gestión de la economía de los tokens

Usa vLLM y llm-d para aumentar el rendimiento y reducir el costo por token.

Optimiza los recursos que tienes para ejecutar agentes de manera rentable y ampliar la implementación de la inteligencia artificial de forma sostenible.

Ampliación predecible

Distribuye el tráfico de inferencia de manera inteligente para prestar servicios a más usuarios y agentes en la infraestructura actual.

Gestiona diversos casos prácticos y exigencias de manera confiable, desde flujos de trabajo con agentes multimodales hasta asistentes de código y chatbots que se basan en la generación aumentada por recuperación (RAG).

Obtén acceso anticipado a llm-d

Ahora, Red Hat AI Inference ofrece acceso anticipado a llm-d en entornos de Kubernetes de terceros y funciones de inferencia distribuida en Red Hat OpenShift®.

Obtén más información sobre llm-d

Tú eliges los modelos

Desarrolla una arquitectura unificada de MaaS sin tener que volver a diseñar la stack de inteligencia artificial.

Red Hat AI Inference ofrece uniformidad operativa en cualquier combinación de modelos open source y aceleradores de hardware. Agiliza las implementaciones con confianza gracias a nuestro conjunto de modelos optimizados para reducir los costos y validados para ejecutarse de manera eficiente en la plataforma de Red Hat AI.

Consulta el repositorio de modelos en Hugging Face

ROI del 233 % con Red Hat AI

Red Hat encargó a Forrester Consulting que realizara un estudio Total Economic Impact™ (TEI) y analizara el posible retorno sobre la inversión (ROI) que las empresas podrían obtener al implementar Red Hat AI.

Después de entrevistar a los clientes que usaban Red Hat AI, se llegó a la conclusión de que una empresa modelo obtendría un ROI del 233 % en 3 años, lo cual representa un valor total de más del triple de su inversión inicial⁴.

Lee el estudio de caso

Aspectos destacados del producto

Obtén una stack de inferencia completa y totalmente integrada, diseñada para poner los modelos a distribución en la etapa de producción de manera eficiente a gran escala.

Obtén la datasheet

Función	Detalles	Ventaja
llm-d	Ejecuta las funciones de inferencia distribuida en OpenShift u obtén acceso anticipado a llm-d en entornos de Kubernetes de terceros.	Agiliza las inferencias y aprovecha al máximo la infraestructura de inteligencia artificial que se ejecuta en las distribuciones de Kubernetes que prefieras.	Consulta la documentación
Telemetría específica de la inteligencia artificial generativa	Descubre los indicadores de rendimiento específicos del modelo, como el tiempo que demoras hasta obtener el primer token, la tasa de aciertos de la caché de clave-valor (KV) y el uso de la GPU.	Obtén información para alcanzar los objetivos de nivel de servicio (SLO) estrictos y descubre las áreas en las que puedes mejorar tus modelos.
Kit de herramientas de optimización de modelos	Optimiza los modelos básicos o personalizados con técnicas como la esparsidad o la cuantización.	Aprovecha al máximo la capacidad del hardware para reducir los costos y agilizar las inferencias.	Consulta la documentación
Arquitectura dispersa de mezcla de expertos (MoE)	Ejecuta arquitecturas dispersas de MoE con agentes de baja latencia y modelos de razonamiento sofisticados.	Reduce los costos de inferencia sin comprometer el rendimiento con una arquitectura de modelos eficiente.	Consulta la documentación
Certificación para todos los productos de Red Hat.	Las funciones de Red Hat AI Inference forman parte de Red Hat AI Enterprise y Red Hat OpenShift® AI. La solución también es compatible con Red Hat OpenShift y Red Hat Enterprise Linux.	Utiliza los productos de Red Hat o realiza implementaciones en las plataformas Linux y Kubernetes de acuerdo con nuestra política de soporte de terceros.	Consulta la documentación

Métodos de compra

Red Hat AI Inference está disponible como producto independiente o como parte de Red Hat AI. Sus funciones basadas en llm-d y vLLM se incluyen en Red Hat AI Enterprise y en Red Hat OpenShift AI.

Habla con un representante de Red Hat

La inteligencia artificial que se adapta a tus necesidades y opera según tus condiciones.

Inteligencia artificial generativa

Produce contenido nuevo, como texto y código de software.

Red Hat AI te permite ejecutar los modelos de inteligencia artificial generativa que elijas con mayor rapidez, menos recursos y menos costos de inferencia.

Obtén más información sobre la inteligencia artificial generativa con Red Hat AI

Inteligencia artificial predictiva

Conecta patrones y prevé resultados futuros

Con Red Hat AI, las empresas pueden diseñar, entrenar, poner a disposición y supervisar los modelos predictivos, mientras mantienen la uniformidad en toda la nube híbrida.

Obtén más información sobre la inteligencia artificial predictiva con Red Hat AI

El uso de la inteligencia artificial

Crea sistemas que respalden el mantenimiento y la implementación de la inteligencia artificial a gran escala.

Con Red Hat AI, puedes gestionar y supervisar el ciclo de vida de las aplicaciones que utilizan la inteligencia artificial, ahorrar recursos y garantizar el cumplimiento de las normas de privacidad.

Obtén más información sobre el uso de la inteligencia artificial con Red Hat AI

Inteligencia artificial con agentes

Diseña flujos de trabajo que lleven a cabo tareas complejas con supervisión limitada.

Red Hat AI ofrece un enfoque flexible y una base estable para diseñar, gestionar e implementar flujos de trabajo de inteligencia artificial con agentes dentro de las aplicaciones actuales.

Obtén más información sobre la inteligencia artificial con agentes con Red Hat AI

Implementación con partners

Los especialistas y las tecnologías se unen para que los clientes puedan obtener mejores resultados con la inteligencia artificial. Descubre todos los partners que trabajan con Red Hat para certificar su funcionamiento con nuestras soluciones.

Explora los partners de Red Hat AI

Historias de clientes sobre inteligencia artificial en Red Hat Summit y AnsibleFest 2025

Ponte al día con los aspectos más destacados del Summit 2025

Turkish Airlines duplicó la velocidad de la implementación al brindar acceso a los datos en toda la empresa.

JCCM mejoró los procesos de evaluación del impacto ambiental (EIA) de la región con la inteligencia artificial.

DenizBank agilizó el tiempo de comercialización de días a minutos.

Hitachi implementó la inteligencia artificial en toda su empresa con Red Hat OpenShift AI.

Preguntas frecuentes

¿Necesito comprar Red Hat AI Enterprise o Red Hat OpenShift AI para usar Red Hat AI Inference?

No. Puedes adquirir la solución como un producto independiente de Red Hat.

¿Necesito comprar Red Hat AI Inference y Red Hat AI Enterprise?

No. Las funciones basadas en vLLM y llm-d de Red Hat AI Inference ya forman parte de Red Hat AI Enterprise y de Red Hat OpenShift AI.

Métodos de compra de Red Hat Enterprise Linux AI

¿Se puede ejecutar Red Hat AI Inference en Red Hat Enterprise Linux o Red Hat OpenShift?

Sí. Su tiempo de ejecución, que se basa en vLLM, también puede ejecutarse en entornos de Linux y de Kubernetes de terceros según nuestro acuerdo. Además, ofrece acceso anticipado para ejecutar sus funciones de inferencia distribuida basadas en el proyecto llm-d en entornos de Kubernetes de terceros.

¿Cómo se determina el precio de Red Hat AI Inference?

El precio se establece por acelerador.

Recursos adicionales de inteligencia artificial

Aprende a implementar la inteligencia artificial en la empresa

Aprende a implementar la inferencia de inteligencia artificial

Scale enterprise AI inference across the hybrid cloud

Webinar: How to boost performance and optimize costs

Comunícate con el Departamento de Ventas

Habla con un representante de Red Hat sobre Red Hat AI

¹Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025". YouTube, 8 de diciembre de 2025.

²Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale". X, 26 de enero de 2026.

³Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention". Blog de vLLM, 20 de junio de 2023.

⁴Estudio de Forrester Consulting encargado por Red Hat. "Forrester Total Economic Impact™ de Red Hat AI". Febrero de 2026.