Caso práctico

Inferencias rápidas y eficientes con Red Hat AI

Cuando optimizas la inferencia, los modelos se vuelven más rápidos, inteligentes y confiables.

Elige cualquier modelo en cualquier acelerador y cualquier entorno.

Aprovecha al máximo la infraestructura que tienes para reducir el costo por token y aumentar el rendimiento.

Ajusta las cargas de trabajo de manera dinámica con inferencias inteligentes distribuidas e información sobre la demanda impredecible.

La inferencia es la base de la inteligencia artificial generativa. Pero a medida que aumenta la complejidad de los modelos, el proceso de inferencia se vuelve más lento y se puede complicar.

Para efectuar inferencias a gran escala, los modelos necesitan una enorme cantidad de almacenamiento, memoria y potencia informática, lo que puede consumir la mayor parte de tu presupuesto. Además, la adopción rápida de la inteligencia artificial con agentes (Agentic AI) genera una demanda aún mayor de recursos.

Red Hat® AI optimiza la inferencia para que conserves la rentabilidad y permitas que tus equipos se expandan y respalden con confianza la inteligencia artificial con agentes.

Descubre las posibilidades

Red Hat AI permite inferencias rentables, rápidas y uniformes a gran escala. Se basa en tecnologías de open source, como los vLLM y llm-d, y ofrece la flexibilidad necesaria para adaptarse en la nube híbrida con el modelo y el acelerador que prefieras.

La importancia de la inferencia de la inteligencia artificial

Implementa y ajusta los sistemas en la nube híbrida

Mantén la uniformidad operativa en los distintos aceleradores de hardware (GPU, TPU) y ejecuta modelos en las instalaciones, la nube o el extremo de la red.

Elige tus modelos y aceleradores

Elige una combinación de modelos y aceleradores de hardware con una experiencia operativa uniforme. Desarrolla una arquitectura unificada de modelo como servicio (MaaS) sin tener que volver a diseñar la stack completa.

Comprime y cuantifica modelos de cualquier tamaño

Disminuye el uso de los recursos informáticos, así como sus costos relacionados, mientras conservas una alta precisión en las respuestas de los modelos.

Aumenta el rendimiento reduciendo el costo por token

Aprovecha tu infraestructura con vLLM y llm-d. Al optimizar los recursos disponibles, la baja latencia y el alto rendimiento te permiten ejecutar la función de inferencia y los agentes de manera rentable y según lo necesites.

Gestiona el ciclo de vida integral del modelo

Diseña modelos con herramientas y marcos conocidos en una única plataforma concentrada que se basa en Kubernetes.

Garantiza la operación confiable a gran escala

Todas las cargas de trabajo de inferencia se gestionan a través de un acceso controlado, la aplicación de políticas y la determinación del estado interno de los sistemas.

Modelos como servicio con Red Hat AI

Descubre más información sobre los modelos como servicio que están diseñados para ser adaptables, abiertos y rentables.

ROI del 233 % con Red Hat AI

En un estudio de Forrester Consulting, encargado por Red Hat, se descubrió que una empresa representativa basada en los clientes actuales de Red Hat obtendría un retorno sobre la inversión del 233 % al implementar Red Hat AI. ¹

Obtén información sobre su funcionamiento

Red Hat AI ofrece opciones de implementación flexibles e impulsadas por la tecnología de open source para realizar inferencias controladas, eficientes y rentables en los distintos modelos, agentes y aplicaciones.

AI model inference with Red Hat AI | Red Hat Explains. Duración del video: 4:19

Funciones

Red Hat AI ofrece un control excepcional sobre los modelos, los agentes y el hardware para mejorar la inferencia a gran escala.

vLLM

Aumenta el rendimiento y el uso de la GPU

vLLM es un motor de inferencia diseñado para aumentar al máximo el rendimiento y agilizar los tiempos de respuesta en todos los aceleradores de hardware. Utiliza el algoritmo PagedAttention para optimizar el uso de la GPU y acelerar los resultados de las aplicaciones de inteligencia artificial generativa.

vLLM permite optimizar la implementación de cualquier modelo de inteligencia artificial generativa en cualquier acelerador de inteligencia artificial, mientras el comportamiento de las inferencias se mantiene controlado y predecible en los entornos de producción.

Obtén más información sobre vLLM

llm-d

Agiliza la inferencia distribuida a gran escala

llm-d es un marco open source de Kubernetes que agiliza la inferencia distribuida de los LLM a gran escala.

Esto significa que cuando un modelo de inteligencia artificial recibe consultas complicadas con muchos datos, llm-d proporciona un marco que acelera el procesamiento. Gracias a su arquitectura modular accesible, llm-d es una plataforma ideal para la inferencia distribuida de los LLM a gran escala: puedes contar con un proceso de inferencia adaptable mientras mantienes la uniformidad, la supervisión y el control en todas las cargas de trabajo distribuidas.

Obtén más información sobre llm-d

Telemetría específica de la IA generativa

Obtén información para alcanzar los estrictos objetivos del nivel de servicios (SLO)

Usa los indicadores y la información de los modelos en producción para detectar las áreas y las maneras en las que puedes mejorarlos. Descubre los indicadores de rendimiento específicos de los modelos, como el tiempo que demoras hasta obtener el primer token, la tasa de aciertos de la caché de clave-valor (KV) y el uso de la GPU. Utiliza estos indicadores para supervisar el rendimiento, detectar anomalías y permitir que la inferencia cumpla los requisitos operativos, de seguridad y de políticas.

Kit de herramientas de optimización de modelos

Comprime y cuantifica los modelos para reducir las limitaciones de recursos

Optimiza la elección de modelos base o personalizados con un variado kit de herramientas de modelos. Utiliza técnicas como la cuantificación o la dispersión para reducir los requisitos del hardware y los costos de la inferencia.

En el kit, se incluyen herramientas como LLM Compressor, que aprovecha las últimas investigaciones en compresión de modelos para reducir el tamaño de los modelos de lenguaje de gran tamaño, aumentar su eficiencia energética y acelerar su funcionamiento. De este modo, disminuyen los requisitos de hardware y mejoran la eficiencia, sin comprometer la precisión.

Además de su función principal, LLM Compressor se integra fácilmente a muchas otras herramientas y plataformas. Permite realizar inferencias dentro del ecosistema de Hugging Face Transformers, lo que posibilita que los equipos validen la precisión de los modelos antes de implementarlos. También se integra a marcos de perfeccionamiento, de manera que los usuarios pueden mantener la dispersión durante el entrenamiento supervisado.

Ayuda a lograr todo lo anterior y, a la vez, mantener la validación, la capacidad de replicación y el control sobre el comportamiento de los modelos antes de su implementación.

Obtén más información sobre LLM Compressor

Modelos como servicio

Gestiona el acceso a los modelos internos con una estrategia abierta y portátil

Red Hat AI incluye la integración de una puerta de enlace de API gestionada que permite que los ingenieros de plataformas de inteligencia artificial configuren funciones de modelos como servicio internas. Brinda una forma abierta, modular e independiente del proveedor para implementar y gestionar los modelos en los entornos de nube híbrida.

El acceso controlado a los modelos a través de una arquitectura de MaaS unificada te permite controlar quién puede acceder a cada modelo, hacer cumplir las políticas y supervisar el uso de todos los usuarios, las aplicaciones y los agentes. Esto posibilita un consumo de modelos a gran escala confiable, auditable y basado en políticas.

Al contar con maneras más sencillas de utilizar los modelos de inteligencia artificial y los recursos de la GPU, los desarrolladores pueden optimizar el acceso a los endpoints de las API y los ingenieros de plataformas pueden controlar, dirigir y supervisar el acceso para sus modelos autoalojados de alto rendimiento.

Una estrategia abierta para la gestión del acceso a los modelos, cuando se combina con una stack de inferencias que respalda la demanda impredecible y el ajuste de los modelos y los agentes, brinda una base sólida para la inteligencia artificial con agentes, el perfeccionamiento de modelos y la inteligencia artificial a gran escala.

Consulta la documentación sobre MaaS

Catálogo de modelos de Red Hat AI

Elige un modelo de inteligencia artificial generativa de nuestra colección validada

Utiliza cualquier modelo de inteligencia artificial generativa o elige uno de nuestro conjunto optimizado de modelos open source de terceros, que están validados para ejecutarse con eficiencia en la plataforma de Red Hat AI.

La validación de modelos de Red Hat AI se lleva a cabo con herramientas open source como GuideLLM, Language Model Evaluation Harness y vLLM. Esto facilita la replicación para los clientes y garantiza la validación, la confiabilidad y la uniformidad de la implementación de los modelos en todos los entornos.

Accede al catálogo de modelos

Tú eliges a tus proveedores

Trabajamos con proveedores de software y hardware y comunidades open source para ofrecer una solución integral de inteligencia artificial.

Accede a productos y servicios de partners que están probados, respaldados y certificados para funcionar con nuestras tecnologías.

Explora los partners de Red Hat AI

Próximos pasos

Pruébala

Lorem ipsum dolor sit amet consectetur. Tristique sapien gravida adipiscing.

Cómprala

Lorem ipsum dolor sit amet consectetur. Tristique sapien gravida adipiscing.

Ponte en marcha

Lorem ipsum dolor sit amet consectetur. Tristique sapien gravida adipiscing.

Habla con un representante de Red Hat

¹Estudio de Forrester Consulting solicitado por Red Hat. "Forrester Total Economic Impact™ de Red Hat AI". Febrero de 2026.

Inferencias rápidas y eficientes con Red Hat AI

Cuando optimizas la inferencia, los modelos se vuelven más rápidos, inteligentes y confiables.

Descubre las posibilidades

Implementa y ajusta los sistemas en la nube híbrida

Elige tus modelos y aceleradores

Comprime y cuantifica modelos de cualquier tamaño

Aumenta el rendimiento reduciendo el costo por token

Gestiona el ciclo de vida integral del modelo

Garantiza la operación confiable a gran escala

Modelos como servicio con Red Hat AI

ROI del 233 % con Red Hat AI

Obtén información sobre su funcionamiento

Funciones

Aumenta el rendimiento y el uso de la GPU

Agiliza la inferencia distribuida a gran escala

Obtén información para alcanzar los estrictos objetivos del nivel de servicios (SLO)

Comprime y cuantifica los modelos para reducir las limitaciones de recursos

Gestiona el acceso a los modelos internos con una estrategia abierta y portátil

Elige un modelo de inteligencia artificial generativa de nuestra colección validada

Tú eliges a tus proveedores

Próximos pasos

Pruébala

Cómprala

Ponte en marcha

Habla con un representante de Red Hat

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Cambiar el idioma

Red Hat legal and privacy links

Red Hat legal and privacy links