Red Hat AI Inference Server

Resumen

El verdadero valor de la inteligencia artificial radica en brindar respuestas rápidas y precisas según sea necesario. Red Hat® AI Inference Server lo hace posible al optimizar el proceso de inferencia en la nube híbrida, paso fundamental para que las aplicaciones de inteligencia artificial se comuniquen con los modelos de lenguaje de gran tamaño (LLM) y generen una respuesta basada en los datos. Esto permite crear implementaciones de modelos más rápidas y rentables.

Inferencia rápida y rentable en todas partes

Red Hat AI Inference Server forma parte de la plataforma Red Hat AI y proporciona inferencias uniformes, rápidas y rentables según sea necesario. Permite ejecutar cualquier modelo de inteligencia artificial generativa en todo tipo de acelerador de hardware y en los entornos de centro de datos, de nube y del extremo de la red. De este modo, se brinda a las empresas la flexibilidad y las opciones necesarias para cumplir con sus requisitos. AI Inference Server proporciona funciones para realizar inferencias eficientes a través de la optimización de los modelos con LLM Compressor, que comprime tanto los modelos base como los entrenados, como así también brindando acceso a un conjunto de modelos de inteligencia artificial generativa validados y optimizados que están listos para las implementaciones de inferencia en menos tiempo.

Red Hat AI Inference Server es compatible con una gran variedad de modelos y aceleradores de hardware y puede ejecutarse en la infraestructura y el sistema operativo que elijas, como las plataformas de Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® y las distribuciones de Linux o Kubernetes de terceros, lo que brinda a los clientes la flexibilidad necesaria para adaptarse a cualquier arquitectura.

Tabla 1. Funciones y ventajas

Ventaja	Descripción
Enfoque eficiente para la inferencia de modelos con un modelo virtual de lenguaje de gran tamaño (vLLM)	AI Inference Server ofrece un enfoque eficiente para la inferencia de modelos al optimizar el uso de la memoria de las unidades de procesamiento gráfico (GPU) y la latencia de inferencia con el vLLM.
Reducción de la complejidad operativa	AI Inference Server ofrece una plataforma uniforme para implementar y optimizar los modelos en la nube híbrida. Cuenta con un enfoque sencillo para gestionar las técnicas avanzadas de machine learning (aprendizaje automático), incluida la cuantización, y puede integrarse a herramientas de observabilidad, como Prometheus y Grafana.
Flexibilidad de la nube híbrida	El elemento principal de AI Inference Server es el vLLM, por lo que las empresas tienen la libertad de ejecutar los modelos de inteligencia artificial dondequiera que necesiten, ya sea en los centros de datos, en la nube o en el extremo de la red.

Especificaciones técnicas

Tiempo de ejecución de inferencias para la nube híbrida. AI Inference Server tiene como elemento principal un vLLM de tiempo de ejecución de inferencias sólido y sofisticado, por lo que las empresas cuentan con una plataforma unificada de alto rendimiento para ejecutar los modelos de su preferencia en varios aceleradores, Kubernetes y entornos de Linux. Además, se integra a las herramientas de observabilidad para mejorar la supervisión y admite las API de LLM, como la de OpenAI, de manera que la implementación sea más flexible.
LLM Compressor. Los equipos de inteligencia artificial pueden comprimir tanto los modelos base como los entrenados de todos los tamaños para reducir el uso de recursos informáticos y los costos relacionados, al tiempo que mantienen un alto grado de precisión en las respuestas. Además, trabajan junto con Red Hat para recibir soporte en torno a las iniciativas de optimización de los modelos.
Repositorio optimizado de modelos. AI Inference Server, que se encuentra alojado en la página de Red Hat AI en Hugging Face, ofrece acceso inmediato a un conjunto validado y optimizado de los principales modelos de inteligencia artificial que están listos para la implementación de inferencias, lo que permite aumentar la eficiencia entre dos y cuatro veces más rápido sin poner en riesgo la precisión del modelo.
Certificación para todos los productos de Red Hat. AI Inference Server forma parte de Red Hat OpenShift AI y Red Hat Enterprise Linux AI, y también es compatible con Red Hat OpenShift y Red Hat Enterprise Linux.
Implementaciones en plataformas de terceros. AI Inference Server puede implementarse en plataformas Linux y Kubernetes de terceros, y está incluido en la política de soporte de terceros de Red Hat. En estos casos, Red Hat solo respalda el elemento Inference Server y el cliente se encarga de los problemas relacionados con la plataforma si no pueden replicarse en Red Hat Enterprise Linux o Red Hat OpenShift.

Descubre la automatización totalmente optimizada

Visita la página del producto Red Hat AI Inference Server para conocer la manera en que permite ofrecer inferencias rápidas, rentables y adaptables.

Nuestro enfoque

Productos

Participa y aprende

Soluciones de plataforma

Casos prácticos

Soluciones por sector

Descubre las tecnologías de nube

Plataformas

Destacados

Prueba y compra

Servicios y soporte

Capacitación y certificación

Destacados

Servicios

Amplía tu conocimiento

Otros recursos de aprendizaje

Para los desarrolladores

Para los clientes

Para los partners

Diseña soluciones con los partners de confianza

Me gustaría:

Quiero encontrar:

Deseo más información sobre:

Recomendado

[[name]]

Red Hat AI Inference Server

Resumen

Inferencia rápida y rentable en todas partes

Tabla 1. Funciones y ventajas

Especificaciones técnicas

Descubre la automatización totalmente optimizada

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links