Red Hat AI Inference Server
Resumen
El verdadero valor de la inteligencia artificial radica en brindar respuestas rápidas y precisas según sea necesario. Red Hat® AI Inference Server lo hace posible al optimizar el proceso de inferencia en la nube híbrida, paso fundamental para que las aplicaciones de inteligencia artificial se comuniquen con los modelos de lenguaje de gran tamaño (LLM) y generen una respuesta basada en los datos. Esto permite crear implementaciones de modelos más rápidas y rentables.
Inferencia rápida y rentable en todas partes
Red Hat AI Inference Server forma parte de la plataforma Red Hat AI y proporciona inferencias uniformes, rápidas y rentables según sea necesario. Permite ejecutar cualquier modelo de inteligencia artificial generativa en todo tipo de acelerador de hardware y en los entornos de centro de datos, de nube y del extremo de la red. De este modo, se brinda a las empresas la flexibilidad y las opciones necesarias para cumplir con sus requisitos. AI Inference Server proporciona funciones para realizar inferencias eficientes a través de la optimización de los modelos con LLM Compressor, que comprime tanto los modelos base como los entrenados, como así también brindando acceso a un conjunto de modelos de inteligencia artificial generativa validados y optimizados que están listos para las implementaciones de inferencia en menos tiempo.
Red Hat AI Inference Server es compatible con una gran variedad de modelos y aceleradores de hardware y puede ejecutarse en la infraestructura y el sistema operativo que elijas, como las plataformas de Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® y las distribuciones de Linux o Kubernetes de terceros, lo que brinda a los clientes la flexibilidad necesaria para adaptarse a cualquier arquitectura.
Tabla 1. Funciones y ventajas
Ventaja | Descripción |
Enfoque eficiente para la inferencia de modelos con un modelo virtual de lenguaje de gran tamaño (vLLM) | AI Inference Server ofrece un enfoque eficiente para la inferencia de modelos al optimizar el uso de la memoria de las unidades de procesamiento gráfico (GPU) y la latencia de inferencia con el vLLM. |
Reducción de la complejidad operativa | AI Inference Server ofrece una plataforma uniforme para implementar y optimizar los modelos en la nube híbrida. Cuenta con un enfoque sencillo para gestionar las técnicas avanzadas de machine learning (aprendizaje automático), incluida la cuantización, y puede integrarse a herramientas de observabilidad, como Prometheus y Grafana. |
Flexibilidad de la nube híbrida | El elemento principal de AI Inference Server es el vLLM, por lo que las empresas tienen la libertad de ejecutar los modelos de inteligencia artificial dondequiera que necesiten, ya sea en los centros de datos, en la nube o en el extremo de la red. |
Especificaciones técnicas
- Tiempo de ejecución de inferencias para la nube híbrida. AI Inference Server tiene como elemento principal un vLLM de tiempo de ejecución de inferencias sólido y sofisticado, por lo que las empresas cuentan con una plataforma unificada de alto rendimiento para ejecutar los modelos de su preferencia en varios aceleradores, Kubernetes y entornos de Linux. Además, se integra a las herramientas de observabilidad para mejorar la supervisión y admite las API de LLM, como la de OpenAI, de manera que la implementación sea más flexible.
- LLM Compressor. Los equipos de inteligencia artificial pueden comprimir tanto los modelos base como los entrenados de todos los tamaños para reducir el uso de recursos informáticos y los costos relacionados, al tiempo que mantienen un alto grado de precisión en las respuestas. Además, trabajan junto con Red Hat para recibir soporte en torno a las iniciativas de optimización de los modelos.
- Repositorio optimizado de modelos. AI Inference Server, que se encuentra alojado en la página de Red Hat AI en Hugging Face, ofrece acceso inmediato a un conjunto validado y optimizado de los principales modelos de inteligencia artificial que están listos para la implementación de inferencias, lo que permite aumentar la eficiencia entre dos y cuatro veces más rápido sin poner en riesgo la precisión del modelo.
- Certificación para todos los productos de Red Hat. AI Inference Server forma parte de Red Hat OpenShift AI y Red Hat Enterprise Linux AI, y también es compatible con Red Hat OpenShift y Red Hat Enterprise Linux.
- Implementaciones en plataformas de terceros. AI Inference Server puede implementarse en plataformas Linux y Kubernetes de terceros, y está incluido en la política de soporte de terceros de Red Hat. En estos casos, Red Hat solo respalda el elemento Inference Server y el cliente se encarga de los problemas relacionados con la plataforma si no pueden replicarse en Red Hat Enterprise Linux o Red Hat OpenShift.
Descubre la automatización totalmente optimizada
Visita la página del producto Red Hat AI Inference Server para conocer la manera en que permite ofrecer inferencias rápidas, rentables y adaptables.