Red Hat AI Inference Server
Visão geral
O verdadeiro valor da IA está em oferecer respostas rápidas e precisas em grande escala. O Red Hat® AI Inference Server torna isso possível ao otimizar o processo de inferência na nuvem híbrida. Essa etapa é essencial para as aplicações de IA se comunicarem com Large Language Models (LLMs) e gerarem respostas baseadas em dados. Assim, a solução cria implantações de modelos mais rápidas e econômicas.
Inferência rápida e econômica em qualquer ambiente
Como parte da plataforma Red Hat AI, o Red Hat AI Inference Server oferece inferência consistente, rápida, econômica e em grande escala. O AI Inference Server permite executar modelos de IA generativa (gen IA) em diferentes aceleradores de hardware, seja em datacenter, na nuvem ou na edge, oferecendo a flexibilidade e a liberdade necessárias para atender aos requisitos do seu negócio. O AI Inference Server oferece recursos para tornar a inferência mais eficiente por meio da otimização de modelos. A solução utiliza o LLM Compressor para compactar modelos fundamentais ou previamente treinados, além de fornecer acesso a uma coleção de modelos de gen IA validados, otimizados e prontos para acelerar as implantações de inferência.
O Red Hat AI Inference Server é compatível com uma grande variedade de modelos e aceleradores de hardware. Além disso, ele pode ser executado na infraestrutura e no sistema operacional que você escolher, como as plataformas do Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® e distribuições Linux ou Kubernetes de terceiros. Assim, os clientes têm flexibilidade para se alinhar a qualquer arquitetura.
Tabela 1. Funcionalidades e benefícios
Benefício | Descrição |
Abordagem eficiente para inferência de modelos com Large Language Model virtual (vLLM) (vLLM) | O AI Inference Server oferece uma abordagem eficiente de inferência de modelos, otimizando o uso de memória pelas unidades de processamento gráfico (GPUs) e a latência da inferência com vLLM. |
Menor complexidade operacional | O AI Inference Server oferece uma plataforma consistente para implantação e otimização de modelos na nuvem híbrida. A solução oferece uma abordagem simplificada para gerenciar técnicas avançadas de machine learning (ML), como a quantização,além de integração com ferramentas de observabilidade, como Prometheus e Grafana. |
Flexibilidade da nuvem híbrida | Com o vLLM como base, o AI Inference Server proporciona às organizações a liberdade de executar modelos de IA onde for necessário: em data centers, ambientes de nuvem e na edge. |
Especificações técnicas
- Runtime de inferência para a nuvem híbrida. Com base em um vLLM de runtime de inferência robusto e sofisticado, o AI Inference Server oferece às empresas uma plataforma unificada e de alto desempenho para executar os modelos que preferem em vários aceleradores, no Kubernetes e em ambientes Linux. Além disso, a solução se integra a ferramentas de observabilidade para oferecer monitoramento avançado e é compatível com APIs de LLM, como a do OpenAI, permitindo uma implantação mais flexível.
- LLM Compressor. Equipes de IA podem compactar tanto modelos fundamentais quanto modelos já treinados, independentemente do tamanho, para reduzir o uso de recursos computacionais e os custos associados, mantendo alta precisão nas respostas. Além disso, podem contar com o suporte da Red Hat em suas iniciativas de otimização de modelos.
- Repositório de modelos otimizado. Disponível na página da Red Hat AI no Hugging Face, o AI Inference Server oferece acesso imediato a uma coleção otimizada e validada de modelos de IA avançados, prontos para implantação de inferência, ajudando a acelerar a eficiência de 2 a 4 vezes sem comprometer a precisão.
- Certificado para todas as soluções Red Hat. O AI Inference Server faz parte do Red Hat OpenShift AI e do Red Hat Enterprise Linux AI, além de ser compatível com o Red Hat OpenShift e o Red Hat Enterprise Linux.
- Implantações em plataformas de terceiros. O AI Inference Server pode ser implantado em plataformas Linux e Kubernetes de terceiros e está coberto pela política de suporte de terceiros da Red Hat. Nesses casos, o suporte da Red Hat é apenas para o componente do Inference Server. Problemas relacionados à plataforma subjacente que não possam ser reproduzidos no Red Hat Enterprise Linux ou no Red Hat OpenShift são de responsabilidade do cliente.
Caminhe rumo à automação verdadeiramente otimizada
Para descobrir como o AI Inference Server viabiliza uma inferência rápida, econômica e escalável, acesse a página da solução Red Hat AI Inference Server.