Red Hat AI Inference Server

Visão geral

O verdadeiro valor da IA está em oferecer respostas rápidas e precisas em grande escala. O Red Hat® AI Inference Server torna isso possível ao otimizar o processo de inferência na nuvem híbrida. Essa etapa é essencial para as aplicações de IA se comunicarem com Large Language Models (LLMs) e gerarem respostas baseadas em dados. Assim, a solução cria implantações de modelos mais rápidas e econômicas.

Inferência rápida e econômica em qualquer ambiente

Como parte da plataforma Red Hat AI, o Red Hat AI Inference Server oferece inferência consistente, rápida, econômica e em grande escala. O AI Inference Server permite executar modelos de IA generativa (gen IA) em diferentes aceleradores de hardware, seja em datacenter, na nuvem ou na edge, oferecendo a flexibilidade e a liberdade necessárias para atender aos requisitos do seu negócio. O AI Inference Server oferece recursos para tornar a inferência mais eficiente por meio da otimização de modelos. A solução utiliza o LLM Compressor para compactar modelos fundamentais ou previamente treinados, além de fornecer acesso a uma coleção de modelos de gen IA validados, otimizados e prontos para acelerar as implantações de inferência.

O Red Hat AI Inference Server é compatível com uma grande variedade de modelos e aceleradores de hardware. Além disso, ele pode ser executado na infraestrutura e no sistema operacional que você escolher, como as plataformas do Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® e distribuições Linux ou Kubernetes de terceiros. Assim, os clientes têm flexibilidade para se alinhar a qualquer arquitetura.

Tabela 1. Funcionalidades e benefícios

Benefício	Descrição
Abordagem eficiente para inferência de modelos com Large Language Model virtual (vLLM) (vLLM)	O AI Inference Server oferece uma abordagem eficiente de inferência de modelos, otimizando o uso de memória pelas unidades de processamento gráfico (GPUs) e a latência da inferência com vLLM.
Menor complexidade operacional	O AI Inference Server oferece uma plataforma consistente para implantação e otimização de modelos na nuvem híbrida. A solução oferece uma abordagem simplificada para gerenciar técnicas avançadas de machine learning (ML), como a quantização,além de integração com ferramentas de observabilidade, como Prometheus e Grafana.
Flexibilidade da nuvem híbrida	Com o vLLM como base, o AI Inference Server proporciona às organizações a liberdade de executar modelos de IA onde for necessário: em data centers, ambientes de nuvem e na edge.

Especificações técnicas

Runtime de inferência para a nuvem híbrida. Com base em um vLLM de runtime de inferência robusto e sofisticado, o AI Inference Server oferece às empresas uma plataforma unificada e de alto desempenho para executar os modelos que preferem em vários aceleradores, no Kubernetes e em ambientes Linux. Além disso, a solução se integra a ferramentas de observabilidade para oferecer monitoramento avançado e é compatível com APIs de LLM, como a do OpenAI, permitindo uma implantação mais flexível.
LLM Compressor. Equipes de IA podem compactar tanto modelos fundamentais quanto modelos já treinados, independentemente do tamanho, para reduzir o uso de recursos computacionais e os custos associados, mantendo alta precisão nas respostas. Além disso, podem contar com o suporte da Red Hat em suas iniciativas de otimização de modelos.
Repositório de modelos otimizado. Disponível na página da Red Hat AI no Hugging Face, o AI Inference Server oferece acesso imediato a uma coleção otimizada e validada de modelos de IA avançados, prontos para implantação de inferência, ajudando a acelerar a eficiência de 2 a 4 vezes sem comprometer a precisão.
Certificado para todas as soluções Red Hat. O AI Inference Server faz parte do Red Hat OpenShift AI e do Red Hat Enterprise Linux AI, além de ser compatível com o Red Hat OpenShift e o Red Hat Enterprise Linux.
Implantações em plataformas de terceiros. O AI Inference Server pode ser implantado em plataformas Linux e Kubernetes de terceiros e está coberto pela política de suporte de terceiros da Red Hat. Nesses casos, o suporte da Red Hat é apenas para o componente do Inference Server. Problemas relacionados à plataforma subjacente que não possam ser reproduzidos no Red Hat Enterprise Linux ou no Red Hat OpenShift são de responsabilidade do cliente.

Caminhe rumo à automação verdadeiramente otimizada

Para descobrir como o AI Inference Server viabiliza uma inferência rápida, econômica e escalável, acesse a página da solução Red Hat AI Inference Server.

Visão geral

Soluções

Participe e aprenda

Soluções de plataforma

Casos de uso

Soluções por setor

Conheça tecnologias de nuvem

Plataforma

Em destaque

Teste e compre

Serviços e Suporte

Treinamento e certificação

Em destaque

Serviços

Amplie seus conhecimentos

Aprenda mais

Para desenvolvedores

Para clientes

Para parceiros

Crie soluções com os parceiros de confiança da Red Hat

Gostaria de:

Quero encontrar:

Quero aprender sobre:

Recomendado

[[name]]

Red Hat AI Inference Server

Visão geral

Inferência rápida e econômica em qualquer ambiente

Tabela 1. Funcionalidades e benefícios

Especificações técnicas

Caminhe rumo à automação verdadeiramente otimizada

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links