Red Hat AI Inference Server

O Red Hat® AI Inference Server otimiza a inferência na nuvem híbrida para gerar implantações mais rápidas e econômicas. 

Imagem principal do Red Hat Inference Server

O que é um servidor de inferência?

Um servidor de inferência é o software que permite que aplicações de inteligência artificial (IA) se comuniquem com Large Language Models (LLMs) e gerem uma resposta baseada em dados. Esse processo é chamado de inferência. É onde o valor de negócio acontece e o resultado final é entregue.

Para ter um bom desempenho, os LLMs precisam de armazenamento, memória e infraestrutura amplos para a inferência ocorrer em grande escala, e é por isso que podem ocupar a maior parte do orçamento. 

Como parte da plataforma Red Hat AI, o Red Hat AI Inference Server otimiza os recursos de inferência para reduzir custos tradicionalmente altos e infraestrutura extensa. 

Inferência de IA rápida e econômica com o Red Hat AI Inference Server. Duração do vídeo: 2:28

Introdução ao Red Hat AI Inference Server

Como o Red Hat AI Inference Server funciona?

O Red Hat AI Inference Server fornece inferência rápida e econômica em grande escala. Por ser open source, ele é compatível com qualquer tipo de modelo de IA generativa (gen IA) em qualquer acelerador de IA e ambiente de nuvem. 

Com a tecnologia vLLM, o servidor de inferência maximiza a utilização da GPU e reduz os tempos de resposta. E ao combinar os recursos do LLM Compressor, a eficiência da inferência aumenta sem sacrificar o desempenho. Com adaptabilidade entre plataformas e uma comunidade crescente de colaboradores, o vLLM está emergindo como o Linux® da inferência de gen IA. 

50%

Alguns clientes que usaram o LLM Compressor perceberam uma economia de 50% nos gastos sem sacrificar o desempenho.* 

*Zelenović, Saša. “Aproveite todo o potencial dos LLMs: otimize o desempenho com vLLM.” Blog da Red Hat, 27 de fevereiro de 2025. 

Você escolhe seus modelos

O Red Hat AI Inference Server é compatível com todos os principais modelos open source e mantém uma portabilidade flexível da GPU. Você tem flexibilidade para usar qualquer modelo de gen IA e escolher entre nossa coleção otimizada de modelos de terceiros validados e open source.   

Além disso, como parte do Red Hat AI, o Red Hat AI Inference Server é certificado para todas as soluções Red Hat. Ele também pode ser implantado em outras plataformas Linux e Kubernetes conforme a política de suporte de terceiros da Red Hat

Eficiência aprimorada com vLLM

O vLLM permite o uso produtivo da memória e maior utilização da GPU para proporcionar uma inferência de modelo eficiente. Otimize a implantação de todo tipo de modelo de gen IA, em qualquer acelerador de IA, com o vLLM.

LLM Compressor

Comprima modelos de qualquer tamanho para reduzir a utilização de computação e custos relacionados, mantendo a alta precisão das respostas. 

Flexibilidade da nuvem híbrida

Mantenha a portabilidade entre diferentes GPUs e execute modelos on-premise, na nuvem ou na edge.

Repositório do Red Hat AI

Modelos validados e otimizados por terceiros estão prontos para implantação de inferência, para ajudar a atingir um time to value (TTV) mais rápido e manter os custos baixos.

Suporte do Red Hat AI

Como um dos maiores colaboradores comerciais do vLLM, temos um profundo conhecimento dessa tecnologia. Nossos consultores de IA têm a expertise em vLLM necessária para ajudar você a alcançar suas metas de IA empresarial. 

Como adquirir

O Red Hat AI Inference Server está disponível como uma solução independente ou como parte do Red Hat AI. Ele está incluído no Red Hat Enterprise Linux® AI e no Red Hat OpenShift® AI. 

Implantações com parceiros

Os especialistas e as tecnologias se juntam para nossos clientes fazerem mais com a IA. Conheça todos os parceiros que trabalham com a Red Hat para certificar a capacidade de operação deles com nossas soluções. 

Logotipo da Dell Technologies
Logotipo da Lenovo
Logotipo da Intel
Logotipo da Nvidia
Logotipo da AMD

Casos de sucesso com a IA no Red Hat Summit e AnsibleFest 2025

Turkish Airlines

Turkish Airlines dobrou a velocidade de implantação com acesso a dados de toda a empresa.

Logotipo da JCCM

A JCCM aprimorou os processos de avaliação de impacto ambiental (EIA) da região usando IA.

DenizBank

O Denizbank acelerou o time to market de dias para minutos.

Logotipo da Hitachi

A Hitachi operacionalizou a IA em todos os negócios com o Red Hat OpenShift AI.

Perguntas frequentes

Preciso comprar o Red Hat Enterprise Linux AI ou o Red Hat OpenShift AI para usar o Red Hat AI Inference Server?

Não. Você pode adquirir o Red Hat AI Inference Server como uma solução Red Hat independente. 

Preciso comprar o Red Hat AI Inference Server para usar o Red Hat Enterprise Linux AI?

Não. O Red Hat AI Inference Server está incluído na compra do Red Hat Enterprise Linux AI e do Red Hat OpenShift AI. 

O Red Hat AI Inference Server pode ser executado no Red Hat Enterprise Linux ou no Red Hat OpenShift?

Sim, pode. Ele também pode ser executado em ambientes Linux de terceiros, conforme indicado no respectivo contrato.

Como funcionam os preços do Red Hat AI Inference Server?

O preço é cobrado por acelerador.

IA que se adequa às suas necessidades e opera do seu jeito.

IA generativa

IA generativa

Produza conteúdos novos, como texto e código de software. 

Com o Red Hat AI, execute os modelos de IA generativa que quiser com mais rapidez, menos recursos e custos de inferência reduzidos. 

IA preditiva

IA preditiva

Conecte padrões e antecipe resultados futuros. 

Com o Red Hat AI, as organizações podem criar, treinar, disponibilizar e monitorar modelos preditivos. Tudo isso com a consistência na nuvem híbrida.

IA operacionalizada

IA operacionalizada

Crie sistemas que possibilitem a manutenção e a implantação da IA em grande escala. 

Com o Red Hat AI, gerencie e monitore o ciclo de vida de aplicações, economize recursos e esteja em conformidade com as regulamentações de privacidade. 

Agentic AI

Agentic AI

Crie fluxos de trabalho que executem tarefas complexas com supervisão limitada. 

Com o Red Hat AI, você tem uma base estável e flexível para criar, gerenciar e implantar fluxos de trabalho de Agentic AI em aplicações existentes.

Confira mais recursos de IA

Como começar a usar IA na empresa

Como começar a usar inferência de IA

Acelere a inovação em IA com modelos open source

Webinar: como melhorar o desempenho e otimizar custos

Fale com a equipe de vendas

Fale com um especialista da Red Hat sobre o Red Hat AI