Implante com confiança: conheça os últimos modelos validados da plataforma Red Hat AI

14 de outubro de 2025Rob Greenberg4 minutos (tempo de leitura)

Temos o prazer de apresentar nossos modelos validados mais recentes, criados para potencializar suas implantações. Na Red Hat, nosso objetivo é oferecer confiança, previsibilidade e flexibilidade para implantar modelos de inteligência artificial generativa de terceiros na plataforma Red Hat AI. Esse lançamento expande nossa coleção de modelos otimizados com benchmark de desempenho e avaliação de precisão, ajudando a acelerar o time to value e a selecionar o ajuste perfeito para o seu caso de uso específico.

Os modelos validados da plataforma Red Hat AI vão além de uma simples lista e oferecem tecnologia de IA eficiente e pronta para uso empresarial. Combinamos benchmarks rigorosos de desempenho e testes de precisão com um processo de empacotamento abrangente, projetado para implantações com segurança e simplicidade. Verificamos cada modelo em busca de vulnerabilidades e o integramos a um ciclo de vida de software gerenciado. Isso ajuda a garantir um ativo de alto desempenho e otimizado para recursos, com foco na segurança, fácil de gerenciar e pronto para atualizações de longo prazo.

O que são modelos validados?

O mundo dos grandes modelos de linguagem (LLMs) está se expandindo rapidamente, tornando difícil para as empresas escolherem o modelo certo. Muitas vezes, as organizações enfrentam dificuldades com o planejamento de capacidade de recursos de IA e em garantir que o desempenho de um modelo possa ser reproduzido com confiança.

É aí que entram os modelos validados da Red Hat. Oferecemos acesso a um conjunto de modelos de terceiros prontos para uso, executados com eficiência no vLLM na nossa plataforma. Simplificamos o processo de seleção realizando testes extensivos para você. Nosso processo de validação de modelos inclui:

Benchmarking de desempenho usando o GuideLLM para avaliar os requisitos de recursos e o custo em várias configurações de hardware.
Avaliações de precisão usando o Language Model Evaluation Harness (LM Eval Harness) para medir como os modelos respondem a novas tarefas.
Implantações reproduzíveis no vLLM, o mecanismo de inferência de alta capacidade, para garantir que você alcance os mesmos resultados.
Pacotes prontos para empresas e com foco na segurança, usando formatos de containers padronizados em nosso registro de produção para criar um ativo com controle de versão e vulnerabilidades verificadas que simplifica a implantação e o gerenciamento do ciclo de vida.

Esse processo oferece orientações claras sobre planejamento de capacidade, capacitando você a dimensionar implantações, selecionar o hardware ideal e acelerar à fase de produção com confiança.

Recursos de otimização de modelos da Red Hat

O alto custo e a escassez de hardware especializado, como GPUs com alto VRAM, costumam limitar a implantação de Large Language Models (LLMs) avançados. Para democratizar o acesso e permitir que as empresas executem esses modelos de maneira mais econômica, mesmo em GPUs menores ou em menor número, a Red Hat aplica técnicas avançadas de compactação de modelos.

Esse processo crítico de otimização, impulsionado por tecnologias como o LLM Compressor, envolve técnicas como a quantização (por exemplo, conversão de modelos para formatos dinâmicos INT4, INT8 ou FP8) que reduzem bastante a área de ocupação de memória e os requisitos de computação dos LLMs, preservando cuidadosamente a qualidade e a precisão da saída.

Os modelos validados que você vê em nossa coleção, muitos dos quais são pré-compactados e prontos para implantação, são exemplos dessa otimização em ação. Ao aproveitar esses recursos, a Red Hat permite que você:

Reduza o uso de VRAM, possibilitando a disponibilização de modelos maiores em recursos de GPU mais baratos ou em menor quantidade.
Reduza os custos operacionais maximizando a utilização do hardware.
Alcance uma maior taxa de transferência e menor latência durante a fase de inferência crítica.

Esses ativos validados e otimizados estão disponíveis em nosso repositório público Red Hat AI Hugging Face e no container registry da Red Hat em registry.redhat.io, oferecendo uma fonte confiável para a implantação de inteligência artificial de alto desempenho e econômica.

Conheça os modelos validados mais recentes

Os modelos validados mais recentes apresentam uma linha poderosa e diversificada de modelos, todos otimizados e prontos para suas cargas de trabalho empresariais.

DeepSeek-R1 INT4: um modelo de codificação de elite, ideal para gerar, concluir e depurar códigos complexos em várias linguagens de programação.
Qwen 3 8B FP8 Dynamic: um modelo multilíngue versátil e poderoso da Alibaba, projetado para aplicações globais de chatbot e criação de conteúdo.
Kimi K2 Quantized INT4: esse modelo é conhecido por sua janela de contexto excepcionalmente grande, tornando-o uma potência para a Geração Aumentada por Recuperação (RAG) e a análise de documentos longos como contratos legais ou trabalhos de pesquisa.
Gemma-3n 4B FP8 Dynamic: os modelos eficientes mais recentes do Google oferecem um equilíbrio entre desempenho e tamanho para tarefas de resumo e aplicações no dispositivo.
openai/gpt-oss-120b & openai/gpt-oss-20b: grandes (e variante menor) modelos base de uso geral capazes de raciocínio complexo, geração de conteúdo com nuances e solução avançada de problemas.
Qwen3 Coder 480B-A35B-Instruct-FP8: um enorme assistente de codificação de nível empresarial projetado para os pipelines de automação e desenvolvimento de software mais exigentes.
Voxtral-Mini-3B-2507 FP8 Dynamic: um modelo ágil e responsivo com foco em voz e fala, excelente para criar aplicações em tempo real habilitadas por voz e agentes interativos.
whisper-large v3 INT4: um modelo de fala para texto de última geração da OpenAI, projetado para transcrição de áudio altamente precisa, criação de atas de reunião e ativação de comandos de voz.
NVIDIA-Nemotron-Nano-9B-v2: um novo modelo de raciocínio e chat de uso geral da NVIDIA, que usa uma arquitetura híbrida para sistemas de agente de IA, chatbots e RAG, e é comercialmente utilizável.

Veja como começar a usar

Você pode acessar esses modelos de IA avançados e prontos para implantação hoje de duas maneiras:

Hugging Face: explore os modelos validados e seus detalhes no repositório da Red Hat AI.
Red Hat Container Registry: extraia as imagens de containers para implantar imediatamente no RHOAI 2.25 ou no RHAIIS 3.2.2. Leia a documentação técnica.

Observação: todos os modelos são otimizados para implantação no vLLM (versão 0.10.1.1 ou posterior).

Em breve

Para uma integração ainda mais forte, esses modelos serão apresentados no catálogo do Red Hat OpenShift AI a partir da versão 3.0, com sua disponibilidade geral (GA) programada para novembro.

Para ver os dados completos de desempenho e avaliação, entre em contato com seu representante de vendas.

Sobre o autor

Rob Greenberg

Principal Product Manager

My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.

Read full bio