Treinar Large Language Models (LLMs) é complexo e caro, mas o custo da inferência de IA é um desafio ainda mais comum e muitas vezes ignorado. Inferência é o processo em que um modelo de IA treinado recebe novos dados e gera uma resposta. Ao implantar esses modelos, os custos aumentam muito rápido. Isso ocorre principalmente devido ao alto volume de tokens, prompts longos e demandas crescentes de uso. Para executar LLMs com economia e alto desempenho, é essencial uma estratégia abrangente.
Essa abordagem aborda dois pontos essenciais: otimizar o runtime da inferência e otimizar o modelo em si.
Otimização do runtime de inferência
Os métodos de inferência mais básicos muitas vezes enfrentam problemas como: memória da GPU mal utilizada, processamento em lote ineficiente e lentidão na geração de tokens. Por isso, um runtime de inferência eficiente é essencial. O vLLM, uma biblioteca open source, resolve isso ajudando os LLMs a processar cálculos com mais agilidade e em grande escala.
Para enfrentar os problemas de runtime, o vLLM usa técnicas avançadas, como:
- Processamento contínuo em lotes: em vez de processar solicitações individualmente, o vLLM agrupa (em lotes) tokens de várias sequências. Isso reduz o tempo ocioso e melhora significativamente a utilização da GPU e a taxa de inferência.
- PagedAttention: esta estratégia gerencia com eficiência grandes caches de chave-valor (KV). Por conta da alocação dinâmica de memória da GPU, o PagedAttention consegue lidar com muito mais solicitações simultâneas e sequências longas, sem sofrer com problemas de memória.
Como otimizar o modelo de IA
Além da otimização do runtime, as organizações podem compactar modelos para diminuir o consumo de memória e a necessidade de computação. As duas principais técnicas são: quantização e esparsidade.
- Quantização: esta técnica reduz os valores numéricos de um modelo, como pesos e ativações, usando menos bits por valor. Esse processo diminui a memória necessária para armazenar parâmetros do modelo. Por exemplo, um modelo do Llama com 70 bilhões de parâmetros pode ter seu tamanho drasticamente reduzido, saindo de 140 GB para 40 GB. Isso permite executar os modelos com menos recursos e dobrar a vazão computacional sem perder muita precisão.
- Esparsidade: reduz as demandas computacionais zerando alguns parâmetros do modelo. Assim, os sistemas podem ignorar operações desnecessárias. O resultado é uma redução drástica na complexidade do modelo, diminuindo o uso de memória e o processamento, e levando a uma inferência mais rápida e a custos operacionais menores.
Red Hat AI: como colocar a estratégia em prática
Para auxiliar as organizações a colocar essa estratégia em prática, o portfólio do Red Hat AI oferece um conjunto unificado de soluções para inferência de alto desempenho em grande escala.
O Red Hat AI otimiza o modelo e o runtime com um conjunto avançado de ferramentas e recursos, como:
- Red Hat AI Inference Server: a Red Hat oferece um mecanismo de vLLM empresarial e com suporte, que usa processamento contínuo em lotes e métodos de eficiência de memória. Ao aumentar a taxa de transferência e reduzir o uso de GPU, o runtime ajuda as organizações a maximizar o retorno sobre o investimento em hardware de IA.
- Acesso a modelos validados e otimizados: o Red Hat AI oferece acesso a um repositório de modelos pré-avaliados, testados e otimizados, prontos para uso. Os modelos passam por rigorosas avaliações e podem ser encontrados no repositório Red Hat AI Hugging Face. Assim, as empresas conseguem acelerar o time to value (TTV).
- LLM Compressor: o kit de ferramentas do Red Hat LLM oferece uma forma padronizada de aplicar técnicas de compactação, como a quantização. A Red Hat usa esse kit de ferramentas para oferecer modelos otimizados e deixar os clientes otimizarem seus próprios modelos ajustados ou personalizados.
Com o Red Hat AI, as organizações implantam modelos de alto desempenho e econômicos em vários tipos de hardware. Isso ajuda as equipes a lidar com as crescentes demandas de IA, controlando os custos e a complexidade.
Para mais informações sobre os conceitos da engenharia de desempenho de inferência e otimização de modelos, faça o download do e-book gratuito: Introdução à Inferência de IA.
Recurso
Introdução à IA empresarial: um guia para iniciantes
Sobre o autor
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
Mais como este
A 5-step playbook for unified automation and AI
AI ambitions meet automation reality: The case for a unified automation platform
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem