A sua prova de conceito (PoC) de Large Language Model (LLM) foi um sucesso. E agora? A transição de servidor único para inferência de IA distribuída e em escala de produção é onde a maioria das empresas enfrenta dificuldades. A infraestrutura que trouxe você até aqui não consegue mais acompanhar o ritmo.
Conforme discutido em um episódio recente do podcast Technically Speaking, a jornada de IA e as PoCs da maioria das organizações começam com a implantação de um modelo em um único servidor, uma tarefa gerenciável. Mas a próxima etapa geralmente exige um grande salto para a inferência de IA distribuída e ao nível de produção. Não é apenas uma questão de adicionar mais máquinas. Acreditamos que isso exige um novo tipo de inteligência na infraestrutura em si: um plano de controle com reconhecimento de IA que pode ajudar a gerenciar a complexidade dessas cargas de trabalho únicas e dinâmicas.
Novo desafio: inferência de IA distribuída
A implantação de LLMs em escala apresenta uma série de desafios que a infraestrutura tradicional não está preparada para lidar. Um servidor web padrão, por exemplo, processa solicitações uniformes. Por outro lado, uma solicitação de inferência de IA pode ser imprevisível e consumir muitos recursos, com demandas variáveis de computação, memória e rede.
Pense nisso como a logística moderna. Transferir um pacote pequeno de uma cidade para outra é simples. No entanto, a coordenação de uma cadeia de suprimentos global exige um gerenciamento de logística inteligente: um sistema capaz de rastrear milhares de remessas, rotear dinamicamente diferentes tipos de carga e ajustar a programação para que tudo chegue a tempo. Sem essa inteligência e coordenação cuidadosa, todo o sistema falha. Da mesma forma, sem uma camada de infraestrutura inteligente, escalar a IA se torna ineficiente, caro e não confiável.
A complexidade dessas cargas de trabalho está vinculada às fases de pré-preenchimento e decodificação da inferência do LLM. A fase de pré-preenchimento processa todo o prompt de entrada de uma vez e é uma tarefa de computação pesada, enquanto a fase de decodificação gera os tokens de saída um de cada vez e é mais dependente da largura de banda de memória.
A maioria das implantações de servidor único coloca essas duas fases no mesmo hardware, o que pode criar gargalos e levar a um desempenho ruim, especialmente para cargas de trabalho de alto volume com uma variedade de padrões de solicitação. O verdadeiro desafio é otimizar o tempo para o primeiro token (na fase de pré-preenchimento) e a latência entre tokens (na fase de decodificação) para maximizar a taxa de transferência, lidar com a maioria das solicitações simultâneas e, o que é essencial para o uso empresarial, atender com consistência objetivos de nível de serviço (SLOs) definidos.
Uma visão compartilhada para um problema compartilhado
O poder do open source é evidente para lidar com esse desafio complexo que afeta todo o setor. Quando um problema é compartilhado por fornecedores de hardware, provedores de nuvem e criadores de plataformas, a solução mais eficaz costuma ser colaborativa. Em vez de ter dezenas de organizações trabalhando de forma independente para resolver o mesmo problema, um projeto open source compartilhado acelera a inovação e ajuda a estabelecer um padrão comum.
O projeto llm-d é um excelente exemplo dessa colaboração em ação. Iniciado pela Red Hat e pela IBM Research, o projeto rapidamente atraiu uma coalizão de líderes do setor, incluindo o Google e a NVIDIA, todos trabalhando em direção a uma visão desenvolvida colaborativamente.
Como tecnologia, o llm-d oferece um "caminho bem iluminado": um blueprint claro e comprovado para gerenciar a inferência de IA em escala. Em vez de criar tudo do zero, o foco da comunidade é otimizar e padronizar os desafios operacionais da execução de cargas de trabalho de IA em escala.
llm-d: Um modelo de IA de nível de produção
O projeto llm-d está desenvolvendo um plano de controle open source que aprimora o Kubernetes com recursos específicos necessários para cargas de trabalho de IA. Ele não substitui o Kubernetes, mas adiciona uma camada especializada de inteligência e amplia o desempenho do ambiente de execução do vLLM em uma camada distribuída.
O foco da comunidade llm-d é criar funcionalidades que tenham um impacto direto no desempenho e na eficiência da inferência de IA, incluindo:
- Roteamento semântico: O agendador do llm-d está ciente dos requisitos exclusivos de recursos de cada solicitação de inferência. Ele pode tomar decisões mais inteligentes sobre onde executar uma carga de trabalho, fazendo uso mais eficiente de recursos caros e evitando o provisionamento excessivo e dispendioso. Isso vai além do balanceamento de carga tradicional, usando dados em tempo real, como a utilização do cache de chave-valor (KV) de um modelo, para rotear solicitações para a instância mais ideal.
- Desagregação da carga de trabalho: o llm-d separa tarefas de inferência complexas em partes menores e gerenciáveis, especificamente as fases de pré-preenchimento e decodificação. Isso oferece controle granular e permite o uso de hardware heterogêneo. Dessa forma, o recurso certo executa a tarefa certa, o que ajuda a reduzir os custos operacionais gerais. Por exemplo, otimizamos um pod de pré-preenchimento para tarefas de computação pesada, enquanto personalizamos um pod de decodificação para eficiência de largura de banda de memória. Isso permite um nível de otimização refinada impossível com uma abordagem monolítica.
- Suporte para arquiteturas avançadas: o llm-d lida com arquiteturas de modelos emergentes, como a combinação de especialistas (MoE), que exigem orquestração e paralelismo complexos em vários nós. Ao oferecer suporte ao paralelismo amplo, o llm-d permite o uso eficiente desses modelos esparsos que têm melhor desempenho e economia do que seus equivalentes densos, mas são mais difíceis de implantar em escala.
A comunidade llm-d está aproveitando as melhores ideias de áreas como computação de alto desempenho (HPC) e sistemas distribuídos em larga escala, e trabalhando para evitar as configurações rígidas e especializadas que podem dificultar o uso deles. Ela está combinando estrategicamente tecnologias open source, como o vLLM para disponibilização de modelos e o gateway de inferência para agendamento, a fim de criar um único framework unificado.
Esse foco na operacionalização e flexibilidade é um princípio de design fundamental, e o projeto é compatível com vários aceleradores de hardware de fornecedores como NVIDIA, AMD e Intel. Ao criar um plano de controle flexível que funciona em diferentes hardwares e ambientes, o llm-d está trabalhando para estabelecer um padrão forte e duradouro para o futuro da IA empresarial.
Considerações finais
Para os líderes de TI focados em operacionalizar a IA, o valor do projeto llm-d vai além da comunidade open source. O trabalho realizado nessa coalizão open source, especificamente o desenvolvimento de um plano de controle inteligente e com reconhecimento de IA, é uma resposta direta aos desafios de produção que muitas organizações enfrentam atualmente.
As vantagens do llm-d são claras:
- Ir além do servidor único: escalar LLMs não significa adicionar mais máquinas. Trata-se de implementar uma camada estratégica de infraestrutura que possa gerenciar de maneira inteligente cargas de trabalho distribuídas, lidar com hardware complexo e otimizar o custo e o desempenho.
- Aproveite os padrões abertos: as soluções mais robustas surgem de esforços open source colaborativos, não de silos proprietários. Adotar uma plataforma alinhada com esses padrões abertos evita a dependência de fornecedor e oferece um ambiente mais flexível e preparado para o futuro para iniciativas de IA.
- Operacionalize com um parceiro de confiança: Você não precisa ser um especialista em sistemas distribuídos ou contribuir diretamente com o projeto llm-d para se beneficiar da inovação. Plataformas empresariais compatíveis, como o Red Hat AI, integram o valor criado na comunidade, oferecendo uma base consistente e confiável para implantar e gerenciar IA em escala.
O futuro da IA empresarial depende de uma infraestrutura sólida. O trabalho da comunidade llm-d é construir essa base, e uma plataforma como o Red Hat AI pode ajudar você a colocar isso em prática.
Recurso
A empresa adaptável: da prontidão para a IA à disrupção
Sobre o autor
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
Mais como este
AI quickstarts: An easy and practical way to get started with Red Hat AI
Looking ahead to 2026: Red Hat’s view across the hybrid cloud
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem