Hoje, contribuímos com o llm-d para a Cloud Native Computing Foundation (CNCF) como um projeto Sandbox. Essa contribuição visa preencher a lacuna de recursos entre a experimentação e a produção de IA ao fornecer uma camada de orquestração de plano de dados especializada que maximiza a eficiência da infraestrutura e permite uma implantação flexível em qualquer hardware escolhido.
Isso não é apenas sobre uma entrega de código. É o compromisso de tornar a disponibilização de IA de alto desempenho um recurso essencial e portátil do stack nativo em nuvem. Quando lançamos o llm-d em maio de 2025, nosso objetivo era resolver a enorme lacuna de recursos entre a experimentação de IA e a inferência de produção de missão crítica em escala. Ao mover o llm-d para a CNCF, expandimos o objetivo de uma coalizão de diversos fornecedores — como CoreWeave, IBM, Google e NVIDIA — para criar o padrão aberto para inferência distribuída.
A inferência impulsiona a era dos agentes de IA
À medida que entramos em um futuro de agentes de IA, a inferência de IA que sustenta vastos domínios de agentes empresariais está prestes a se expandir amplamente. Será crítico que o custo e a complexidade da inferência não superem o valor de negócio dos próprios agentes. Mas a inferência pode ser muito cara e consumir grandes quantidades de aceleradores especializados. Em escala, os custos podem subir ainda mais. Os recursos avançados do llm-d resolvem isso diretamente. Eles atendem aos objetivos de nível de serviço empresariais e maximizam a eficiência da infraestrutura. Além disso, as organizações precisam de flexibilidade para implantar a inferência onde fizer sentido — no data center, na nuvem ou na edge — no hardware de sua escolha. Essa flexibilidade só é possível se o ecossistema subjacente for baseado em open source e padrões abertos.
Preencha a lacuna no cenário nativo em nuvem
Embora o Kubernetes seja o padrão da indústria para orquestração, ele não foi criado originalmente para as demandas exclusivas e stateful da inferência de grandes modelos de linguagem (LLM). Em um microsserviço tradicional, uma solicitação é apenas uma solicitação. Cada réplica pode processar cada uma igualmente bem. Na IA generativa, o custo de uma solicitação varia enormemente dependendo do tamanho dos tokens de entrada e saída, do tamanho e da arquitetura do modelo, da localidade do cache e de o modelo estar na fase de prefill (limitada pela capacidade computacional) ou de decode (limitada pela memória).
O roteamento de serviço padrão ignora essas dinâmicas. Isso leva a um posicionamento ineficiente e latência imprevisível. É aqui que o llm-d preenche essa lacuna. Ele funciona como uma camada especializada de orquestração de data plane entre control planes de alto nível, como o KServe, e engines de baixo nível, como o vLLM. Utilizando primitivos nativos do Kubernetes, como Gateway API e LeaderWorkerSet (LWS), ele transforma a inferência distribuída complexa em uma carga de trabalho nativa em nuvem gerenciável e observável.
Fortaleça o ecossistema por meio de contribuições
Ao contribuir com o llm-d para a CNCF, estabelecemos caminhos bem definidos — blueprints comprovados e replicáveis que transformam componentes de IA fragmentados em microsserviços modulares e interoperáveis. Esta contribuição vai além de um único projeto. Trata-se de enriquecer todo o cenário nativo em nuvem para que a inferência se torne uma cidadã de primeira classe do mesmo ambiente que as aplicações tradicionais baseadas em containers.
Uma parte central desse trabalho é o endpoint picker (EPP). O llm-d atua como uma implementação primária para a Kubernetes gateway API inference extension (GAIE), e o EPP permite o roteamento programável com reconhecimento de inferência. Isso significa que o sistema toma decisões de roteamento com base no estado real da engine — otimizando as taxas de acerto do cache KV e as características do acelerador de hardware. Este é um requisito fundamental para manter o throughput sustentado sob rigorosos objetivos de nível de serviço.
O llm-d complementa e amplia o cenário existente na CNCF:
- Kubernetes: fornece a principal plataforma de infraestrutura para cargas de trabalho de IA.
- Gateway API: impulsiona o alinhamento upstream para roteamento específico de IA, garantindo que o gerenciamento de tráfego permaneça como um componente open source principal.
- KServe: atua como o plano de controle de alto nível que se integra ao llm-d para oferecer suporte a recursos avançados, como disponibilização desagregada e cache de prefixo.
- LeaderWorkerSet: usa elementos nativos do Kubernetes para orquestrar réplicas complexas de vários nós e paralelismo especializado, transformando mecanismos como o vLLM em cargas de trabalho nativas em nuvem gerenciáveis.
- Prometheus e Grafana: exporta métricas especializadas, como tempo para o primeiro token (TTFT), para levar a observabilidade de nível empresarial à IA generativa.
Escale o futuro da inferência em conjunto
A colaboração é um elemento essencial do llm-d desde o início. Quando anunciamos o llm-d no Red Hat Summit no ano passado, os esforços conjuntos dos colaboradores fundadores do projeto, líderes do setor e apoiadores acadêmicos foram um motivo de orgulho para a Red Hat — não apenas pelo lançamento do llm-d, mas também por estabelecer uma base colaborativa pronta para o futuro. Nos últimos 10 meses, o llm-d foi adotado tanto para o MaaS privado de IA empresarial quanto para iniciativas de IA em larga escala. Mais importante ainda, as raízes open source do projeto continuam a se aprofundar com um ecossistema crescente de colaboradores e parceiros. Desenvolvedores e empresas confiam no llm-d, e contribuir com o projeto para a CNCF apoiará e manterá um futuro aberto. O caminho para a inovação em IA open source bem-sucedida é longo, mas juntos estamos construindo a infraestrutura para chegar lá.
Sobre o autor
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Mais como este
O paradoxo agêntico e o argumento a favor da IA híbrida
Pare de gerenciar o passado e comece a construir o futuro da TI
Operating System Management | Compiler
Technically Speaking | Inside open source AI strategy
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem