Este blog é uma adaptação de uma conversa recente que tive com Ion Stoica, da Universidade da Califórnia, Berkeley, e apresentada no artigo da Red Hat Research Quarterly, *From silos to startups: Why universities must be a part of industry’s AI growth*. Leia toda a conversa aqui.

Nos últimos anos, a narrativa em torno da inteligência artificial (IA) foi dominada pelos Large Language Models (LLMs) e pelo esforço imenso de treiná-los. O setor de tecnologia tem se concentrado na fase de descoberta, mas essa era está mudando rapidamente.

A conversa está mudando de 'Como construímos o modelo?' para 'Como realmente executamos o modelo em produção e em grande escala?'

Essa mudança é mais do que um detalhe técnico: é o novo centro de gravidade da IA empresarial. Quando a IA sai do laboratório de pesquisa e se torna um recurso essencial para os negócios, o foco passa a ser a inferência, ou seja, a ativação de sinapses no 'cérebro' de um modelo treinado, antes que ele gere uma resposta ou entre em ação. Em ambientes corporativos, a inferência precisa ser rápida, econômica e totalmente controlada.

A resposta do open source para o desafio da inferência

Mover a IA de uma prova de conceitos para um serviço confiável e com nível de produção apresenta desafios significativos de complexidade, custo e controle para os líderes de TI.

Em primeiro lugar, o hardware necessário para executar esses modelos, especialmente na escala que a empresa precisa, é caro e muitas vezes escasso. Em segundo lugar, a demanda é imprevisível. Pode haver picos de alto uso seguidos por longos períodos de baixa atividade, que podem ser combinados em centenas de variantes de modelos destinados a domínios específicos. Essa variabilidade torna extremamente difícil maximizar a utilização de recursos e proteger esses investimentos críticos.

A comunidade open source enfrentou esse desafio e se concentrou em otimizar o desempenho e a eficiência da disponibilização de LLMs. Um dos projetos mais bem-sucedidos nessa área é o vLLM, criado sob a liderança de Ion Stoica no Sky Computing Lab da Universidade da Califórnia, em Berkeley. Como Ion mencionou em nossa conversa, essa raiz acadêmica é crucial; demonstra como a pesquisa universitária está resolvendo diretamente os problemas de inferência mais urgentes do mundo real. O vLLM rapidamente se tornou o padrão de fato para o fornecimento de LLM de alto desempenho: um mecanismo projetado para velocidade e eficiência para maximizar a taxa de transferência e minimizar a latência.

Fortaleça a inovação da comunidade para empresas

Projetos comunitários como o vLLM são onde a inovação começa, mas eles devem ser adaptados para atender às rigorosas demandas dos ambientes de produção empresarial. É aí que o valor da Red Hat como especialista de confiança em Linux e Kubernetes entra em cena.

Estamos combinando o trabalho inovador do vLLM com outros projetos da comunidade para criar uma plataforma escalável, com suporte e fortalecida para a produção de IA. Um componente essencial nessa evolução é o llm-d, um framework de inferência distribuído para gerenciar LLMs em escala de cluster e além.

Ao integrar o llm-d, estamos mudando fundamentalmente a forma como os LLMs são executados de maneira nativa no Kubernetes. Isso traz o valor comprovado da orquestração de containers (controle, consistência e programação eficiente de recursos) para a fase mais desafiadora da IA até agora: a inferência de alto volume e demanda variável.

Com essa combinação, as organizações podem:

  • Maximizar os gastos com infraestrutura: com a orquestração do Kubernetes, viabilizamos a disponibilização distribuída de grandes modelos. Isso permite que as equipes de TI utilizem totalmente seus aceleradores de hardware caros e limitados em várias cargas de trabalho e modelos, tratando sua infraestrutura não como hardware em silos, mas como um pool de capacidade de computação elástica.
  • Acelerar o tempo de resposta: a inferência distribuída gerencia de maneira inteligente a demanda imprevisível, garantindo que as aplicações recebam as respostas de que precisam sem picos de latência.
  • Acelerar a implantação com confiança: oferecemos um caminho confiável que inclui pesquisas de ponta e inovação da comunidade para softwares robustos e com suporte. Isso acelera o time to value (TTV) dos engenheiros de IA e oferece às equipes de plataforma os controles de gerenciamento e governança necessários.

O modelo open source essencial para a IA

Ion e eu concordamos que o pipeline de inovação que nos deu o vLLM e o llm-d, começando pela pesquisa acadêmica, evoluindo por meio de comunidades open source e, finalmente, sendo estabilizado e apoiado para escala empresarial, é o modelo que definirá a próxima década de adoção da IA.

Para que a IA realmente se torne uma ferramenta de negócios indispensável, ela não pode ficar isolada em laboratórios proprietários ou confinada à prova de conceitos. Ele deve ser acessível, transparente e construído sobre uma base que permita a melhoria contínua e colaborativa. O compromisso da Red Hat é garantir que a nuvem híbrida aberta continue sendo o melhor lugar para operacionalizar essa inovação, oferecendo às empresas a base necessária para possuir seus dados, controlar seu destino e navegar com confiança pelo cenário de IA em evolução.


Sobre o autor

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem