Qualquer modelo, acelerador ou nuvem de sua preferência: use a IA para empresas com inovação open source

21 de maio de 2025Chris Wright4 minutos (tempo de leitura)

O lema do Red Hat Summit 2023 foi "Qualquer carga de trabalho, aplicação ou ambiente de sua preferência". Mas nos últimos dois anos, vimos algumas mudanças no setor de TI. No entanto, a visão da Red Hat não mudou, ela evoluiu.

Qualquer modelo, acelerador ou nuvem de sua preferência.

Essa é a mensagem da nuvem híbrida para a era da IA. E a melhor parte? Assim como a "antiga" nuvem híbrida, ela também é impulsionada pela inovação open source. No Red Hat Summit desta semana, mostraremos como ecossistemas de IA estruturados em torno de tecnologias e modelos open source podem criar novas opções para as empresas. Com o open source, você tem mais opções e flexibilidade, do modelo que melhor atende às necessidades organizacionais ao acelerador subjacente e local onde uma carga de trabalho é realmente executada. Para ter sucesso, as estratégias de IA precisam acompanhar os dados, onde quer que eles estejam na nuvem híbrida.

E o que impulsiona a nuvem híbrida? O open source.

A inferência melhora a IA

Acho que deveríamos começar a olhar além dos modelos. Sei que eles são muito importantes para as estratégias de IA, mas sem inferência, a fase de "execução" da IA, os modelos são apenas coleções de dados que não "fazem" nada. A inferência se refere à velocidade de resposta de um modelo a uma entrada do usuário e ao nível de eficiência das decisões em recursos computacionais acelerados. Respostas lentas e baixa eficiência podem custar dinheiro e a confiança do cliente.

É por esse motivo que estou animado com o fato de que a Red Hat está priorizando a inferência em nosso trabalho com a IA open source, começando com o lançamento do Red Hat AI Inference Server. Baseado no projeto vLLM open source líder do setor e aprimorado com as tecnologias da Neural Magic, o Red Hat AI Inference Server oferece um servidor de inferência com suporte, ciclo de vida e pronto para produção em implantações de IA. E a melhor parte é que ele pode acompanhar seus dados, onde quer que eles estejam. Qualquer plataforma Linux, distribuição Kubernetes, Red Hat ou outra funcionará com a solução.

O que é melhor do que a IA para empresas? IA para empresas em escala.

A aplicação essencial para a TI empresarial não é uma carga de trabalho unificada ou um novo serviço em nuvem: é a capacidade de escalar com rapidez e eficiência. Isso também vale para a IA. Mas a IA tem uma peculiaridade: os recursos de computação acelerada subjacentes às cargas de trabalho da IA também precisam ser escaláveis. Essa não é uma tarefa pequena, considerando os custos e habilidades necessários para implementar esse hardware de forma adequada.

O que precisamos não é apenas a capacidade de escalar a IA, mas também a de distribuir cargas de trabalho massivas de IA em vários clusters de computação acelerada. Isso se agrava ainda mais com o aumento do tempo de inferência exigido por modelos de raciocínio e IA Agente. Com o compartilhamento da carga, os obstáculos de desempenho são reduzidos, a eficiência é aprimorada e, por fim, a experiência de usuário é aperfeiçoada. A Red Hat agiu para resolver esse problema com o projeto open source llm-d.

Liderado pela Red Hat e apoiado por líderes do setor de IA em aceleração de hardware, desenvolvimento de modelos e cloud computing, o llm-d combina o poder comprovado da orquestração de Kubernetes com o vLLM, unindo duas grandes referências open source para atender a uma necessidade real. Combinado a tecnologias como roteamento de rede com reconhecimento de IA, transferência de KV cache e muito mais, o llm-d descentraliza e democratiza a inferência de IA, ajudando as empresas a aproveitar ainda mais os recursos de computação, enquanto mantêm cargas de trabalho de IA mais econômicas e eficazes.

Aberto para novas possibilidades da IA

O llm-d e o vLLM são tecnologias open source fornecidas pelo Red Hat AI Inference Server e preparadas para responder aos desafios atuais da IA para empresas. Mas as comunidades upstream não avaliam apenas o que precisa ser feito agora. As tecnologias de IA têm uma maneira única de condensar cronogramas. A inovação acelerada transforma desafios futuros em questões imediatas.

É por isso que a Red Hat está investindo recursos para trabalhar upstream no Llama Stack, o projeto liderado pela Meta para disponibilizar elementos essenciais e APIs padronizados para ciclos de vida de aplicações com gen IA. Além disso, o Llama Stack é ideal para criar aplicações com IA Agente, que representam uma evolução a mais das poderosas cargas de trabalho com gen IA que vemos hoje. Somado ao upstream, estamos disponibilizando o Llama Stack como uma prévia para desenvolvedores no Red Hat AI, para empresas que já querem viver o futuro hoje.

Os agentes de IA ainda não têm um protocolo padrão para receber contexto e informações de outras aplicações. É aí que entra o model context protocol (MCP). Desenvolvido como open source pela Anthropic no final de 2024, ele oferece um protocolo padronizado para as interações entre agente e aplicação, semelhante aos protocolos cliente-servidor da computação mais tradicional. O grande diferencial é que as aplicações existentes podem, de repente, se tornar compatíveis com IA sem uma reformulação extensa. Isso é uma revolução tecnológica que não seria possível sem o poder do open source. Assim como Llama Stack, o MCP está disponível como prévia para desenvolvedores na plataforma do Red Hat AI.

Os modelos proprietários de IA podem ter liderado no início, mas os ecossistemas open source que dominam agora, principalmente em softwares compatíveis com esses modelos de IA de última geração. Com vLLM, llm-d e produtos open source empresariais reforçados, o futuro da IA está garantido, independentemente do modelo, do acelerador ou da nuvem. Tudo isso impulsionado pelo open source e pela Red Hat.

Sobre o autor

Chris Wright

Chief Technology Officer and Senior Vice President, Global Engineering

Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.

During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.

Read full bio