Neste ponto, o potencial transformador de um Grande Modelo de Linguagem (LLM) é claro, mas implantar com eficiência esses modelos poderosos em produção pode ser um desafio.

Esse desafio não é novo. Em um episódio recente do podcast Technically Speaking, Chris Wright conversou com Nick Hill, Engenheiro de Software Principal da Red Hat que trabalhou na comercialização do sistema "Jeopardy!" original do IBM Watson anos atrás. Hill observou que os esforços iniciais se concentravam em otimizar o Watson para transformá-lo de uma sala cheia de servidores a uma única máquina, estabelecendo assim que a engenharia de sistemas é essencial para tornar a IA de alta performance prática.

Wright e Hill também discutiram como esse mesmo princípio se aplica aos LLMs modernos e ao projeto open source vLLM, que está revolucionando a inferência de IA ao tornar a IA mais prática e de alto desempenho em escala.

O que é vLLM?

vLLM é um servidor de inferência que aborda diretamente os desafios de eficiência e escalabilidade enfrentados ao trabalhar com IA generativa (gen AI). Ao maximizar o uso de recursos caros de GPU, o vLLM torna a IA de alta performance mais acessível e prática.

A Red Hat está fortemente envolvida no projeto vLLM como uma importante colaboradora comercial. Integramos uma versão reforçada, com suporte e pronta para empresas do vLLM no Red Hat AI Inference Server. Essa solução está disponível como uma oferta independente em containers ou como um componente essencial do portfólio maior da Red Hat AI, como o Red Hat Enterprise Linux AI (RHEL AI) e o Red Hat OpenShift AI. Nossa colaboração com a comunidade vLLM é um componente essencial da nossa estratégia de IA open source.

Por que o vLLM é importante para a inferência de LLM

A inferência de LLM é o processo no qual um modelo de IA aplica seu treinamento a novos dados ou consultas, e tem alguns gargalos inerentes. Os métodos de inferência tradicionais podem ser ineficientes. Isso ocorre devido à geração sequencial de tokens e à baixa utilização da GPU. Tais fatores levam a uma alta latência sob carga, arquiteturas inflexíveis que não conseguem escalar e restrições na largura de banda de memória.

O vLLM oferece uma abordagem simplificada. O principal objetivo é maximizar a utilização e a taxa de transferência da GPU, e ele alcança isso por meio de uma série de otimizações importantes.

  • PagedAttention: essa inovação principal usa um conceito semelhante ao da memória virtual de um computador para gerenciar com eficiência o cache de chave-valor (KV). O cache de KV são os dados intermediários que um modelo precisa lembrar de um token para o próximo.
  • Batch contínuo: essa técnica permite que o servidor de inferência processe com eficiência novas solicitações de entrada enquanto ele já processa um lote, reduzindo o tempo ocioso e aumentando a taxa de transferência geral.
  • Outras otimizações críticas: o vLLM também aproveita técnicas como a decodificação especulativa, que usa um modelo menor e mais rápido para prever os próximos tokens, e kernels CUDA otimizados para maximizar o desempenho em hardware específico.

O vLLM atua como uma camada de interface que ajuda a gerenciar o fluxo geral de dados, o agrupamento e o agendamento, permitindo que os LLMs se integrem a uma ampla variedade de hardware e aplicações.

Vantagens estratégicas para a IA empresarial

Embora o vLLM seja tecnicamente interessante, ele também oferece benefícios estratégicos importantes para os líderes de TI. As otimizações do vLLM podem ajudar você a gerenciar custos, escalar com mais eficiência e manter um controle mais rígido sobre seu stack de tecnologia.

Democratização da IA e otimização dos custos

O vLLM ajuda sua organização a aproveitar ao máximo o hardware existente. Ao aumentar significativamente a utilização da GPU, ele ajuda a reduzir a quantidade de hardware necessária para executar suas cargas de trabalho, o que, por sua vez, ajuda a reduzir os custos. Isso torna os recursos avançados de IA mais acessíveis para mais organizações.

Escalar aplicações de IA com confiança

A utilização aprimorada da GPU e os tempos de resposta mais rápidos se traduzem diretamente no suporte a implantações de aplicações e modelos maiores. Sua organização pode atender a mais usuários e lidar com cargas de trabalho de IA mais complexas sem comprometer o desempenho. Isso ajuda a oferecer a escalabilidade de nível empresarial essencial para migrar projetos de IA de uma prova de conceito para um ambiente de produção.

Flexibilidade de hardware e opções cada vez maiores

A natureza open source do vLLM e seu amplo suporte a vários aceleradores de hardware de empresas como NVIDIA, AMD e Intel, além de modelos líderes de fornecedores como Meta, Mistral e IBM, é uma vantagem estratégica importante. Isso dá à sua organização mais flexibilidade ao selecionar soluções de hardware e ajuda você a manter a capacidade de escolher os aceleradores que melhor atendem às suas necessidades exclusivas, mesmo que sejam dinâmicos.

Inovação acelerada e impacto na comunidade

O valor da comunidade open source ativa do vLLM é substancial. A comunidade é ativa e crescente, levando a integrações rápidas de novas pesquisas e avanços. O ritmo acelerado do desenvolvimento e da inovação ajudou a estabelecer o vLLM como o padrão para inferência de LLM, e sua empresa pode se beneficiar continuamente das inovações mais recentes.

IA de nível empresarial com vLLM

A visão da Red Hat é tornar a IA prática, transparente e acessível em toda a nuvem híbrida. O vLLM é a base dessa estratégia e um fator essencial na nossa visão orientadora, "qualquer modelo, acelerador e nuvem".

Red Hat AI Inference Server

Integramos o vLLM ao Red Hat AI Inference Server, uma distribuição de vLLM reforçada, compatível e pronta para empresas. Além do nosso repositório de modelos de terceiros otimizados e validados, oferecemos ferramentas como o LLM Compressor, que ajuda a oferecer implantações mais rápidas e econômicas nos seus ambientes de nuvem híbrida.

Assim como a Red Hat ajudou a unificar o cenário fragmentado do Linux, o Red Hat AI Inference Server, com tecnologia vLLM, oferece uma camada de unificação semelhante para a inferência de IA. Isso ajuda a simplificar implantações complexas para organizações que precisam de uma maneira consistente e confiável de executar cargas de trabalho de IA.

Unificação da infraestrutura de IA

O Red Hat AI Inference Server está disponível como uma oferta independente em containers. Ele também desempenha um papel fundamental no portfólio da Red Hat AI:

  • Os principais componentes estão incluídos no Red Hat Enterprise Linux AI (RHEL AI), que oferece uma plataforma fundamental para desenvolvimento, teste e implantação de LLM.
  • Ele é um componente essencial do Red Hat OpenShift AI, uma plataforma de MLOps integrada para gerenciar todo o ciclo de vida dos modelos de IA em escala.
  • Além disso, nosso repositório Hugging Face de modelos otimizados oferece acesso a modelos de terceiros validados e pré-otimizados para execução eficiente no vLLM, como Llama, Mistral, Qwen e Granite.

Nosso compromisso com a comunidade open source é contínuo. Além do nosso envolvimento com a comunidade vLLM, também lançamos recentemente o projeto llm-d, um framework de inferência de LLM distribuído de alto desempenho e nativo do Kubernetes que incorpora vLLM. Essa nova iniciativa inclui outros colaboradores, como o Google e a NVIDIA, e visa ajudar a executar IA de geração em larga escala, auxiliando na entrega de desempenho competitivo para a maioria dos modelos em vários aceleradores de hardware.

Como a Red Hat pode ajudar

A Red Hat AI oferece uma plataforma de IA empresarial completa para treinamento e inferência de modelos. Com ela, você tem mais eficiência, experiência simplificada e flexibilidade para implantar em qualquer ambiente de nuvem híbrida. Nossa visão é tornar a IA prática, transparente e acessível, e nosso portfólio visa ajudar você a criar e executar soluções de IA que funcionem para sua empresa, desde os experimentos iniciais até a produção completa.

Com nossa abordagem de nuvem híbrida, você tem a liberdade de implementar a IA da maneira que quiser, seja para modernizar as aplicações existentes ou criar novas. Também oferecemos treinamento e certificação em IA, como o curso gratuito Fundamentos da AI, para ajudar suas equipes a desenvolver as habilidades de IA que sua organização tanto precisa.


Sobre o autor

The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem