A velocidade da inovação nos Large Language Models (LLMs) é impressionante, mas à medida que as empresas migram seus modelos para a produção, a conversa muda: não se trata mais apenas da escala bruta; trata-se de eficiência por token e do uso inteligente e direcionado de recursos computacionais.

Resumindo, nem todos os prompts exigem o mesmo nível de raciocínio. Se um usuário fizer uma solicitação simples, como "Qual é a capital da Carolina do Norte?" um processo de raciocínio com várias etapas para, por exemplo, uma projeção financeira, não é necessário. Se as organizações usarem modelos de raciocínio pesados para todas as solicitações, o resultado será caro e ineficiente. Esse dilema é o que chamamos de desafio de implementar orçamentos racionais, e é por isso que a Red Hat desenvolveu o vLLM Semantic Router, um projeto open source que seleciona de maneira inteligente o melhor modelo para cada tarefa, otimizando os custos e a eficiência com a máxima facilidade de uso.

O que é o vLLM Semantic Router?

O vLLM Semantic Router é um sistema open source que atua como uma camada de roteamento de solicitação inteligente e econômica para o altamente eficiente motor de inferência do vLLM. Pense nele como o responsável pelas decisões do seu pipeline de inferência do LLM. Ele resolve os desafios de eficiência por meio de roteamento dinâmico e com reconhecimento de semântica ao:

  • Utilizar um classificador lightweight, como o ModernBERT ou outros modelos pré-treinados, para analisar a intenção e a complexidade da consulta.
  • Roteamento de consultas simples para um LLM menor e mais rápido ou um modelo sem raciocínio para economizar recursos de computação.
  • Direcionamento de solicitações complexas que exigem análise profunda para modelos mais avançados e com recursos de raciocínio habilitados.

A finalidade do vLLM Semantic Router é garantir que cada token gerado agregue valor. Escrito em Rust e utilizando o framework Candle do Hugging Face, o roteador oferece baixa latência e alta simultaneidade, projetado para alto desempenho.

Com o poder do open source, o vLLM Semantic Router promove a flexibilidade do modelo, oferecendo comutação de modelos eficiente e roteamento com reconhecimento de semântica. Isso oferece aos desenvolvedores um controle de alta granularidade sobre a eficiência e a precisão, escolhendo automaticamente o LLM ou o modo de raciocínio certo para a tarefa. Igualmente importante, o projeto oferece suporte à implantação nativa em nuvem por meio da integração nativa com o Kubernetes usando o plugin Envoy ext_proc. Isso significa que o vLLM Semantic Router foi projetado para ser implantado, gerenciado e escalado em ambientes de nuvem híbrida usando o Red Hat OpenShift, oferecendo suporte total às práticas recomendadas nativas em nuvem em qualquer nuvem.

vLLM Semantic Router e llm-d

Na prática, o vLLM Semantic Router pode encontrar muitos casos de uso de implantação. Os usuários empresariais podem aplicar os mesmos conceitos de roteamento em implantações llm-d nos clusters. Uma equipe pode usar um modelo GPT-OSS-120B em execução em um cluster de produção H100, enquanto outra equipe acessa o mesmo modelo no hardware A100 para experimentação. Com os recursos de triagem do vLLM Semantic Router integrado ao llm-d, as solicitações podem compartilhar um único ponto de entrada e ser encaminhadas de maneira inteligente para o endpoint de infraestrutura correto. Isso garante o desempenho ideal com base no usuário, na política e nos recursos de computação disponíveis.

O vLLM Semantic Router é compatível com cache semântico e detecção de jailbreak quando implantado com o llm-d. Por meio do cache semântico, prompts repetidos ou semelhantes podem reutilizar resultados de inferência existentes, reduzindo a sobrecarga de computação para consultas redundantes, especialmente útil em ambientes de produção com padrões de perguntas recorrentes ou sessões de chat. O recurso de detecção de jailbreak aproveita a camada de roteamento distribuído do llm-d para sinalizar solicitações fora de conformidade antes que elas cheguem ao mecanismo de inferência. Essa combinação oferece às empresas um fluxo de trabalho de inferência mais seguro, eficiente e com reconhecimento de políticas.

Valor empresarial e comunitário

Para as empresas, o uso do vLLM Semantic Router se traduz diretamente em valor de negócio mensurável, ajudando a resolver o dilema entre custo e precisão. Os benchmarks do projeto, com ajuste do modo de raciocínio automático usando o modelo MMLU-Pro e Qwen3 30B, produziram ganhos significativos em eficiência. A precisão em tarefas complexas melhorou em 10,2%, e a latência e o uso de token diminuíram 47,1% e 48,5%, respectivamente. Esses resultados indicam que o vLLM Semantic Router não apenas ajuda a reduzir os custos operacionais gerais, mas também pode ajudar a gerenciar a área de ocupação dos modelos de raciocínio, levando a um uso mais sustentável de energia.

Quando comecei a desenvolver o vLLM Semantic Router, eu sabia que esse tipo de roteamento baseado em raciocínio era amplamente restrito a sistemas proprietários fechados. O DNA open source da Red Hat exigia levar esse recurso crucial para a comunidade open source, tornando-o acessível e transparente para todos. A recepção imediata confirmou essa necessidade. O projeto rapidamente ganhou força na comunidade open source, angariando mais de 2.000 estrelas e quase 300 forks no GitHub nos dois meses desde o lançamento. A demonstração de apoio da comunidade open source confirmou o que eu já sabia sobre como o futuro da infraestrutura de IA será construído: de forma colaborativa e com o open source.

A Red Hat tem uma visão clara para a era da IA: seja qual for o modelo, o acelerador subjacente ou o ambiente de implantação, o vLLM está destinado a ser o padrão open source definitivo para inferência na nova nuvem híbrida. E o vLLM Semantic Router concretiza essa visão.

A evolução da inferência está mudando do "Podemos executá-lo?" para "Como podemos melhorar a execução?"; o vLLM Semantic Router oferece uma camada de computação sofisticada e com reconhecimento de tarefas, oferecendo às empresas as ferramentas open source necessárias para criar uma IA eficiente, responsável e pronta para uso empresarial. Junte-se a nós no mapeamento da próxima fase da inferência de LLM conferindo o site do projeto e a comunidade do vLLM Semantic Router no GitHub.


Sobre o autor

Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem