Um guia para os Modelos como Serviço

25 de março de 2026

•

Tipo de conteúdo: Visão geral

O crescimento da IA e os problemas de acesso e infraestrutura

O interesse pela IA está crescendo rápido com as organizações ansiosas para usar Large Language Models (LLMs), análises preditivas, recursos de visão computacional e outras ferramentas avançadas para agregar valor de negócio. No entanto, migrar a IA da experimentação isolada para a ampla adoção organizacional gera grandes desafios de infraestrutura e operações.

Muitas empresas começam a jornada com a IA por meio de interfaces de programação de aplicações (APIs) de LLM comerciais, como as da OpenAI ou da Anthropic, acreditando ser o caminho mais rápido para inseri-la na produção. Mas conforme esse uso aumenta, os custos também, e as equipes se deparam com limitações em relação à privacidade, observabilidade e personalização dos dados. E, em alguns casos, os provedores comerciais de IA fazem alterações nos modelos sem aviso prévio, afetando os casos de uso das organizações.

Já outras organizações vão para o extremo oposto: desenvolvem sua própria infraestrutura do modelo do zero. Esse caminho muitas vezes leva as equipes a implantarem modelos open source de maneira independente, como o Llama ou o Mistral, com pouca coordenação. O resultado é um cenário fragmentado em que grupos montam seus próprios stacks, resultando em uma infraestrutura redundante, unidades de processamento gráfico (GPUs) ociosas e uma despesa operacional significativa. A segurança e a governança são prejudicadas, e os custos aumentam sem agregar muito valor aos negócios.

Tudo isso foi agravado pelo tamanho cada vez maior dos LLMs recentes, como o Llama, DeepSeek, Mistral ou Qwen. Ao contrário dos modelos de IA de pequena escala de alguns anos atrás, os modelos grandes de hoje exigem terabytes de VRAM. E essas GPUs são caras. O uso ineficiente desses recursos pode aumentar rapidamente os custos. A situação piora quando várias equipes da mesma organização tentam implantar esses modelos independentemente. Essa abordagem fragmentada aumenta a sobrecarga operacional e eleva os custos.

As organizações precisam de uma abordagem interna que simplifique e consolide o uso de modelos, otimize os recursos de hardware e permita o acesso controlado e escalável de diversos usuários internos. Sem essa abordagem, as iniciativas de IA tendem a ter baixa adoção e custos elevados, a infraestrutura fica subutilizada e alcançar resultados concretos (como mais produtividade, menor custo e insights mais rápidos) segue sendo um desafio.

O que são Modelos como Serviço?

Modelos como Serviço (MaaS) é uma abordagem para fornecer modelos de IA como recursos compartilhados, oferecendo aos usuários da organização acesso on demand. A abordagem MaaS oferece uma base de IA pronta para uso (na forma de endpoints de API), estimulando a utilização de uma IA privada e eficiente, em grande escala.

A resposta da abordagem MaaS a esse desafio

Modelos como Serviço (MaaS) é uma abordagem que ajuda as organizações a implantar modelos de IA uma vez e entregá-los como recursos compartilhados e focados em segurança em toda a empresa. Em vez de gerenciar implantações isoladas para equipes individuais, a abordagem MaaS ajuda as empresas a centralizar a infraestrutura e as operações de IA, simplificando a adoção interna da IA.

Figura 1. O fluxo de trabalho de uma estrutura de Modelos como Serviço.

Ofereça acesso compartilhado à IA com operações de modelos centralizadas

Para engenheiros de IA, o MaaS oferece acesso mais rápido a modelos de alto desempenho por meio de APIs. Dessa forma, não é necessário fazer o download de modelos, gerenciar dependências ou solicitar alocações de GPU por meio de tickets de TI demorados.

O MaaS funciona definindo uma equipe de operações como a proprietária central dos recursos de IA compartilhados. Os modelos são implantados em uma plataforma escalável (como o Red Hat® OpenShift® AI ou outras plataformas semelhantes) e expostos por meio de um gateway de API. Essa configuração permite que vários usuários, desenvolvedores e unidades de negócios ofereçam acesso simplificado para usuários finais e, ao mesmo tempo, atendam às prioridades de segurança e governança das equipes de TI e finanças. Essa priorização pode incluir recursos de chargeback, permitindo usar modelos sem precisar de acesso direto ao hardware nem necessidade de conhecimento técnico avançado. O objetivo é oferecer acesso intuitivo aos modelos de IA e não aos recursos necessários para executá-los, como GPUs e unidades de processamento de tensor (TPUs). Tudo isso atendendo aos requisitos de conformidade e desempenho empresarial, sem complicar o acesso para os usuários finais.

Na prática, os usuários interagem apenas com as APIs que oferecem respostas geradas por modelos. Assim como os provedores de IA pública simplificam as complexidades de hardware para os usuários finais, as implantações internas de MaaS oferecem o mesmo nível de simplicidade. Os usuários não gerenciam a infraestrutura de hardware ou software, nem precisam esperar por um ticket de TI ou pela configuração de um ambiente. Em vez disso, as equipes de operações de TI e IA gerenciam centralmente o ciclo de vida do modelo, a segurança, as atualizações e a escala da infraestrutura, oferecendo aos usuários acesso simplificado e controlado.

Essa centralização simplifica as operações internas de IA e aprimora o foco e a governança de segurança. O acesso aos modelos de IA é rigorosamente controlado por meio do gerenciamento de credenciais via um gateway de API. As organizações podem rastrear o uso, configurar mecanismos internos de chargeback, garantir que as diretrizes de conformidade de privacidade estejam sendo seguidas e estabelecer limites operacionais claros, o que faz da IA empresarial gerenciável e viável. O rastreamento no nível de tokens (entrada e saída) é mais preciso e granular do que qualquer métrica baseada na GPU.

Controle o uso, limite o acesso e gerencie os custos

Os engenheiros de TI e de plataforma se beneficiam da supervisão centralizada. Isso impede implantações de modelos não autorizados, reforça os padrões de segurança e conformidade e simplifica o gerenciamento da infraestrutura e do ciclo de vida.
Para as equipes financeiras, o rastreamento de uso centralizado e os mecanismos internos de chargeback reduzem o desperdício e tornam o uso da GPU mais previsível e responsável. Dessa forma, evitam desperdícios com hardware dedicado a equipes e pouco utilizado.

Em um MaaS, o controle vem da integração entre o gateway de API e a infraestrutura de IA, permitindo às equipes gerenciar e monitorar o uso com alta granularidade.

As implantações tradicionais de IA tendem a ter uso ineficiente e sem gerenciamento, pois pessoas ou equipes implantam modelos de forma independente, sem supervisão centralizada. Essa abordagem fragmentada pode gerar ineficiências dispendiosas, com recursos de GPU ociosos ou subutilizados. Com um gateway de API no centro da infraestrutura de IA, é possível criar um ponto de acesso controlado entre usuários e modelos.

Esse arranjo facilita o rastreamento preciso do uso até o nível do token individual. As equipes podem identificar claramente o quanto cada usuário, equipe ou aplicação consome, atribuindo com precisão os custos de GPU e infraestrutura. Por exemplo, as organizações podem determinar se um usuário ou aplicação está usando recursos excessivamente e tomar medidas corretivas, como limitar o uso ou alocar custos por meio de mecanismos internos de chargeback.

Os mecanismos de limitação do gateway de API asseguram um desempenho consistente e evitam o esgotamento de recursos. Com a limitação de uso, as equipes de TI gerenciam a intensidade do acesso, evitando que só um usuário monopolize os recursos da GPU ou prejudique a experiência dos outros.

Além disso, os gateways de API oferecem controle de acesso e gerenciamento de credenciais de alta granularidade. Os usuários internos podem gerar credenciais para acessar modelos de IA de forma independente, aliviando a sobrecarga administrativa. As credenciais também podem ser revogadas ou modificadas em menos tempo para responder às mudanças nos requisitos de segurança ou nos padrões de uso.

Tudo isso significa que o gerenciamento de custos se torna mais transparente e responsável. As equipes de TI podem alocar com precisão os gastos com GPU e infraestrutura entre as equipes ou unidades de negócios que os consomem.

Trabalhe com qualquer modelo, acelerador e nuvem

Um princípio fundamental da abordagem MaaS é o controle. Ele permite que as organizações selecionem e implantem uma ampla variedade de modelos de IA, escolham seus aceleradores de hardware de preferência e operem em seus ambientes existentes de nuvem ou on-premise. Com essa abordagem, as organizações têm a liberdade de implementar a IA conforme suas necessidades técnicas, requisitos de segurança e preferências operacionais.

As organizações enfrentam limitações rígidas ao adotar a IA, que costumam ser:
- Restritas por serviços em nuvem específicos.
- Dependentes de ecossistemas de modelos proprietários.
- Limitadas por infraestruturas de hardware fixas.
O MaaS resolve essas limitações de várias maneiras, incluindo:
- Compatibilidade com modelos open source ou proprietários, modelos treinados personalizados e LLMs mais conhecidos, como Llama e Mistral.
- Extensão além dos modelos baseados em texto para incluir análise preditiva, visão computacional, ferramentas de transcrição de áudio e outros casos de uso de gen AI multimodal, como geração de imagem ou vídeo.
O MaaS permanece independente dos aceleradores de hardware. Dessa forma:
- As organizações podem selecionar GPUs ou outros aceleradores que se alinhem às suas cargas de trabalho, estruturas de custo e necessidades de desempenho.
- Equipes de IA centralizadas podem tomar decisões críticas de dimensionamento e implantação, melhorando a eficiência e reduzindo os erros de usuários menos técnicos.
O gerenciamento centralizado permite:
- Alocação e uso ideais da infraestrutura.
- Redução das despesas operacionais e prevenção de erros de configuração de recursos.
O MaaS é compatível com implantações em qualquer ambiente, incluindo:
- Ambientes isolados, on-premise, nuvens híbrida e pública, sendo muito relevantes para setores altamente regulamentados que exigem soberania de dados, conformidade regulatória ou controles de segurança rigorosos.

Como a Red Hat implementa o MaaS

A Red Hat adotou o MaaS internamente centralizando a implantação e o acesso do modelo de IA. Nossa equipe interna de IA gerencia de maneira centralizada os recursos de IA e as operações do modelo, usando o Red Hat OpenShift e o Red Hat OpenShift AI como plataforma subjacente. Essa implantação de modelo centralizado simplifica o consumo de IA para usuários em toda a organização, permitindo que nossas equipes de desenvolvimento e negócios integrem recursos de IA em seus fluxos de trabalho com eficiência, sem precisar de hardware dedicado ou conhecimento técnico profundo.

Nossa implementação conta com uma arquitetura de disponibilização escalável que usa GPUs no OpenShift AI e conecta os usuários por meio de um gateway de API centralizado. Isso oferece acesso controlado, focado em segurança e rastreável aos modelos de IA. O uso é cuidadosamente gerenciado por meio de monitoramento baseado em tokens, facilitando o rastreamento preciso de quem está usando os modelos, com que frequência e em que quantidade. O resultado é um uso otimizado do hardware, reduzindo o consumo desnecessário de recursos de GPU e oferecendo insights detalhados para alocar custos com precisão em diferentes equipes ou projetos internos.

Nossa implementação de MaaS usa fluxos de trabalho GitOps, oferecendo alta disponibilidade e confiabilidade. Essa abordagem operacional reduz a intervenção manual e possíveis erros, estabelecendo um controle claro sobre as implantações de IA.

Um dos principais benefícios da implementação interna do MaaS foi a melhoria significativa na eficiência dos recursos e na experiência do usuário. Em vez de várias equipes provisionando GPUs e implantando modelos de maneira independente, nosso MaaS eliminou esforços duplicados, otimizou as operações internas e diminuiu significativamente o time to value (TTV). Com novos modelos testados e validados, as equipes da Red Hat podem colocá-los em uso imediatamente, sem esperar por alocação de hardware ou provisionamento de tarefas.

Comece a desenvolver sua plataforma de IA interna hoje mesmo

Quer simplificar a entrega da IA e aproveitar seus investimentos em infraestrutura de verdade? Comece conferindo nosso artigo detalhado sobre o MaaS para entender como ele funciona. Em seguida, explore a página da solução OpenShift AI para avaliar os recursos da plataforma e as orientações de uso da GPU.

Para as equipes que desenvolvem um MaaS internamente, a Red Hat Consulting ajuda no design e na operacionalização dos ambientes de model serving conforme as necessidades das empresas. Confira mais informações na página da Red Hat Consulting para IA.

Quer uma visão mais abrangente com exemplos reais? Confira nossa série de webinars on demand, incluindo a sessão dedicada ao MaaS.

Tags:Inteligência artificial

About Red Hat

Red Hat is the open hybrid cloud technology leader, delivering a trusted, consistent and comprehensive foundation for transformative IT innovation and AI applications. Its portfolio of cloud, developer, AI, Linux, automation and application platform technologies enables any application, anywhere—from the datacenter to the edge. As the world's leading provider of enterprise open source software solutions, Red Hat invests in open ecosystems and communities to solve tomorrow's IT challenges. Collaborating with partners and customers, Red Hat helps them build, connect, automate, secure, and manage their IT environments, supported by consulting services and award-winning training and certification offerings.

North America
Asia Pacific
Latin America
Europe, Middle East, and Africa

888-REDHAT1
+6564904200
+5443297300
+0080073342835

Copyright © 2026 Red Hat. Red Hat, the Red Hat logo, Ansible, and OpenShift are trademarks or registered trademarks of Red Hat, LLC or its subsidiaries in the United States and other countries. Linux® is the registered trademark of Linus Torvalds in the U.S. and other countries. The OPENSTACK logo and word mark are trademarks or registered trademarks of OpenInfra Foundation, used under license. All other trademarks are the property of their respective owners.

Um guia para os Modelos como Serviço

O crescimento da IA e os problemas de acesso e infraestrutura

O que são Modelos como Serviço?

A resposta da abordagem MaaS a esse desafio

Ofereça acesso compartilhado à IA com operações de modelos centralizadas

Controle o uso, limite o acesso e gerencie os custos

Trabalhe com qualquer modelo, acelerador e nuvem

Como a Red Hat implementa o MaaS

Comece a desenvolver sua plataforma de IA interna hoje mesmo

About Red Hat

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links