O avanço da IA nas empresas vem tornando o uso de modelos públicos mais caro e arriscado, além da possibilidade de exposição de dados sensíveis a terceiros. Os Modelos como Serviço (MaaS) permitem que empresas usem modelos open source (e o stack de tecnologias de IA) como um recurso compartilhado por toda a empresa.
Com a aceleração da adoção de IA, muitas empresas enfrentam falta de consistência, pois cada área cria soluções próprias para casos de uso abrangentes, como chatbots, assistente de código e geração de texto/imagem.
Segundo o relatório Insights da IDC sobre as tendências de adoção da IA, as empresas estão passando de iniciativas pontuais para soluções gerenciadas, que podem transformar toda a organização.
Cada área da empresa precisa de diferentes tipos de modelos de IA para atender a casos de uso específicos. Veja alguns exemplos:
- Modelos de IA generativa (gen IA): usados para criar novos conteúdos, como textos ou imagens
- Modelos de IA preditiva: usados para classificar ou prever padrões em dados
- Modelos de IA ajustados: são modelos personalizados com dados específicos da empresa ou do domínio
- Geração Aumentada de Recuperação (RAG): atualiza as informações genéricas do modelo com dados específicos da empresa ou do domínio
Modelos de gen IA acessíveis por serviços hospedados por terceiros, como OpenAI, Claude e Gemini, são fáceis de usar no início, mas podem ficar muito caros se usados em grande escala. Além disso, há riscos relacionados à segurança e privacidade, já que informações corporativas podem acabar sendo acessadas por terceiros. Embora a empresa possa auto-hospedar a gen IA e outros modelos, isso pode gerar duplicação em diferentes áreas, aumentando custos e o time to market.
Com o lançamento de novos modelos de gen IA a cada duas semanas e a rápida evolução da IA, as empresas estão tendo dificuldade para acompanhar. Existem dezenas de modelos disponíveis, desde os muito grandes (com cerca de 450 bilhões de parâmetros) até versões menores, como modelos quantizados ou com menos parâmetros, além de uma variedade de modelos especializados. Muitos desenvolvedores não têm expertise necessária para escolher o modelo certo ou otimizar o uso de recursos caros, como GPUs.
Com cada grupo empresarial criando suas próprias soluções de IA, as empresas enfrentam vários desafios:
- Custos altos: a implantação e a manutenção de modelos de IA exigem clusters de GPU caros, expertise em machine learning (ML, aprendizado de máquina) e ajustes finos contínuos. Treinar e ajustar modelos internamente pode custar milhões em recursos de computação, armazenamento e profissionais qualificados. Além disso, sem uma governança centralizada, os custos relacionados aos modelos podem sair do controle.
- Duplicação: a duplicação ou subutilização de recursos de IA escassos pode levar ao desperdício dos investimentos.
- Complexidade: os desenvolvedores querem apenas acesso ao modelo, em vez de lidar com a complexidade da infraestrutura ou do stack de IA em constante evolução.
- Escassez de habilidades: as empresas não têm os engenheiros de ML, cientistas de dados e pesquisadores de IA necessários para criar modelos personalizados.
- Controle operacional: com diferentes equipes trabalhando de forma independente em IA, as empresas encontram dificuldades para escalar, controlar versões e evitar desvios nos modelos.
É preciso adotar uma abordagem melhor para as empresas aproveitarem o avanço da IA sem comprometer o orçamento.
Como o MaaS pode ajudar
Com o MaaS, as empresas podem disponibilizar modelos open source e o stack de IA necessário como um recurso compartilhado. Na verdade, a TI corporativa passa a ser a provedora dos serviços de IA utilizados por toda a empresa.
Os usuários podem escolher modelos de ponta de última geração, quantizados ou small language models (SLMs) os quais são muito menores, mas entregam desempenho semelhante a um custo bem menor. Os modelos podem ser ajustados e personalizados com dados empresariais para funcionar em hardware mais simples, consumindo menos energia. Podem existir várias instâncias de modelos para atender a diferentes casos de uso e ambientes de implantação. Todos esses modelos são operados com eficiência para aproveitar ao máximo os recursos de hardware disponíveis.
Os desenvolvedores acessam os modelos com facilidade e podem dedicar seu tempo à criação de apps de IA, sem se preocupar com as complexidades da infraestrutura, como as GPUs.
A TI empresarial pode monitorar o uso de modelos por vários grupos de negócios e analisar os custos pelo consumo de serviços de IA. A TI também pode aplicar práticas recomendadas de gerenciamento de IA para simplificar a implantação e a manutenção de modelos, como controle de versão e testes de regressão.
Confira algumas das vantagens de se tornar um provedor interno de IA para a empresa:
- Redução da complexidade: o MaaS centralizado elimina a complexidade da infraestrutura de IA para os usuários.
- Custos mais baixos: reduz os custos ao disponibilizar serviços de inferência de modelos de forma centralizada.
- Aumento da segurança: garante a conformidade com as políticas existentes de segurança, dados e privacidade ao evitar o uso de modelos hospedados por terceiros.
- Inovação mais rápida: a implantação mais rápida de modelos e a inovação aceleram o time to market das aplicações de IA.
- Não duplicação: evita a duplicação de recursos de IA escassos em vários grupos. Os cientistas de dados podem disponibilizar modelos otimizados para as principais tarefas da empresa.
- Liberdade de escolha: elimina a dependência de fornecedor e mantém a portabilidade das cargas de trabalho de IA.
O que está por trás do MaaS
Esse stack de soluções de MaaS inclui o Red Hat OpenShift AI, o API Gateway (parte do Red Hat 3scale API Management) e o single sign-on (SSO) da Red Hat. Ele oferece governança completa de IA, acesso zero trust (no Red Hat build of Keycloak), um servidor de inferência de IA (vLLM) e flexibilidade de nuvem híbrida (OpenShift AI) em uma única plataforma. Ele também usa ferramentas consistentes para implantar a solução on-premise e na nuvem com o Red Hat OpenShift.
Confira cada um desses componentes com mais detalhes.
API Gateway
A API Gateway oferece controle de APIs para modelos no nível empresarial. Esse stack de soluções é baseado no 3Scale API Gateway, mas qualquer API Gateway de nível empresarial pode ser usada. Confira alguns dos benefícios dessa API Gateway:
- Segurança e conformidade
- Autentique a API via JWT/OAuth2 para acesso a LLMs
- Criptografe todo o tráfego da API de e para serviços de LLM
- Faça registros de auditoria para conformidade (GDPR, HIPAA, SOC2)
- Otimização de uso
- Defina cotas e limites de taxa para evitar custos excessivos
- Monitore o consumo da API do LLM por equipe/projeto
- Identifique endpoints não utilizados ou usados em excesso
- Suporte à implantação híbrida
- Gerencie APIs com consistência na nuvem e on-premise, por meio da integração com o OpenShift
- Implante API gateways dedicados para instâncias privadas de LLM
- Treinamento do desenvolvedor
- Portal do desenvolvedor self-service para desenvolvedores explorarem as APIs do LLM
- Documentação e testes automatizados de APIs
- Integração com o OpenShift AI
- Garanta governança para os modelos implantados no OpenShift AI
- Acompanhe o uso da API de inteligência artificial e machine learning com os serviços tradicionais
Autenticação
O componente de autenticação fornece gerenciamento de identidade unificado para serviços de LLM. Esse stack de soluções é baseado no Red Hat SSO, mas qualquer outra solução de autenticação de nível empresarial pode ser usada. Confira alguns dos benefícios da autenticação:
- Segurança Zero Trust
- Autenticação centralizada para todas as ferramentas de LLM (OIDC/SAML)
- Controle de acesso baseado em função (RBAC) para permissões de alta granularidade
- Suporte à autenticação multifator (MFA) para cargas de trabalho de IA confidenciais
- Integração de identidade empresarial
- Conecte-se ao Active Directory, LDAP ou outros provedores de identidade
- Automatize provisionamento e desprovisionamento de usuários
- Gerenciamento de acesso de forma escalável
- Single sign-on para todos os portais de IA internos
- Gerenciamento de sessões para garantir conformidade
- Pronto para a nuvem híbrida
- Acesso seguro a LLMs em execução em qualquer ambiente, em nuvem pública e on-premise
- Políticas consistentes em todos os ambientes
Integração com o OpenShift AI
- SSO para dashboards e endpoints de modelo do OpenShift AI
- Identidade unificada para usuários da plataforma e consumidores da API
Servidor de inferência
Esse stack de soluções usa o vLLM como o servidor de inferência. O framework do vLLM é compatível com modelos multimodais, embeddings e modelagem de recompensas, além de ser cada vez mais usado em fluxos de trabalho de aprendizado por reforço com feedback humano (RLHF). Com funcionalidades como programação avançada, preenchimento prévio de textos, processamento em lote Multi-LoRA e saídas estruturadas, o vLLM é otimizado para oferecer inferência mais rápida e implantações em escala empresarial.
Além disso, o vLLM oferece ferramentas de compactação de LLM para os clientes otimizarem seus próprios modelos ajustados.
Plataforma de IA
Esse stack de soluções usa o OpenShift AI para disponibilizar modelos e entregar aplicações inovadoras. O OpenShift AI ajuda as empresas em todos os aspectos da IA, como aquisição e preparação de dados, treinamento e ajuste fino de modelos, model serving, monitoramento de modelos e aceleração de hardware.
O lançamento da versão mais recente do OpenShift AI foi feito para aumentar a eficiência, fornecendo acesso a modelos menores e pré-otimizados. Além disso, ele ajuda a gerenciar os custos de inferência com uma distribuição eficiente por meio do framework vLLM.
O OpenShift AI é oferecido como software autogerenciado ou como serviço em nuvem totalmente gerenciado no OpenShift. Ele fornece uma plataforma segura e flexível, que permite escolher onde desenvolver e implantar seus modelos, seja on-premise, em nuvem pública ou até mesmo na edge.
Considerações finais
Conforme as empresas desenvolvem e escalam várias soluções de IA, o uso de modelos hospedados por terceiros se torna cada vez mais caro e arriscado, principalmente em relação à privacidade, já que dados corporativos podem ser expostos a esses terceiros. Com os modelos de IA hospedados localmente, é possível preservar a privacidade dos dados. No entanto, também podem gerar duplicações em vários grupos de negócios, aumentando os custos e desacelerando o time to market.
Modelos como Serviço (MaaS) é uma nova abordagem que permite às empresas fornecer modelos open source como um recurso compartilhado por toda a empresa. Esses modelos podem ser facilmente acessados por desenvolvedores, permitindo que se concentrem na criação de aplicações de IA sem se preocupar com a infraestrutura subjacente. A TI empresarial pode monitorar o uso de modelos por vários grupos de negócios e cobrar o consumo dos serviços de IA de cada equipe ou projeto.
A abordagem MaaS permite que as empresas deixem de lado iniciativas pontuais de IA para transformar os recursos em toda a organização.
Mais informações
- Confira a arquitetura de solução MaaS para mais informações ou assista a um rápido tutorial da solução.
- Acesse o repositório "Model as a Service" para configurar sua própria solução de MaaS.
- Entre em contato com a Red Hat Consulting para serviços adicionais.
- Conheça os benefícios da quantização.
- Assista ao InstructLab em ação.
1 Instruções da IDC, Completing the Agentic Journey, abril de 2025
Teste de produto
Red Hat Enterprise Linux AI | Teste de solução
Sobre os autores
Ishu Verma is Technical Evangelist at Red Hat focused on emerging technologies like edge computing, IoT and AI/ML. He and fellow open source hackers work on building solutions with next-gen open source technologies. Before joining Red Hat in 2015, Verma worked at Intel on IoT Gateways and building end-to-end IoT solutions with partners. He has been a speaker and panelist at IoT World Congress, DevConf, Embedded Linux Forum, Red Hat Summit and other on-site and virtual forums. He lives in the valley of sun, Arizona.
Ritesh Shah is a Principal Architect with the Red Hat Portfolio Technology Platform team and focuses on creating and using next-generation platforms, including artificial intelligence/machine learning (AI/ML) workloads, application modernization and deployment, Disaster Recovery and Business Continuity as well as software-defined data storage.
Ritesh is an advocate for open source technologies and products, focusing on modern platform architecture and design for critical business needs. He is passionate about next-generation platforms and how application teams, including data scientists, can use open source technologies to their advantage. Ritesh has vast experience working with and helping enterprises succeed with open source technologies.
Juliano Mohr is a Principal Architect at Red Hat, where he builds demos, labs, and workshops for the Red Hat demo platform. He was previously a Consulting Architect at Red Hat, applying his expertise in application development to support digital transformation. During his global career, he has deepened his knowledge in agile, DevOps, and modern software practices.
Mais como este
Looking ahead to 2026: Red Hat’s view across the hybrid cloud
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem