Com a versão anterior do Red Hat OpenShift AI, estabelecemos uma base sólida para a infraestrutura de IA da sua empresa. Hoje, com o lançamento do OpenShift AI 3.3, lidamos com as forças que impedem que projetos de IA cheguem à produção: a necessidade de governança rigorosa em relação à demanda por acesso rápido para quem desenvolve.

O OpenShift AI 3.3 apresenta um conjunto de ferramentas projetadas para gerenciar um hub centralizado de ativos de IA enquanto otimiza para o futuro multimodelo e de agentes de IA.

Ativos centralizados: o hub de IA

À medida que as empresas vão além dos casos de uso de modelo único, a descoberta se torna um obstáculo. As equipes de plataforma precisam de uma fonte de verdade central para os ativos de IA. Isso permite registrar e controlar a versão dos modelos antes da configuração para implantação, além de visualizar modelos implantados. 

Elas também precisam de orientação sobre a melhor forma de implantar esses modelos. É difícil avaliar os requisitos de hardware e entender a latência e a taxa de transferência esperadas. 

O hub de IA visa fornecer isso: agora ele é o repositório central dos ativos de IA da sua organização, desde large language models (LLMs) no OpenShift AI 3.3 até servidores Model Context Protocol (MCP) em versões futuras.

No OpenShift AI 3.3, o hub de IA oferece insights de desempenho e orientação do programa de validação de modelos do Red Hat AI sobre o equilíbrio entre desempenho, custo e requisitos de hardware. Isso ajuda as equipes de plataforma a direcionar as pessoas desenvolvedoras para as configurações mais eficientes antes do início da implantação.

Governança em escala: Model-as-a-Service (MaaS)

Se você configura e gerencia suas próprias GPUs e implanta modelos de IA nelas, criar aplicações de IA é uma tarefa difícil. A maioria das pessoas desenvolvedoras, profissionais de engenharia de IA e de ciência de dados prefere começar com um endpoint para um modelo que já está em operação. Solicitar que realizem todo esse trabalho adicional causa lentidão, reduz o time to value e não é escalável nem eficiente em termos de custo, tempo ou governança. 

Por outro lado, permitir que as equipes de plataforma entreguem esses modelos para as equipes de ciência de dados e de negócios ajuda a ampliar o mesmo paradigma utilizado para plataformas de aplicações. 

Nesse cenário, as equipes de plataforma lidam com a disponibilização e a otimização dos modelos. Elas fornecem um conjunto centralizado de modelos de IA controlados por políticas de acesso baseadas em função, definem limites e termos de uso e gerenciam o controle de versão. Enquanto isso, quem utiliza o sistema recebe um endpoint de API para começar a criar com facilidade.

O OpenShift AI 3.3 traz uma prévia técnica de MaaS projetada para auxiliar as organizações a se tornarem provedoras internas de modelos de IA.

  • Para a administração: defina políticas granulares de limitação de taxa na UI. Por exemplo, você pode atribuir acesso de alta cota a modelos menores utilizados em tarefas diárias e aplicar limites mais rígidos em modelos de fronteira com uso intensivo de recursos.
  • Roteamento otimizado com llm-d: isso funciona em conjunto com o llm-d, o framework de inferência distribuída nativo do Kubernetes. Enquanto você define as políticas, o llm-d otimiza o roteamento de solicitações para o hardware ser usado da maneira mais eficiente possível, sem violar os acordos de nível de serviço (SLAs).

Velocidade de desenvolvimento: Gen AI studio

Modelos ou ativos implantados pelas equipes de plataforma precisam de registro e visibilidade central para que engenheiros e desenvolvedores de IA comecem a criar.

Desenvolvedores também precisam de um local central para experimentar esses modelos e ativos, permitindo uma abordagem plug and play onde possam encontrar qual modelo, prompt ou ferramenta funciona melhor para seu caso de uso, enquanto abstraem a complexidade da infraestrutura necessária para implantá-los. 

Nossa versão de prévia técnica do gen AI studio oferece esse playground e as ferramentas necessárias para migrar de um prompt para um piloto.

  • AI playground: experimente prompts, parâmetros de modelo e ferramentas de MCP. No OpenShift AI 3.3, você pode importar seus próprios servidores MCP e ativar ou desativar ferramentas específicas para garantir o determinismo necessário para um comportamento de IA de agentes confiável. Ao migrar da UI do OpenShift AI para seu ambiente local, a função "View Code" no OpenShift AI 3.3 permite visualizar e copiar a configuração do playground. Nosso roadmap futuro utiliza essas bases para aprimorar a experiência de engenharia de IA por meio da exportação de código, incluindo gerenciamento de prompt, recursos de geração aumentada de recuperação (RAG) e refinamento da seleção de ferramentas de MCP.
  • Endpoints de ativos de IA: eles permitem recuperar chaves de API e endpoints instantaneamente para iniciar os testes em seu IDE local.

 

 

 

Lacuna de produção: avaliação e otimização contínuas

Uma das maiores barreiras para a implantação em produção não é a criação do modelo, mas a gestão de custos e a garantia de que a qualidade não oscile.

  • Otimização de custos na compactação de modelos: a plataforma OpenShift AI 3.3 apresenta workbenches guiados para o LLM Compressor (GitHub) e GuideLLM (GitHub), ferramentas open source lideradas e utilizadas pela Red Hat para realizar benchmarks e compactar modelos como parte do nosso programa de validação de modelos. Agora você pode realizar o benchmark de um modelo, compactá-lo (por exemplo, via quantização) e comparar os ganhos de desempenho diretamente em seu ambiente. Saiba mais sobre o valor dos modelos compactados neste post do blog sobre o LLM Compressor.
  • Acompanhamento de experimentos com MLflow: apresentamos a prévia de desenvolvedor da integração com o MLflow. Embora a compactação e o benchmarking ajudem a resolver problemas imediatos de desempenho, o MLflow fornece a "memória histórica" para o ciclo de vida da IA. Ao registrar os resultados do guidellm e as respostas das aplicações no MLflow, você acompanha as regressões e a qualidade ao longo do tempo para garantir que as otimizações não comprometam a precisão.
  • Visualize o loop: agora você pode ver a correlação direta entre seus experimentos de compactação e a latência de inferência no dashboard do MLflow, tornando a solução de problemas de desempenho orientada por dados em vez de anedótica.

Experimente o Red Hat OpenShift AI 

As funcionalidades do Red Hat OpenShift AI 3.3 foram criadas para transformar como você controla o acesso aos recursos de IA na plataforma. Experimente o AI hub e conheça o gen AI studio e nossos novos workbenches de otimização instalando o Red Hat OpenShift AI 3.3. Consulte nosso press release para mais informações.

Você também pode experimentar o Red Hat OpenShift AI na central de testes de soluções da Red Hat. Isso oferece acesso sem custos por 60 dias a um ambiente totalmente gerenciado para testar essas ferramentas de nível de produção.

Teste de produto

Red Hat OpenShift AI (autogerenciado) | Teste de solução

Uma plataforma open source de machine learning (ML) para a nuvem híbrida.

Sobre os autores

Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.

Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.

Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem