Como criar uma base de operações para o futuro da IA generativa

7 de maio de 2024Jeff DeMoss, Will McGrath6 minutos (tempo de leitura)

Com a inteligência artificial generativa (GenAI) atraindo a atenção do público, uma coisa fica mais evidente do que nunca: o ritmo da inovação está acelerado. A inovação não está apenas nas melhorias revolucionárias feitas nos modelos de GenAI, mas também nas tecnologias de suporte que os tornam relevantes para uma empresa. A geração aumentada de recuperação (RAG) passou a ser a estratégia preferida em vez do ajuste fino para infusão dos dados de uma organização em Large Language Models (LLM).

Com as mudanças rápidas da GenAI, muitas empresas sentem que precisam apostar em um único fornecedor de plataformas de IA, como um hyperscaler, e ter uma única nuvem principal para lidar com as incertezas da GenAI. Várias dessas organizações buscam uma base de IA subjacente consistente e flexível tanto para GenAI quanto para IA preditiva. Assim, elas oferecem os principais recursos para criar, aumentar, gerenciar, monitorar e disponibilizar modelos em aplicações com IA. Com essa abordagem, elas reduzem a dependência de fornecedor adotando uma plataforma de IA flexível o suficiente para ser executada on-premise, em diferentes plataformas de nuvem ou na edge. Assim, essas empresas conseguem se adaptar enquanto a GenAI evolui.

Antes de lançarmos o Red Hat OpenShift AI como serviço de computação em nuvem totalmente gerenciado, nossos primeiros clientes da versão Beta estavam muito interessados em uma versão on-premise. Hoje, mais de 80% dos clientes do Red Hat OpenShift AI estão adotando a versão autogerenciada para uso on-premise. O Red Hat OpenShift é a plataforma de aplicações líder do setor, podendo ser executada on-premise, nas principais nuvens públicas e até mesmo na edge. O Red Hat OpenShift AI é um complemento que contém muitos dos recursos subjacentes dessa solução. Ao tratar a IA como uma extensão do seu ambiente de aplicações, os usuários conseguem melhorar a eficiência de desenvolvedores e cientistas de dados.

Resumo funcional do Red Hat OpenShift AI

Resumiremos alguns dos recursos do Red Hat OpenShift AI como plataforma unificada de GenAI e IA preditiva.

Treinamento de modelos: projetos

O Red Hat OpenShift AI oferece várias imagens de workbench e permite adicionar imagens personalizadas por meio de uma interface de usuário do administrador. Com a interface de usuário (IU) do projeto, os usuários organizam arquivos de desenvolvimento de modelos, conexões de dados e outros artefatos necessários para um determinado projeto. Os arquivos de desenvolvimento de modelos podem ser criados a partir de imagens do workbench prontas ou personalizadas que fornecem acesso a bibliotecas, pacotes e ferramentas conhecidos, incluindo Jupyter notebooks, PyTorch e RStudio. Os projetos possibilitam a colaboração entre colegas por meio do compartilhamento de permissões específicas. Usuários também podem configurar o armazenamento em clusters para salvar dados do projeto e fornecer acesso a recursos, incluindo pipelines, disponilização de modelos e monitoramento para cientistas de dados, desenvolvedores e outros usuários que contribuem para o ciclo de vida da IA.

Treinamento dos modelos: cargas de trabalho distribuídas

O treinamento de modelos distribuído é um método que usa vários nós de cluster simultaneamente para tornar o processo mais rápido e eficiente. Essa abordagem pode ser usada para ajustar casos de uso e treinar IA preditiva e GenAI, viabilizando tarefas que antes não podiam ser feitas por computadores.

O stack de cargas de trabalho distribuídas integradas ao Red Hat OpenShift AI inclui tecnologias de treinamento, validação, ajuste e inferência. O CodeFlare oferece um framework simples para o stack de treinamento, que simplifica a orquestração e o monitoramento de tarefas. Ele é integrado a tecnologias como Ray para cargas de trabalho distribuídas e Kueue para filas e agendamento de tarefas.

A funcionalidade de cargas de trabalho distribuídas oferece uma integração fluida para otimizar a utilização de nós com suporte avançado para aceleradores. Os trabalhos podem ser priorizados e distribuídos, sejam eles interativos ou em lote. As cargas de trabalho distribuídas também podem ser usadas nos pipelines de ciência de dados para aproveitar o aumento dos recursos de computação.

GPUs e aceleradores

Um dos recursos mais relevantes do Red Hat OpenShift AI é a natureza self-service do acesso à GPU. Para a equipe de ITOps, é simples predefinir o ambiente de recursos de GPU, tanto on-premise quanto na nuvem. Assim, fica mais fácil para cientistas de dados e desenvolvedores de aplicações selecionarem as configurações para as tarefas do projeto. A solução é compatível com vários aceleradores, incluindo GPUs NVIDIA, dispositivos Intel Habana Gaudi e GPUs AMD. Com a funcionalidade de perfis de aceleradores, os administradores podem configurar os tipos de aceleradores mais adequados para uma carga de trabalho. Para os usuários, é possível selecionar aceleradores no Red Hat OpenShift AI a partir das interfaces de usuário de desenvolvimento do modelo e de serviço.

Pipelines de ciência de dados

O componente de pipelines de ciência de dados é uma ferramenta personalizada para o treinamento de Machine Learning e baseada nos pipelines do KubeFlow. Com ele, os cientistas conseguem automatizar as etapas de entrega e teste de modelos em desenvolvimento e produção. Um pipeline de amostra pode ser usado para coletar e processar dados, treinar o modelo, fazer o download do modelo existente, compará-lo e enviar o novo modelo para o DevTest, se ele tiver um desempenho melhor. Assim como outros artefatos de projetos de IA, é possível controlar a versão, rastrear e gerenciar os pipelines. Além disso, ele oferece um editor visual para criar e automatizar esses pipelines por meio de uma interface do tipo arrastar e soltar. Pipelines de ciência de dados também executam cargas de trabalho distribuídas.

Disponibilização de modelos

A IU de disponibilização de modelos é diretamente integrada ao dashboard do Red Hat OpenShift AI e projeta a IU para disponibilizar modelos de provedores e frameworks como Hugging Face, ONNX, PyTorch, TensorFlow e outros. Os usuários podem selecionar uma plataforma de disponibilização de modelos baseada em KServe ou ModelMesh, escolher entre vários servidores e runtimes de modelos oferecidos pelo Red Hat OpenShift AI ou integrar mecanismos ou runtimes de inferência personalizados, como o NVIDIA Triton. É possível escalar os recursos de cluster, como CPUs e GPUs, conforme a necessidade da carga de trabalho. O stack aprimorado de disponibilização de modelos utiliza tecnologias open source, como KServe, Caikit, vLLM e TGIS, para auxiliar nesse processo.

Monitoramento de modelos

O dashboard da IU de monitoramento de modelos ajuda os usuários focados em operações a monitorar métricas de operação e desempenho dos servidores de modelos e dos modelos implantados. As visualizações do monitoramento de modelos incluem métricas como o número de solicitações de inferência com êxito e falha, o tempo médio de resposta da inferência e a utilização específica de computação. Esses dados orientam os usuários a tomarem as medidas adequadas, como adicionar recursos de computação se o número de solicitações e o tempo médio de resposta estiverem aumentando com o tempo.

Integrações de parceiros de tecnologia

Além das antigas integrações diretas da solução Red Hat OpenShift IA com fornecedores como Starburst, Anaconda, Pachyderm, NVIDIA e Intel, a Red Hat está com novas colaborações, incluindo AMD, Elastic, Run:ai e Stability AI, para oferecer integrações expandidas para vários casos de uso da GenAI.

Em relação à plataforma de hardware, a Red Hat anunciou suporte e integrações otimizados com o Intel® Enterprise AI e os microsserviços NVIDIA NIM no Red Hat OpenShift AI. A Dell realizou melhorias no Dell APEX Cloud Platform for Red Hat OpenShift para usar o Red Hat OpenShift AI nos casos de uso de IA. Além disso, a Cisco criou um design validado para MLOps no Red Hat OpenShift AI.

O Red Hat OpenShift AI é um componente base no IBM watsonx.ai, oferecendo ferramentas e serviços de IA fundamentais para cargas de trabalho GenAI. O Watsonx.ai oferece um estúdio empresarial para desenvolvedores de IA disponibilizarem aplicações de GenAI com pouco ou nenhum requisito de código, fluxos de trabalho simples para desenvolvimento de modelos e acesso a uma biblioteca de modelos de base da IBM e modelos open source selecionados. As soluções Red Hat OpenShift e o Red Hat OpenShift AI são pré-requisitos técnicos integrados ao software watsonx.ai.

Ambientes desconectados

Por questões de segurança e conformidade regulatória, muitos clientes do Red Hat OpenShift AI precisam de implantações desconectadas. Organizações governamentais, financeiras, de saúde e de manufatura precisam de suporte para instalações com isolamento. Em geral, os clusters desconectados ficam em uma rede restrita, muitas vezes atrás de um firewall. Isso torna as implantações muito mais desafiadoras, exigindo a compatibilidade com registros privados para espelhar imagens.

Edge

Um dos maiores testes de uma plataforma de IA é a capacidade de oferecer suporte a ambientes de edge. A disponibilização de modelos do Red Hat OpenShift AI na edge amplia a implantação de modelos de IA para locais remotos com segurança, consistência e em escala. Isso ajuda a simplificar o processo de implantação de modelos na edge, aumentar a consistência dos ambientes e proteger o processo de inferência na edge. O recurso está disponível apenas para o Red Hat OpenShift com nó único.

Teste o Red Hat OpenShift AI no seu próprio cluster aqui. Conheça nossos padrões, demonstrações e receitas sobre GenAI e IA preditiva aqui. Leia mais sobre como criar uma base operacional para a GenAI aqui.

Sobre os autores

Jeff DeMoss

Senior Product Manager, Red Hat OpenShift AI

Jeff DeMoss is a Senior Manager of Product Management for Red Hat OpenShift AI, a platform for developing, training, serving, and monitoring AI/ML models. Jeff was previously a product leader at SAS Institute for a suite of Software-as-a-Service (SaaS) applications used by organizations to apply analytics capabilities to optimize their marketing activities.

Read full bio

Will McGrath

Senior Principal Product Marketing Manager

Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

Read full bio