O que é LLMOps?
Large Language Models (LLMs) são modelos de machine learning (ML), ou aprendizado de máquina em português, que entendem e geram linguagem humana. LLMs como GPT-3, LLaMA e Falcon são ferramentas que aprendem com dados para produzir palavras e frases. Conforme essas ferramentas evoluem, as organizações precisam implementar práticas recomendadas para a operação desses modelos. É aqui que entra o LLMOps.
Large Language Model Operations (LLMOps) são métodos operacionais usados para gerenciar grandes modelos de linguagem. Com o LLMOps, o ciclo de vida dos LLMs é gerenciado e automatizado, do ajuste fino à manutenção, ajudando os desenvolvedores e as equipes a implantar, monitorar e manter LLMs.
LLMOps e MLOps
Visto que os LLMs são uma parte dos modelos de ML, LLMOps é para os LLMs o que MLOps (machine learning operations) é para o machine learning. MLOps é um conjunto de práticas de fluxo de trabalho que visam otimizar o processo de implantação e manutenção de modelos de ML. O MLOps busca estabelecer uma evolução contínua para a integração de modelos de ML aos processos de desenvolvimento de software. Seguindo a mesma lógica, o LLMOps busca experimentar, iterar, implantar e aprimorar continuamente o desenvolvimento do LLM e o ciclo de vida de implantação.
Apesar de similares em muitos aspectos, LLMOps e MLOps são processos diferentes. Algumas diferenças são:
Aprendizado: os modelos de ML tradicionais geralmente são criados ou treinados do zero, mas os LLMs partem de um modelo fundamental e passam por ajustes finos com dados para melhorar o desempenho da tarefa.
Ajuste: no caso dos LLMs, o ajuste fino melhora o desempenho e aumenta a precisão, acrescentando ao modelo conhecimento sobre determinado assunto. O ajuste de prompts melhora o desempenho dos LLMs em tarefas específicas. Outra diferença é o ajuste de hiperparâmetros. No caso da ML tradicional, esse ajuste prioriza a melhoria da precisão. Para os LLMs, o ajuste é importante tanto para a precisão, quanto para reduzir custos e para a capacidade necessária para o treinamento. Ambos os modelos se beneficiam do monitoramento e da otimização do processo de ajuste. O que varia é a ênfase dada em cada um. Por fim, é importante mencionar a Geração Aumentada de Recuperação (RAG), o processo de usar conhecimento externo para garantir que fatos precisos e específicos sejam coletados pelo LLM para produzir melhores respostas.
Feedback: o aprendizado por reforço com feedback humano (RLHF) é uma melhoria no treinamento de LLMs. O feedback humano é essencial para o desempenho de um LLM. Os LLMs utilizam o feedback para avaliar a precisão, enquanto os modelos tradicionais de ML usam métricas específicas.
Métricas de desempenho: os modelos de ML contam com métricas de desempenho precisas, enquanto LLMs contam com diferentes conjuntos de métricas, como o Bilingual Evaluation Understudy (BLEU) e o Recall-Oriented Understudy for Gisting Evaluation (ROUGE), que requerem avaliações mais complexas.
Acesse a biblioteca de conteúdos da Red Hat
Benefícios do LLMOps
À medida que o LLMOps se torna a melhor maneira de monitorar e melhorar o desempenho, três benefícios se destacam:
Eficiência: o LLMOps possibilita que as equipes desenvolvam modelos com mais rapidez, aprimorem a qualidade deles e implantem rapidamente. Com uma abordagem de gerenciamento mais simplificada, as equipes colaboram melhor em uma plataforma que promove a comunicação, o desenvolvimento e a implantação. Ferramentas como o vLLM, um servidor de inferência open source que acelera a gen IA, pode ajudar no uso mais eficiente das GPUs.
Escalabilidade: o LLMOps melhora a escalabilidade e o gerenciamento. Dessa maneira, é possível gerenciar e monitorar mais de um modelo para fins de integração e entrega/implantação contínuas (CI/CD). O LLMOps também oferece uma experiência de usuário mais responsiva, com comunicação e resposta de dados aprimoradas.
Redução de riscos: o LLMOps promove mais transparência e estabelece maior conformidade às políticas da organização e do setor. O LLMOps aprimora a segurança e a privacidade ao proteger informações sensíveis e prevenir a exposição a riscos.
Descubra como o vLLM ajudou três organizações renomadas a escalar com mais rapidez.
Casos de uso de LLMOps
O LLMOps apresenta alguns casos de uso.
Integração e entrega contínuas (CI/CD): a CI/CD tem como objetivo simplificar, acelerar e automatizar o ciclo de vida de desenvolvimento do modelo. Ele remove a necessidade de intervenção humana na criação de novos códigos, o que resulta em menor tempo de inatividade e lançamentos de códigos mais rápidos. Ferramentas como o Tekton, no qual o Red Hat OpenShift Pipelines é baseado, contribuem com os fluxos de trabalho de desenvolvedores por meio da automação de implantações em várias plataformas.
Coleta, rotulagem e armazenamento de dados: a coleta de dados usa diferentes fontes para reunir informações precisas. A rotulagem categoriza os dados, e o armazenamento coleta e retém informações digitais vinculadas a uma rede.
Ajuste fino, inferência e monitoramento do modelo: o ajuste fino otimiza os modelos para realizar tarefas contextualizadas. A inferência de IA é quando um modelo de IA oferece uma resposta baseada em dados. A inferência de modelo pode gerenciar a produção a partir do conhecimento existente e, então, realizar ações com base em informações deduzidas. O monitoramento do modelo, que inclui feedback humano, coleta e armazena dados sobre o comportamento do modelo para prever como será seu desempenho com dados reais de produção.
Etapas do LLMOps
Todos os LLMOps têm etapas, componentes e práticas recomendadas:
Análise exploratória de dados (EDA): o processo consiste na avaliação de dados para preparação para o ciclo de vida de machine learning por meio da criação de conjuntos de dados.
- Coleta de dados: primeira etapa usada para treinar o LLM coletado de diferentes fontes, como arquivos de código e redes sociais.
- Limpeza de dados: depois de coletados, os dados precisam ser inspecionados em preparação para o treinamento, o que inclui remover erros, corrigir inconsistências e eliminar duplicidades.
- Exploração dos dados: o próximo passo é analisar os dados para entender melhor suas características, identificar valores atípicos e detectar padrões.
Preparação de dados e engenharia de prompt: o processo de compartilhamento dos dados acessíveis para as equipes e desenvolvimento de prompts para os LLMs.
- Preparação de dados: os dados usados para treinar um LLM são preparados de diferentes formas, incluindo a síntese e a conclusão dos dados coletados.
- Engenharia de prompt: criação de prompts para texto, assegurando que os LLMs produzam o resultado desejado.
Ajuste fino de modelo: o uso de bibliotecas open source conhecidas, como Hugging Face Transformers, para ajustar e melhorar o desempenho do modelo.
- Treinamento de modelo: depois que os dados são preparados, o LLM passa pelo treinamento ou ajuste fino utilizando um algoritmo de machine learning, com o objetivo de aprender padrões detectados nos dados.
- Avaliação de modelo: depois do treinamento, o LLM passa por uma avaliação de desempenho com o uso de um conjunto de dados que não tenha sido aplicado em seu treinamento.
- Ajuste fino de modelo: se o LLM não estiver apresentando bom desempenho, é possível ajustá-lo. Isso envolve a modificação dos parâmetros do LLM para melhorar os resultados.
Revisão e governança de modelo: o processo de descobrir, compartilhar e colaborar em modelos de ML com a ajuda de plataformas de MLOps open source, como Kubeflow.
- Revisão de modelo: depois do ajuste fino, o LLM precisa passar por uma análise de segurança e confiabilidade, que compreende verificá-lo para vieses e riscos de segurança.
- Governança do modelo: o processo de gerenciar o LLM ao longo de seu ciclo de vida, que compreende acompanhar seu desempenho, fazer alterações quando necessário e desativá-lo quando ele não for mais útil.
Inferência e disponibilização de modelos: o processo de gerenciamento dos detalhes da produção, como a frequência de atualização de um modelo ou os tempos de solicitação.
- Model serving: depois de analisado e aprovado, o LLM pode ser implantado na produção por meio de uma interface de programação de aplicação (API). A inferência distribuída é necessária para LLMs de grande porte (centenas de bilhões de parâmetros), pois divide o modelo em várias GPUs. Projetos open source como o llm-d oferecem uma solução nativa e gerenciada em Kubernetes para orquestrar a inferência distribuída.
- Inferência do modelo: a aplicação pode consultar a API para gerar texto ou responder a perguntas. Isso pode acontecer de várias maneiras, como por meio de uma interface de programação de aplicações para transferência de estado representacional (API REST) ou uma aplicação web.
Monitoramento do modelo com feedback humano: a criação de monitoramento de dados e modelos fora do escopo ou comportamento negativo dos usuários.
- Monitoramento de modelos: depois de implantado, o LLM precisa ser monitorado para garantir que está sendo executado como esperado. O monitoramento conta com análise do desempenho, identificação de problemas e alterações, quando necessário.
Feedback humano: usado para melhorar o desempenho do LLM, pode oferecer comentários sobre a qualidade do texto gerado pelo LLM ou identificar possíveis problemas com seu desempenho.
O que é uma plataforma de LLMOps?
Uma plataforma de LLMOps proporciona a desenvolvedores e equipes um ambiente que promove a colaboração por meio de análise de dados, rastreamento de experimentos, engenharia de prompt e gerenciamento de LLM. Também oferece monitoramento, implantação e transições de modelos gerenciados para LLMs. Com melhor gerenciamento de bibliotecas, a plataforma mantém os custos operacionais baixos e reduz a necessidade de integrantes capacitados executarem tarefas como pré-processamento de dados, monitoramento e implantação de modelos.
Por que escolher a Red Hat?
O Red Hat AI é um conjunto de soluções e serviços para sua empresa que ajuda em todas as etapas da jornada de IA, desde o começo até a fase de escalabilidade. Ele pode viabilizar iniciativas de IA generativa e preditiva para casos de uso exclusivos da sua empresa.
Com o Red Hat AI, você tem acesso ao Red Hat® AI Inference Server para otimizar a inferência de modelos na nuvem híbrida, garantindo implantações mais rápidas e econômicas. Com a tecnologia vLLM, o servidor de inferência maximiza a utilização da GPU e reduz os tempos de resposta.
O Red Hat AI Inference Server inclui o repositório do Red Hat AI, uma coleção de modelos otimizados e validados que oferece flexibilidade e promove a consistência entre equipes. Com acesso ao repositório de modelos de terceiros, as empresas conseguem acelerar o time to market e reduzir as barreiras financeiras para o sucesso da IA.
Blog da Red Hat
Tudo relacionado à Red Hat: soluções, treinamentos e certificações Red Hat, casos de sucesso de clientes, novidades dos nossos parceiros e notícias sobre projetos das comunidades open source.