O que é ajuste fino de parâmetros com eficiência (PEFT)?
Large Language Models (LLMs) exigem recursos computacionais e monetários para operar. O ajuste fino de parâmetros com eficiência (PEFT) é um conjunto de técnicas que ajusta apenas uma parte dos parâmetros em um LLM para economizar recursos.
O PEFT torna a personalização do LLM mais acessível e cria resultados comparáveis a um modelo de ajuste fino tradicional.
Ajuste fino tradicional e PEFT
O ajuste fino e o PEFT são técnicas de alinhamento de LLM. Eles ajustam e informam ao LLM os dados que você deseja para produzir os resultados esperados. O PEFT é como uma evolução do ajuste fino tradicional.
O ajuste fino tradicional adapta um LLM treinando todo o modelo de modo excessivo. Isso requer muitos recursos computacionais, dados e tempo.
Por outro lado, o PEFT modifica apenas uma pequena parte dos parâmetros de um modelo, o que geralmente o torna mais acessível para as organizações sem o uso intenso de recursos.
Red Hat AI
Quais são os benefícios do PEFT?
Com o PEFT, você se beneficia do treinamento de modelos grandes com mais rapidez em hardwares menores.
Os benefícios do PEFT incluem:
- Maior velocidade de treinamento: quando menos parâmetros são atualizados, o PEFT permite experimentação e iteração mais rápidas.
- Eficiência de recursos: o PEFT usa bem menos memória da GPU do que o ajuste fino tradicional e pode ser executado em hardwares do nível do consumidor. Isso significa que você pode treinar um LLM em um notebook em vez de precisar de um servidor dedicado.
- Capacidade de superar o esquecimento catastrófico: o esquecimento catastrófico acontece quando um modelo perde o conhecimento que já aprendeu quando recebe novos dados de treinamento. O PEFT ajuda os modelos a evitar esse esquecimento porque atualiza apenas alguns parâmetros, não todo o modelo.
- Portabilidade: os modelos ajustados com o PEFT são menores, mais gerenciáveis e mais fáceis de implantar nas plataformas. Assim, o modelo pode ser atualizado e melhorado com mais facilidade em um ambiente operacional.
- Sustentabilidade: o PEFT está alinhado a metas operacionais ecológicas com o uso de menos recursos computacionais.
- Acessibilidade: equipes e organizações com menos recursos computacionais podem ajustar modelos e ainda assim conseguir o resultado esperado.
Como o PEFT funciona?
Os LLMs são formados por diversas camadas de rede neural. Essas camadas são como um tipo de gráfico de fluxo, começando com uma camada de entrada e terminando com uma camada de saída. Entre essas duas camadas estão muitas outras camadas, cada uma desempenha uma função no processamento de dados durante a transmissão na rede neural.
Para adaptar a forma como um modelo de linguagem processa informações, altere os parâmetros.
O que são parâmetros em um LLM?
Os parâmetros (também chamados de pesos) moldam a maneira como um LLM compreende a linguagem.
Imagine os parâmetros como uma engrenagem ajustável em uma máquina. Cada parâmetro tem um valor numérico específico. A mudança desse valor afeta a capacidade do modelo de interpretar e gerar linguagem.
Um LLM pode conter centenas de bilhões de parâmetros. Quanto mais parâmetros um modelo tem, mais complexas são as tarefas que ele pode executar.
No entanto, conforme o número de parâmetros de um modelo aumenta, também cresce a necessidade de recursos de hardware. As organizações podem não ter os meios para investir nesses requisitos de hardware. É por esse motivo que técnicas de ajuste como o PEFT são tão importantes.
Para aumentar a eficiência do modelo, saiba como eliminar parâmetros desnecessários enquanto mantém a precisão.
Ajuste fino de parâmetros com eficiência
O PEFT modifica apenas um pequeno número de parâmetros de forma estratégica, preservando a maior parte da estrutura do modelo pré-treinado. Alguns exemplos de como fazer essas adaptações incluem:
Congelamento de camadas do modelo: durante a inferência, os cálculos são enviados por todas as camadas de uma rede neural. O congelamento de algumas dessas camadas reduz parte da capacidade de processamento necessária para realizar cálculos.
Adição de adaptadores: os adaptadores são como um pacote de expansão de um jogo de tabuleiro. Os adaptadores são adicionados sobre as camadas do modelo pré-treinado e são treinados para aprender informações específicas de domínio ou aplicação. Nesse cenário, o modelo original não é alterado, mas ganha novos recursos.
Vários métodos são usados para executar o PEFT, incluindo:
- LoRA (adaptação de baixa classificação)
- QLoRA (adaptação de baixa classificação quantizada)
- Ajuste com prefixos
- Ajuste de prompt
- Ajuste P
O que é ajuste fino?
O ajuste fino é uma maneira de comunicar uma intenção ao LLM para que o modelo adapte os resultados conforme os seus objetivos.
Considere isto: um LLM pode conseguir escrever um e-mail no estilo de Shakespeare, mas não sabe nada sobre os detalhes dos produtos que sua empresa oferece.
Para treinar o modelo com suas informações exclusivas, você pode usar o ajuste fino.
O ajuste fino é o processo de aprimorar um modelo pré-treinado com um conjunto de dados mais direcionado para realizar tarefas específicas com mais eficiência. Esses dados de treinamento adicionais modificam os parâmetros do modelo e criam uma nova versão que substitui o modelo original.
O ajuste fino é essencial para personalizar um LLM para um caso de uso específico de um domínio. No entanto, o ajuste fino tradicional tem um custo.
Por que o ajuste fino é caro?
Vários fatores contribuem para o custo do ajuste fino de um LLM, como:
- Requisitos da GPU: o ajuste fino exige muita capacidade de processamento. As unidades de processamento gráfico (GPUs) são caras para comprar e operar. Elas também precisam ser executadas por longos períodos durante o processo de ajuste fino. O consumo de energia e o resfriamento também podem ser caros.
- Requisitos de dados: os conjuntos de dados necessários para fazer o ajuste fino de um LLM com novas informações devem ser de alta qualidade e estar devidamente rotulados. Adquirir, criar e pré-processar esses dados pode ser caro e demorado.
Qual técnica de alinhamento de LLM é ideal para mim?
O alinhamento de LLM se refere ao processo de treinamento e personalização de um modelo de linguagem para produzir os resultados desejados.
Para escolher dentre diferente técnicas de alinhamento de LLM, considere os seguintes fatores:
- Dependência de dados: quantos dados são necessários? Você tem acesso aos dados necessários para que essa técnica funcione?
- Precisão: qual é o tamanho do impacto dessa técnica na precisão do modelo após o ajuste?
- Complexidade para usuários: quão fácil é o uso?
Em comparação ao ajuste fino tradicional, o PEFT requer menos dados, tem taxas de precisão muito altas e é mais fácil de usar.
Outras opções de alinhamento de LLM para explorar incluem:
- Geração Aumentada por Recuperação (RAG): oferece uma forma de complementar os dados que existem em um LLM com fontes de conhecimento externas de sua escolha, como repositórios de dados, coleções de texto e documentação pré-existente.
- A RAG tem uma alta dependência de dados, mas também conta com altas taxas de precisão e é menos complexa de usar do que o ajuste fino. Leia mais sobre a diferença entre RAG e ajuste fino.
- InstructLab: criado pela IBM e pela Red Hat, esse projeto da comunidade permite que qualquer pessoa em uma organização contribua com conhecimento e habilidades que são unidos em um modelo de linguagem.
- O InstructLab tem uma baixa dependência de dados porque usa dados sintéticos para complementar dados gerados por humanos. Sua precisão é comparável ao ajuste fino, e a complexidade para os usuários é muito baixa.
Como a Red Hat pode ajudar
O ajuste fino de parâmetros com eficiência é uma das várias técnicas de alinhamento compatíveis com o Red Hat® OpenShift® AI.
O OpenShift AI é uma plataforma MLOps flexível e escalável, com ferramentas para criar, implantar e gerenciar aplicações usando inteligência artificial. O OpenShift AI oferece suporte ao ciclo de vida completo de modelos e testes de inteligência artificial e machine learning, tanto on-premises quanto na nuvem pública.
Mais informações sobre o Red Hat OpenShift AI
O Red Hat® AI é um portfólio de soluções e serviços que pode ajudar sua empresa em qualquer etapa da jornada de IA, não importa se você está no início ou com tudo pronto para escalar na nuvem híbrida. Ele pode viabilizar iniciativas de IA Generativa e Preditiva para casos de uso exclusivos da sua empresa.
O Red Hat AI é baseado em tecnologias open source e em um ecossistema de parceiros que priorizam desempenho, estabilidade e compatibilidade com GPUs em diversas infraestruturas. Ele permite ajustar de forma eficiente modelos pequenos voltados para tarefas específicas, com a flexibilidade de implantá-los diretamente no local onde seus dados estão armazenados.