O que é o ajuste fino de parâmetros com eficiência (PEFT)?

Publicado 18 de fevereiro de 2025•5 minutos (tempo de leitura)

Large Language Models (LLMs) precisam de recursos computacionais e dinheiro para operar. O ajuste fino de parâmetros com eficiência (PEFT) é um conjunto de técnicas que ajusta apenas uma parte dos parâmetros em um LLM para economizar recursos.

O PEFT torna a personalização do LLM mais acessível e cria resultados comparáveis a um modelo tradicional ajustado.

Conheça o Red Hat AI

O ajuste fino e o PEFT são técnicas de alinhamento de LLM. Eles ajustam e informam um LLM com os dados que você quer para produzir os resultados desejados. Pense no PEFT como uma evolução do ajuste fino tradicional.

O ajuste fino tradicional adapta um LLM treinando ainda mais todo o modelo. Isso exige muitos recursos computacionais, dados e tempo.

Em comparação, o PEFT modifica apenas uma pequena parte dos parâmetros em um modelo, tornando-o mais acessível para organizações sem grandes recursos.

O PEFT oferece treinamento de grandes modelos com mais rapidez em hardwares menores.

Os benefícios incluem:

Maior velocidade do treinamento:quando menos parâmetros são atualizados, o PEFT acelera a experimentação e a iteração.
Eficiência de recursos: o PEFT usa muito menos memória da GPU do que o ajuste fino tradicional e pode ser executado em hardware de nível de consumidor. Isso significa que você pode treinar um LLM em um laptop, em vez de precisar de um servidor dedicado.
Capacidade de superar o esquecimento catastrófico: o esquecimento catastrófico (catastrophic forgetting) acontece quando o modelo esquece o conhecimento já aprendido quando recebe novos dados de treinamento. O PEFT ajuda os modelos a evitar isso porque atualiza apenas alguns parâmetros, não todo o modelo.
Portabilidade: os modelos ajustados com o PEFT são menores, mais gerenciáveis e fáceis de implantar nas plataformas. Isso facilita a atualização e a melhoria do modelo em ambientes operacionais.
Sustentabilidade: o PEFT se alinha a metas operacionais ecológicas usando menos recursos computacionais.
Acessibilidade: equipes e organizações com menos recursos computacionais podem ajustar modelos e ainda alcançar o resultado desejado.

O que é IA empresarial?

Os LLMs são compostos de várias camadas de rede neural. Pense nessas camadas como se fosse um tipo de gráfico de fluxo, começando com uma camada de entrada e terminando com uma camada de saída. Entre essas duas camadas estão muitas outras, cada uma desempenhando uma função no processamento de dados conforme eles se movem pela rede neural.

Se você quiser ajustar a maneira como um modelo de linguagem processa informações, altere os parâmetros.

Técnica PEFT: como otimizar LLMs com GPUs

O que são parâmetros em um LLM?

Parâmetros (às vezes chamados de pesos) moldam a maneira como um LLM entende a linguagem.

Pense nos parâmetros como uma engrenagem ajustável em uma máquina. Cada parâmetro tem um valor numérico específico, e sua mudança afeta a capacidade de o modelo interpretar e gerar linguagem.

Um LLM pode conter bilhões (ou até centenas de bilhões) de parâmetros. Quanto mais parâmetros um modelo tem, mais complexas são as tarefas que ele pode realizar.

No entanto, conforme o número de parâmetros em um modelo aumenta, o mesmo acontece com a necessidade de recursos de hardware. As organizações talvez não tenham os meios para investir nesses requisitos de hardware. Por isso, técnicas de ajuste como o PEFT são tão importantes.

Para aumentar a eficiência do modelo, aprenda a eliminar parâmetros desnecessários enquanto mantém a precisão.

Ajuste fino de parâmetros com eficiência

O PEFT estrategicamente modifica apenas um pequeno número de parâmetros, preservando a maior parte da estrutura do modelo pré-treinado. Alguns exemplos de como fazer esses ajustes são:

Congelamento de camadas do modelo: durante a inferência, os cálculos são enviados por todas as camadas de uma rede neural. Ao congelar algumas dessas camadas, você reduz parte da capacidade de processamento necessária para realizar cálculos.

Adição de adaptadores: pense nos adaptadores como um pacote de expansão para um jogo de tabuleiro. Os adaptadores são adicionados às camadas no modelo pré-treinado e são treinados para aprender informações específicas do domínio ou da aplicação. Nesse cenário, o modelo original não é alterado, mas ganha novos recursos.

Há vários métodos usados para realizar o PEFT, incluindo:

LoRA (adaptação de baixa classificação)
QLoRA (adaptação quantizada de baixa classificação)
Ajuste por meio de prefixos
Ajuste de prompt
Ajuste P

Mais informações sobre a diferença entre LoRA e QLoRA

Uma ferramenta líder nesse campo é o vLLM, um mecanismo e servidor de inferência com eficiência de memória. Ele foi projetado para melhorar a velocidade e a capacidade de processamento de Large Language Models em um ambiente de nuvem híbrida. O suporte do vLLM para PEFT, especificamente para atender a vários adaptadores LoRA, oferece um enorme aumento de eficiência permitindo que um modelo de base permaneça carregado na memória da GPU.

Com o uso do vLLM para disponibilizar o PEFT, um único modelo disponibiliza várias versões ajustadas simultaneamente. Em outras palavras, o PEFT cria pequenos arquivos, e o vLLM otimiza a disponibilização desses arquivos compartilhando e distribuindo recursos de memória, como o cache de chave-valor (KV), a partir de um modelo subjacente único.

Mais informações sobre o vLLM

O ajuste fino é uma maneira de comunicar uma intenção a um LLM para o modelo adaptar os resultados conforme os seus objetivos.

Pense assim: um LLM é capaz de escrever um e-mail no estilo de Shakespeare, mas não sabe nada sobre os produtos que sua empresa oferece.

Para treinar o modelo com suas informações exclusivas, você pode usar o ajuste fino.

O ajuste fino é o processo de incrementar um modelo pré-treinado com um conjunto de dados mais personalizado para ele executar tarefas exclusivas com eficiência. Esses dados de treinamento adicionais modificam os parâmetros do modelo e criam uma nova versão que substitui o modelo original.

O ajuste fino é essencial para personalizar um LLM para um caso de uso específico do domínio. No entanto, o ajuste fino tradicional tem um custo.

Por que o ajuste fino é caro?

Vários fatores contribuem para o custo do ajuste fino de um LLM, como:

Requisitos de GPU: o ajuste fino exige muita capacidade de processamento. As unidades de processamento gráfico (GPUs) são caras de comprar e operar, além de exigirem longos períodos de execução durante o ajuste fino. O consumo de energia e o resfriamento também podem ser caros.
Requisitos de dados: os conjuntos de dados necessários para ajustar um LLM com novas informações devem ser de alta qualidade e estar devidamente rotulados. Adquirir, criar e pré-processar esses dados pode ser caro e demorado.

O alinhamento de LLM é o processo de treinamento e personalização de um modelo de linguagem para produzir os resultados desejados.

Ao escolher entre diferentes técnicas de alinhamento de LLM, considere os seguintes fatores:

Dependência de dados: qual a quantidade de dados necessária? Você tem acesso aos dados necessários para essa técnica funcionar?
Precisão: qual é o impacto dessa técnica na precisão do modelo após o ajuste?
Complexidade para os usuários: é fácil de usar?

Em comparação com o ajuste fino tradicional, o PEFT exige menos dados, tem taxas de precisão muito altas e é mais fácil de usar.

Outra opção de alinhamento de LLM a ser explorada é a Geração Aumentada de Recuperação (RAG). A RAG oferece uma maneira de complementar os dados de um LLM com fontes de conhecimento externas à sua escolha, como repositórios de dados, coleções de texto e documentações pré-existentes. A RAG tem uma alta dependência de dados, mas tem altas taxas de precisão e é menos complexa de usar do que o ajuste fino.

Mais informações sobre RAG e ajuste fino.

O ajuste fino de parâmetros com eficiência é uma das várias técnicas de alinhamento compatíveis com o Red Hat® OpenShift® AI.

O OpenShift AI é uma plataforma MLOps flexível e escalável, com ferramentas para criar, implantar e gerenciar aplicações usando IA. O OpenShift AI oferece suporte ao ciclo de vida completo de modelos e testes de inteligência artificial e machine learning, tanto on-premise quanto na nuvem pública.

Mais informações sobre o Red Hat OpenShift AI

O Red Hat® AI é um portfólio de soluções e serviços que pode ajudar sua empresa em qualquer etapa da jornada de IA, não importa se você está no início ou com tudo pronto para escalar na nuvem híbrida. Ele pode viabilizar iniciativas de IA generativa e preditiva para casos de uso exclusivos da sua empresa.

O Red Hat AI é baseado em tecnologias open source e em um ecossistema de parceiros que priorizam desempenho, estabilidade e compatibilidade com GPUs em diversas infraestruturas. Ele permite ajustar de forma eficiente modelos pequenos voltados para tarefas específicas, com a flexibilidade de implantá-los diretamente no local onde seus dados estão armazenados.

O que é o ajuste fino de parâmetros com eficiência (PEFT)?

Red Hat AI

O que são parâmetros em um LLM?

Ajuste fino de parâmetros com eficiência

Por que o ajuste fino é caro?

Introdução à IA empresarial: um guia para iniciantes

Red Hat OpenShift AI

Leia mais

O que é inferência distribuída?

O que é Model Context Protocol (MCP)?

Tudo sobre a AIOps

Inteligência artificial: conteúdo adicional

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links