LoRA e QLoRA

Publicado 12 de fevereiro de 2025•5 minutos (tempo de leitura)

A adaptação de baixa classificação (LoRA) e a adaptação quantizada de baixa classificação (QLoRA) são técnicas de treinamento de modelos de IA. Mais especificamente, elas são formas de ajuste fino de parâmetros com eficiência (PEFT), uma técnica de ajuste fino que ganhou popularidade porque utiliza menos recursos do que outros métodos de treinamento de Large Language Models (LLMs).

A LoRA e QLoRA oferecem uma maneira mais eficiente de fazer o ajuste fino dos LLMs, mas diferem na manipulação do modelo e no uso do armazenamento para alcançar os resultados pretendidos.

Conheça o Red Hat AI

LLMs são modelos complexos compostos de um grande número de parâmetros (alguns podem chegar à casa dos bilhões). Esses parâmetros permitem que o modelo seja treinado com uma certa quantidade de informações. Quanto mais parâmetros, maior é o armazenamento de dados e a capacidade do modelo de forma geral.

O ajuste fino tradicional requer a atualização ou regulação de cada parâmetro individual para atualizar o LLM. Isso pode significar o ajuste fino de bilhões de parâmetros, exigindo muito tempo de computação e dinheiro.

A atualização de cada parâmetro pode levar a um "sobreajuste", termo usado para descrever um modelo de IA que está aprendendo "ruídos" (isto é, dados inúteis), além dos dados gerais de treinamento.

O que são modelos de base?

Imagine um professor e seus alunos. A turma estudou matemática o ano todo. Pouco antes da prova, o professor enfatiza a importância da divisão longa. Durante a prova, muitos alunos ficam preocupados demais com as divisões longas e esquecem as principais equações matemáticas de questões que são igualmente importantes. É isso que o sobreajuste causa em um LLM durante o ajuste fino tradicional.

Além dos problemas de sobreajuste, o ajuste fino tradicional também apresenta um gasto significativo com recursos.

A QLoRA e a LoRA são técnicas de ajuste fino que fornecem atalhos para melhorar a eficiência do ajuste fino completo. Em vez de treinar todos os parâmetros, elas dividem o modelo em matrizes e treinam apenas aqueles necessários para o aprendizado de novas informações.

No contexto da nossa metáfora, essas técnicas conseguem introduzir novos tópicos eficientemente sem que o modelo "esqueça" outros tópicos da prova.

Mais informações sobre ajuste fino de parâmetros com eficiência (PEFT)

A técnica LoRA usa novos parâmetros para treinar o modelo de IA com novos dados.

Em vez de treinar todo o modelo e todos os pesos pré-treinados, ela os separa (ou "congela") e treina uma amostra menor de parâmetros. Essas amostras são chamadas de matrizes de adaptação de "baixa classificação", e é daí que vem a nomenclatura LoRA.

Elas são chamadas assim porque são matrizes com um baixo número de parâmetros e pesos. Após treinadas, elas são combinadas com os parâmetros originais e atuam como uma matriz única. Com isso, o ajuste fino pode ser feito com muito mais eficiência.

É mais fácil pensar na matriz LoRA como uma linha ou coluna que é adicionada à matriz.

Pense nisto como o parâmetro inteiro que precisa ser treinado:

4x4 grid each cell contains a letter "P"

Treinar todos os pesos do parâmetro exige uma quantidade significativa de tempo, dinheiro e memória. Ao final, você pode ter desperdiçado muitos recursos no processo e ainda assim precisar fazer mais treinamentos.

Esta coluna representa um peso de baixa classificação:

Quando o treinamento dos novos parâmetros de baixa classificação acaba, a "linha" ou "coluna" única é adicionada à matriz original. Isso permite aplicar seu novo treinamento ao parâmetro todo.

5X4 grid with the cells of the first column containing the letter "L". All other cells contain the letter "P"

Agora o modelo de IA pode operar com os pesos recém-ajustados.

Treinar o peso de baixa classificação requer menos tempo, memória e custos. Após a amostra ser treinada, ela pode aplicar o que aprendeu na matriz maior sem ocupar memória extra.

O que é IA generativa?

LoRA é uma técnica que permite fazer o ajuste fino do modelo com menos tempo, esforço e recursos. Os benefícios incluem:

Menos parâmetros para treinar.
Menor risco de sobreajuste.
Treinamento mais rápido.
Menos memória usada.
Ajustes flexíveis (o treinamento pode ser aplicado a algumas partes do modelo e não a outras).

Como a IA funciona no mundo empresarial?

A QLoRA é uma extensão da LoRA. É uma técnica parecida, mas com uma vantagem: menos memória.

O "Q" em "QLoRA" é de "quantizada". Neste contexto, quantizar o modelo significa comprimir parâmetros muito complexos e precisos (muitos números decimais e muita memória) em um parâmetro menor e mais conciso (menos decimais e menos memória).

O objetivo é ajustar uma parte do modelo usando o armazenamento e a memória de apenas uma unidade de processamento gráfico (GPU). Isso é feito com o uso de um NormalFloat de 4 bits (NF4), um novo tipo de dado que consegue quantizar as matrizes usando ainda menos memória que a LoRA. Ao comprimir o parâmetro em dados menores e mais gerenciáveis, ele diminui o uso de memória necessário em até quatro vezes se comparado ao tamanho original.

Depois que o modelo é quantizado, fica muito mais fácil fazer o ajuste fino.

Pense neste exemplo como os parâmetros do modelo original:

A row of cells each containing the letter "P" representing 12 parameters. 3 are green, 6 are blue, 2 are yellow, and 1 is pink

Dentro dos 12 parâmetros, 3 são verdes, 6 são azuis, 2 são amarelos e 1 é rosa. Quando o modelo é quantizado, ele é transformado em uma representação compacta do modelo anterior.

A row of 4 cells, 1 green, 2 blue, and 1 yellow.

Após a quantização, ficamos com uma amostra de 1 verde, 2 azuis e 1 amarelo.

Durante a quantização, existe o risco de alguns dados serem tão pequenos que acabam perdidos na compactação. Por exemplo, o parâmetro rosa não aparece porque era uma fração tão pequena que não representava dados suficientes para serem transferidos para a versão compactada.

Neste exemplo, compactamos os parâmetros de 12 para 4. Mas, na realidade, bilhões de parâmetros estão sendo compactados em um número finito que pode ser ajustado em apenas uma GPU.

Em teoria, dados perdidos podem ser recuperados pelo parâmetro original quando a matriz recém-treinada é adicionada de volta às matrizes originais, sem perder a precisão ou exatidão. Mas isso não é algo garantido.

Essa técnica combina computação de alto desempenho com armazenamento de memória de baixa manutenção, mantendo o modelo extremamente preciso mesmo trabalhando com recursos limitados.

Saiba como modelos quantizados lidam com tarefas de contexto longo

QLoRA é uma técnica que dá ênfase a requisitos de memória de baixa manutenção. Assim como a LoRA, ela prioriza a eficiência que permite um processo de treinamento de ajuste fino mais rápido e fácil. Os benefícios incluem:

Menos memória que a LoRA.
Prevenção contra dados de sobreajuste.
Altos níveis de precisão.
Ajuste de modelos rápido e lightweight.

O quanto a precisão é afetada ao quantizar LLMs? Saiba o que acontece quando 500 mil LLMs quantizados são avaliados.

A LoRA pode ser usada por si só como uma técnica eficiente de ajuste fino. Já a QLoRA é uma extensão que adiciona camadas de técnicas para aumentar a eficiência, além do que já é feito pela LoRA. A QLoRA usa um espaço muito menor de armazenamento.

Se você não consegue decidir qual técnica é melhor para suas necessidades, pense no volume de armazenamento e recursos de que você dispõe. Se seu armazenamento for limitado, a QLoRA será mais fácil de executar.

O que é Modelo como Serviço?

O Red Hat® AI é um portfólio de soluções e serviços que pode ajudar sua empresa em qualquer etapa da jornada de IA, não importa se você está no início ou com tudo pronto para escalar na nuvem híbrida.

Com modelos pequenos e para fins específicos, além de técnicas de personalização flexíveis, ele oferece flexibilidade para desenvolver e implantar em qualquer lugar.

Conheça o Red Hat AI

LoRA e QLoRA

Red Hat AI

Introdução à IA empresarial: um guia para iniciantes

Red Hat AI

Leia mais

O que é inferência distribuída?

O que é Model Context Protocol (MCP)?

Tudo sobre a AIOps

Inteligência artificial: conteúdo adicional

Plataformas

Ferramentas

Experimente, compre e venda

Comunicação

Sobre a Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links