LoRA im Vergleich zu QLoRA

URL kopieren

Sowohl LoRA (Low-Rank Adaptation) als auch QLoRA (Quantized Low-Rank Adaptation) sind Techniken zum Trainieren von KI-Modellen. Genauer gesagt handelt es sich um Formen des parametereffizienten Fine Tunings (PEFT), einer Fine Tuning-Technik, die aufgrund ihrer Ressourceneffizienz im Vergleich zu anderen Methoden des LLM-Trainings (Large Language Model) zunehmend Verbreitung findet. 

LoRA und QLoRA tragen zu einem effizienteren Fine Tuning von LLMs bei, unterscheiden sich aber durch ihre Methoden der Modellmanipulation und der Storage-Nutzung, um die gewünschten Ergebnisse zu erzielen.

Mehr über Red Hat AI erfahren

LLMs sind komplexe Modelle, die aus zahlreichen Parametern bestehen, von denen einige in die Milliarden gehen können. Mit diesen Parametern kann das Modell anhand einer bestimmten Datenmenge trainiert werden. Mehr Parameter bedeuten mehr Daten-Storage und insgesamt ein leistungsfähigeres Modell.

Das traditionelle Fine Tuning erfordert die Neuanpassung (Aktualisierung oder Abstimmung) der einzelnen Parameter, um das LLM zu aktualisieren. Dies kann ein Fine Tuning von Milliarden von Parametern bedeuten, wozu viel Rechenzeit und Finanzmittel benötigt werden.

Eine Aktualisierung der einzelnen Parameter kann zu einer Überanpassung, dem sogenannten „Overfitting“ führen. Mit diesem Begriff wird ein KI-Modell beschrieben, das zusätzlich zu den allgemeinen Trainingsdaten „Rauschen“ oder nicht hilfreiche Daten erlernt.

Was sind Basismodelle? 

Stellen Sie sich eine Lehrkraft und ihr Klassenzimmer vor. Die Klasse hat das ganze Jahr über Mathematik gelernt. Kurz vor der Prüfung betont die Lehrkraft die Bedeutung der schriftlichen Division. Während der Prüfung sind viele Schülerinnen und Schüler zu sehr mit der schriftlichen Division beschäftigt und haben wichtige mathematische Gleichungen für ebenso wichtige Fragen vergessen. Genau das kann die Überanpassung eines LLM bei traditionellem Fine Tuning bewirken.

Neben den Problemen der Überanpassung ist das traditionelle Fine Tuning auch mit erheblichen Kosten hinsichtlich der Ressourcen verbunden.

QLoRA und LoRA sind Fine Tuning-Techniken, mit denen die Effizienz des vollständigen Fine Tunings verbessert werden kann. Anstatt sämtliche Parameter zu trainieren, wird das Modell in Matrizen zerlegt, und es werden nur die Parameter trainiert, die für das Lernen neuer Informationen erforderlich sind.

In Anlehnung an unsere Metapher sind diese Fine Tuning-Techniken also in der Lage, neue Themen effizient einzuführen, ohne das Modell von anderen Themen in der Prüfung abzulenken.

Mehr über parametereffizientes Fine Tuning (PEFT) erfahren

Red Hat AI

Bei der LoRA-Technik werden neue Parameter verwendet, um das KI-Modell anhand neuer Daten zu trainieren.

Anstatt das gesamte Modell und sämtliche vortrainierten Gewichtungen zu trainieren, werden diese beiseitegelegt oder „eingefroren“, und stattdessen wird eine kleinere Stichprobe von Parametern trainiert. Diese Stichprobengrößen werden als „Low-Rank“-Anpassungsmatrizen bezeichnet, nach denen LoRA benannt ist.

Sie werden deshalb Low-Rank genannt, weil sie Matrizen mit einer geringen Anzahl von Parametern und Gewichtungen sind. Nach dem Training werden sie mit den ursprünglichen Parametern kombiniert und fungieren dann als eine einzelne Matrix. So lässt sich Fine Tuning viel effizienter durchführen.

Es ist einfacher, sich die LoRA-Matrix als eine Zeile oder eine Spalte vorzustellen, die der Matrix hinzugefügt wird.

Betrachten Sie das unten stehende Beispiel als den gesamten Parameter, der trainiert werden muss: 

 

4x4 grid each cell contains a letter "P"

 

Das Training sämtlicher Gewichtungen in den Parametern erfordert einen erheblichen Zeit-, Geld- und Speicheraufwand. Danach müssen Sie möglicherweise noch zusätzlich trainieren und verschwenden dabei viele Ressourcen.

Diese Spalte steht für eine Low-Rank-Gewichtung:

 

A single column made up of four cells. A letter "L" in each cell.

 

Wenn die neuen Low-Rank-Parameter trainiert wurden, wird die einzelne „Zeile“ oder „Spalte“ der ursprünglichen Matrix hinzugefügt. So lässt sich das neue Training auf den gesamten Parameter anwenden.

 

5X4 grid with the cells of the first column containing the letter "L". All other cells contain the letter "P"

 

Nun kann das KI-Modell zusammen mit den neu abgestimmten Gewichtungen verwendet werden.

Das Training der Low-Rank-Gewichtung erfordert weniger Zeit, Speicherplatz und Kosten. Sobald die Stichprobengröße trainiert ist, kann sie das Gelernte in der größeren Matrix anwenden, ohne zusätzlichen Speicherplatz zu belegen. 

Was ist generative KI?

LoRA ist eine Technik, mit der ein Modell mit weniger Zeit, Ressourcen und Aufwand abgestimmt werden kann. Vorteile sind:

  • Weniger zu trainierende Parameter
  • Niedrigeres Risiko der Überanpassung
  • Schnelleres Training
  • Weniger erforderlicher Speicher
  • Flexible Anpassungen (Training kann auf einzelne Teile des Modells angewendet werden)

QLoRA ist eine Erweiterung von LoRA. Es handelt sich dabei um eine ähnliche Technik mit einem zusätzlichen Vorteil: weniger Speicherplatz.

Das „Q“ in „QLoRA“ steht für „quantized“ (quantisiert). In diesem Zusammenhang bedeutet die Quantisierung des Modells die Komprimierung sehr komplexer, präziser Parameter (viele Dezimalzahlen und viel Speicherplatz) in einen kleineren, prägnanteren Parameter (weniger Dezimalzahlen und weniger Speicherplatz).

Ziel ist es, einen Teil des Modells mit dem Storage und dem Speicher einer einzelnen GPU (Graphics Processing Unit) abzustimmen. Dazu wird ein 4-Bit-NormalFloat (NF4) verwendet – ein neuer Datentyp, der die Matrizen mit noch weniger Speicher als LoRA quantisieren kann. Durch Komprimieren der Parameter in kleinere, besser verwaltbare Daten kann der erforderliche Speicherplatz bis auf ein Viertel seiner ursprünglichen Größe reduziert werden.

Nach dem Quantisieren des Modells ist es aufgrund seiner geringen Größe viel einfacher, das Fine Tuning durchzuführen.

Betrachten Sie das unten stehende Beispiel als die Parameter des ursprünglichen Modells:

 

A row of cells each containing the letter "P" representing 12 parameters. 3 are green, 6 are blue, 2 are yellow, and 1 is pink

 

Von den 12 Parametern sind 3 grün, 6 blau, 2 gelb und 1 rosa. Beim Quantisieren des Modells wird es zu einer Darstellung des vorherigen Modells komprimiert. 

 

A row of 4 cells, 1 green, 2 blue, and 1 yellow.

 

Nach der Quantisierung verbleibt eine Stichprobengröße von 1 grünen, 1 gelben und 2 blauen Parametern.

Beim Quantisieren besteht das Risiko, dass einige Daten so klein sind, dass sie bei der Komprimierung verloren gehen. So fehlt beispielsweise der 1 rosa Parameter, weil er einen so kleinen Teil des Parameters ausmacht, dass er nicht genug Daten darstellt, um in die komprimierte Version übernommen zu werden.

In diesem Beispiel komprimieren wir die Parameter von 12 auf 4. In Wirklichkeit werden jedoch Milliarden von Parametern auf eine begrenzte Anzahl komprimiert, bei denen das Fine Tuning problemlos auf einer einzelnen GPU durchgeführt werden kann.

Im Idealfall können sämtliche verlorenen Daten aus den ursprünglichen Parametern wiederhergestellt werden, wenn die neu trainierte Matrix wieder zu den ursprünglichen Matrizen hinzugefügt wird, ohne dass dabei Präzision oder Genauigkeit beeinträchtigt werden. Dafür gibt es jedoch keine Garantie.

Diese Technik kombiniert High-Performance Computing mit wartungsarmem Storage. So bleibt das Modell äußerst genau, obwohl es mit begrenzten Ressourcen arbeitet. 

Wie quantisierte Modelle Aufgaben mit langem Kontext handhaben

QLoRA ist eine Technik, die auf einen geringen Speicherbedarf abzielt. Ähnlich wie bei LoRA wird Effizienz priorisiert, sodass ein schnelleres und einfacheres Fine Tuning im Trainingsprozess möglich ist. Vorteile sind:

  • Weniger Speicherbedarf als LoRA
  • Vermeidet die Überanpassung von Daten
  • Sorgt für hohe Genauigkeit
  • Schnelle und schlanke Modellabstimmung

Wie viel Genauigkeit geht durch die Quantisierung von LLMs verloren? Wir haben eine halbe Million quantisierter LLMs bewertet – und das haben wir herausgefunden.

LoRA lässt sich allein als effiziente Fine Tuning-Technik nutzen. QLoRA ist eine Erweiterung, die zusätzlich zu LoRA weitere Methoden für mehr Effizienz bietet. QLoRA benötigt deutlich weniger Storage.

Wenn die Wahl der richtigen Technik für Ihre Anforderungen schwerfällt, sollten Sie zunächst prüfen, was Ihnen an Storage und Ressourcen zur Verfügung steht. Wenn Sie nur über begrenzten Storage verfügen, lässt sich QLoRA leichter ausführen.

Red Hat® AI ist ein Portfolio von Produkten und Services, das Ihr Unternehmen in sämtlichen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie sich noch ganz am Anfang befinden oder bereit sind, KI in Ihrer gesamten Hybrid Cloud zu skalieren.

Mit kleinen, speziell entwickelten Modellen und flexiblen Anpassungstechniken bietet das Portfolio die Flexibilität für ortsunabhängige Entwicklung und Bereitstellung.

Mehr über Red Hat AI erfahren

Red Hat AI

Red Hat AI bietet flexible, kostengünstige Lösungen zur Beschleunigung von Entwicklung und Deployment von KI-Lösungen in Hybrid Cloud-Umgebungen.

Weiterlesen

Was ist generative KI? Künstliche Intelligenz im Einsatz

Entdecken Sie die Vorteile und Potenziale generativer KI für Ihr Unternehmen. Erfahren Sie mehr über die Funktionsweise von gen KI und Deep Learning (DL).

Was ist Machine Learning (ML)? Maschinelles Lernen und KI

Erfahren Sie, was Machine Learning (ML) ist, wie es Daten nutzt, um Muster zu erkennen und Vorhersagen zu treffen und welche Rolle es in der modernen KI spielt.

Was sind Large Language Models? Große Sprachmodelle für KI

Erfahren Sie, was ein Large Language Model (LLM) ist, wie es funktioniert, wofür es eingesetzt wird und welche Rolle es in modernen KI-Anwendungen spielt.

Ressourcen zu KI/ML

Verwandte Artikel