LoRA im Vergleich zu QLoRA

Veröffentlicht 12. Februar 2025•4 Minuten (Lesedauer)

Sowohl LoRA (Low-Rank Adaptation) als auch QLoRA (Quantized Low-Rank Adaptation) sind Techniken zum Trainieren von KI-Modellen. Genauer gesagt handelt es sich um Formen des parametereffizienten Fine Tunings (PEFT), einer Fine Tuning-Technik, die aufgrund ihrer Ressourceneffizienz im Vergleich zu anderen Methoden des LLM-Trainings (Large Language Model) zunehmend Verbreitung findet.

LoRA und QLoRA tragen zu einem effizienteren Fine Tuning von LLMs bei, unterscheiden sich aber durch ihre Methoden der Modellmanipulation und der Storage-Nutzung, um die gewünschten Ergebnisse zu erzielen.

Mehr über Red Hat AI erfahren

LLMs sind komplexe Modelle, die aus zahlreichen Parametern bestehen, von denen einige in die Milliarden gehen können. Mit diesen Parametern kann das Modell anhand einer bestimmten Datenmenge trainiert werden. Mehr Parameter bedeuten mehr Daten-Storage und insgesamt ein leistungsfähigeres Modell.

Das traditionelle Fine Tuning erfordert die Neuanpassung (Aktualisierung oder Abstimmung) der einzelnen Parameter, um das LLM zu aktualisieren. Dies kann ein Fine Tuning von Milliarden von Parametern bedeuten, wozu viel Rechenzeit und Finanzmittel benötigt werden.

Eine Aktualisierung der einzelnen Parameter kann zu einer Überanpassung, dem sogenannten „Overfitting“ führen. Mit diesem Begriff wird ein KI-Modell beschrieben, das zusätzlich zu den allgemeinen Trainingsdaten „Rauschen“ oder nicht hilfreiche Daten erlernt.

Was sind Basismodelle?

Stellen Sie sich eine Lehrkraft und ihr Klassenzimmer vor. Die Klasse hat das ganze Jahr über Mathematik gelernt. Kurz vor der Prüfung betont die Lehrkraft die Bedeutung der schriftlichen Division. Während der Prüfung sind viele Schülerinnen und Schüler zu sehr mit der schriftlichen Division beschäftigt und haben wichtige mathematische Gleichungen für ebenso wichtige Fragen vergessen. Genau das kann die Überanpassung eines LLM bei traditionellem Fine Tuning bewirken.

Neben den Problemen der Überanpassung ist das traditionelle Fine Tuning auch mit erheblichen Kosten hinsichtlich der Ressourcen verbunden.

QLoRA und LoRA sind Fine Tuning-Techniken, mit denen die Effizienz des vollständigen Fine Tunings verbessert werden kann. Statt sämtliche Parameter zu trainieren, wird das Modell in Matrizen zerlegt, und es werden nur die Parameter trainiert, die für das Lernen neuer Informationen erforderlich sind.

In Anlehnung an unsere Metapher sind diese Fine Tuning-Techniken also in der Lage, neue Themen effizient einzuführen, ohne das Modell von anderen Themen in der Prüfung abzulenken.

Mehr über parametereffizientes Fine Tuning (PEFT) erfahren

Bei der LoRA-Technik werden neue Parameter verwendet, um das KI-Modell anhand neuer Daten zu trainieren.

Statt das gesamte Modell und sämtliche vortrainierten Gewichtungen zu trainieren, werden diese beiseitegelegt oder „eingefroren“, und stattdessen wird eine kleinere Stichprobe von Parametern trainiert. Diese Stichprobengrößen werden als „Low-Rank“-Anpassungsmatrizen bezeichnet, nach denen LoRA benannt ist.

Sie werden deshalb Low-Rank genannt, weil sie Matrizen mit einer geringen Anzahl von Parametern und Gewichtungen sind. Nach dem Training werden sie mit den ursprünglichen Parametern kombiniert und fungieren dann als eine einzelne Matrix. So lässt sich Fine Tuning viel effizienter durchführen.

Es ist einfacher, sich die LoRA-Matrix als eine Zeile oder eine Spalte vorzustellen, die der Matrix hinzugefügt wird.

Betrachten Sie das unten stehende Beispiel als den gesamten Parameter, der trainiert werden muss:

4x4 grid each cell contains a letter "P"

Das Training sämtlicher Gewichtungen in den Parametern erfordert einen erheblichen Zeit-, Geld- und Speicheraufwand. Danach müssen Sie möglicherweise noch zusätzlich trainieren und verschwenden dabei viele Ressourcen.

Diese Spalte steht für eine Low-Rank-Gewichtung:

Wenn die neuen Low-Rank-Parameter trainiert wurden, wird die einzelne „Zeile“ oder „Spalte“ der ursprünglichen Matrix hinzugefügt. So lässt sich das neue Training auf den gesamten Parameter anwenden.

5X4 grid with the cells of the first column containing the letter "L". All other cells contain the letter "P"

Nun kann das KI-Modell zusammen mit den neu abgestimmten Gewichtungen verwendet werden.

Das Training der Low-Rank-Gewichtung erfordert weniger Zeit, Speicherplatz und Kosten. Sobald die Stichprobengröße trainiert ist, kann sie das Gelernte in der größeren Matrix anwenden, ohne zusätzlichen Speicherplatz zu belegen.

Was ist generative KI?

LoRA ist eine Technik, mit der ein Modell mit weniger Zeit, Ressourcen und Aufwand abgestimmt werden kann. Zu den Vorteilen zählen:

Weniger zu trainierende Parameter
Niedrigeres Risiko der Überanpassung
Schnelleres Training
Weniger erforderlicher Speicher
Flexible Anpassungen (Training kann auf einzelne Teile des Modells angewendet werden)

Funktionsweise von KI im Unternehmen

QLoRA ist eine Erweiterung von LoRA. Es handelt sich dabei um eine ähnliche Technik mit einem zusätzlichen Vorteil: weniger Speicherplatz.

Das „Q“ in „QLoRA“ steht für „quantized“ (quantisiert). In diesem Zusammenhang bedeutet die Quantisierung des Modells die Komprimierung sehr komplexer, präziser Parameter (viele Dezimalzahlen und viel Speicherplatz) in einen kleineren, prägnanteren Parameter (weniger Dezimalzahlen und weniger Speicherplatz).

Ziel ist es, einen Teil des Modells mit dem Storage und dem Speicher einer einzelnen GPU (Graphics Processing Unit) abzustimmen. Dazu wird ein 4-Bit-NormalFloat (NF4) verwendet – ein neuer Datentyp, der die Matrizen mit noch weniger Speicher als LoRA quantisieren kann. Durch Komprimieren der Parameter in kleinere, besser verwaltbare Daten kann der erforderliche Speicherplatz bis auf ein Viertel seiner ursprünglichen Größe reduziert werden.

Nach dem Quantisieren des Modells ist es aufgrund seiner geringen Größe viel einfacher, das Fine Tuning durchzuführen.

Betrachten Sie das unten stehende Beispiel als die Parameter des ursprünglichen Modells:

A row of cells each containing the letter "P" representing 12 parameters. 3 are green, 6 are blue, 2 are yellow, and 1 is pink

Von den 12 Parametern sind 3 grün, 6 blau, 2 gelb und 1 rosa. Beim Quantisieren des Modells wird es zu einer Darstellung des vorherigen Modells komprimiert.

A row of 4 cells, 1 green, 2 blue, and 1 yellow.

Nach der Quantisierung verbleibt eine Stichprobengröße von 1 grünen, 1 gelben und 2 blauen Parametern.

Beim Quantisieren besteht das Risiko, dass einige Daten so klein sind, dass sie bei der Komprimierung verloren gehen. So fehlt beispielsweise der eine rosa Parameter, weil er einen so kleinen Teil des Parameters ausmacht, dass er nicht genug Daten darstellt, um in die komprimierte Version übernommen zu werden.

In diesem Beispiel komprimieren wir die Parameter von 12 auf 4. In Wirklichkeit werden jedoch Milliarden von Parametern auf eine begrenzte Anzahl komprimiert, bei denen das Fine Tuning problemlos auf einer einzelnen GPU durchgeführt werden kann.

Im Idealfall können sämtliche verlorenen Daten aus den ursprünglichen Parametern wiederhergestellt werden, wenn die neu trainierte Matrix wieder zu den ursprünglichen Matrizen hinzugefügt wird, ohne dass dabei Präzision oder Genauigkeit beeinträchtigt werden. Dafür gibt es jedoch keine Garantie.

Bei dieser Technik wird High-Performance Computing mit wartungsarmem Storage kombiniert. So bleibt das Modell äußerst genau, obwohl es mit begrenzten Ressourcen arbeitet.

Wie quantisierte Modelle Aufgaben mit langem Kontext handhaben

QLoRA ist eine Technik, die auf einen geringen Speicherbedarf abzielt. Ähnlich wie bei LoRA wird Effizienz priorisiert, sodass ein schnelleres und einfacheres Fine Tuning im Trainingsprozess möglich ist. Zu den Vorteilen zählen:

Benötigt weniger Speicher als LoRA
Vermeidet die Überanpassung von Daten
Sorgt für hohe Genauigkeit
Stimmt Modelle schnell und schlank ab

Wie viel Genauigkeit geht durch die Quantisierung von LLMs verloren? Wir haben eine halbe Million quantisierter LLMs bewertet – und das haben wir herausgefunden.

LoRA lässt sich allein als effiziente Fine Tuning-Technik nutzen. QLoRA ist eine Erweiterung, die zusätzlich zu LoRA weitere Methoden für mehr Effizienz bietet. QLoRA benötigt deutlich weniger Storage.

Wenn die Wahl der richtigen Technik für Ihre Anforderungen schwerfällt, sollten Sie zunächst prüfen, was Ihnen an Storage und Ressourcen zur Verfügung steht. Wenn Sie nur über begrenzten Storage verfügen, lässt sich QLoRA leichter ausführen.

Was ist Models-as-a-Service?

Red Hat® AI ist ein Portfolio von Produkten und Services, das Ihr Unternehmen in sämtlichen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie sich noch ganz am Anfang befinden oder bereit sind, KI in Ihrer gesamten Hybrid Cloud zu skalieren.

Mit kleinen, speziell entwickelten Modellen und flexiblen Anpassungstechniken bietet das Portfolio die Flexibilität für ortsunabhängige Entwicklung und Bereitstellung.

Mehr über Red Hat AI erfahren

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Granite sind LLMs von IBM für Unternehmensanwendungen. Granite-Modelle unterstützen Use Cases für gen KI, die Sprache und Code enthalten. Einsatz und Vorteile

Was ist verteilte Inferenz?

Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird.

Was ist MCP (Model Context Protocol)?

Erfahren Sie, wie Sie mit MCP (Model Context Protocol) KI-Anwendungen mit externen Datenquellen verbinden und so intelligentere Workflows entwickeln können.

LoRA im Vergleich zu QLoRA

Red Hat AI

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

Red Hat AI

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Was ist verteilte Inferenz?

Was ist MCP (Model Context Protocol)?

Ressourcen zu KI/ML

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links