Was ist parametereffizientes Fine Tuning (PEFT)?

URL kopieren

Die Nutzung von Large Language Models (LLMs) erfordert Rechenressourcen und finanzielle Mittel. Parametereffizientes Fine Tuning (PEFT) umfasst eine Reihe von Techniken, die nur einen Teil der Parameter innerhalb eines LLM anpassen, um Ressourcen zu sparen. 

PEFT macht die benutzerdefinierte Anpassung von LLMs zugänglicher und erzeugt dabei Ausgaben, die mit denen eines traditionellen Fine Tuning-Modells vergleichbar sind. 

Mehr über Red Hat AI erfahren

Sowohl Fine Tuning als auch PEFT sind Techniken zur LLM-Ausrichtung. Sie versorgen ein LLM mit den gewünschten Daten und passen es so an, dass es die gewünschten Ausgaben liefert. Stellen Sie sich PEFT als eine Weiterentwicklung des traditionellen Fine Tunings vor.

Traditionelles Fine Tuning nimmt Anpassungen an einem LLM vor, indem das gesamte Modell weiter trainiert wird. Dies erfordert einen intensiven Einsatz von Rechenressourcen, Daten und Zeit. 

PEFT hingegen modifiziert nur einen kleinen Teil der Parameter innerhalb eines Modells und ist daher im Allgemeinen zugänglicher für Unternehmen ohne umfangreiche Ressourcen. 

Red Hat AI

PEFT bietet den Vorteil, dass es große Modelle schneller und auf kleinerer Hardware trainiert. 

Die Vorteile von PEFT im Einzelnen:

  • Höhere Trainingsgeschwindigkeit: Indem es weniger Parameter aktualisiert, ermöglicht PEFT schnellere Experimente und Iterationen.
  • Ressourceneffizienz: PEFT nutzt deutlich weniger GPU-Speicher als traditionelles Fine Tuning und ist auf Consumer-Hardware ausführbar. Das bedeutet, Sie können ein LLM auf einem Laptop trainieren und benötigen keinen dedizierten Server.
  • Vermeidung von katastrophalem Vergessen: Katastrophales Vergessen findet statt, wenn das Modell mit neuen Trainingsdaten versorgt wird, dabei aber das bereits erworbene Wissen vergisst. PEFT kann katastrophales Vergessen bei Modellen verhindern, da es nicht das gesamte Modell, sondern nur einige wenige Parameter aktualisiert.
  • Portierbarkeit: Mit PEFT abgestimmte Modelle sind kleiner und überschaubarer und lassen sich einfacher auf mehreren Plattformen bereitstellen. Dies erleichtert die Aktualisierung und Verbesserung des Modells in einer Betriebsumgebung.
  • Nachhaltigkeit: PEFT unterstützt operative Umweltziele, indem es Rechenressourcen schont.
  • Zugänglichkeit: Auch Teams und Unternehmen mit weniger Rechenressourcen können Fine Tuning für Modelle durchführen und das gewünschte Ergebnis erzielen.

LLMs setzen sich aus mehreren neuronalen Netzwerkschichten zusammen. Stellen Sie sich diese Schichten als eine Art Flussdiagramm vor, das mit einer Eingabeschicht beginnt und mit einer Ausgabeschicht endet. Zwischen diesen beiden Schichten befinden sich zahlreiche andere Schichten, die jeweils eine spezifische Funktion bei der Verarbeitung von Daten auf ihrem Weg durch das neuronale Netzwerk übernehmen.

Wenn Sie die Art und Weise ändern möchten, wie ein Sprachmodell Informationen verarbeitet, ändern Sie die Parameter. 

PEFT-Technik: Optimierung von LLMs mit GPUs

Was sind Parameter in einem LLM?

Parameter (zuweilen auch als Gewichte bezeichnet) bestimmen, wie ein LLM Sprache verarbeitet. 

Stellen Sie sich die Parameter einfach wie ein einstellbares Zahnrad im Inneren einer Maschine vor. Die einzelnen Parameter verfügen über einen spezifischen numerischen Wert, und eine Änderung dieses Werts beeinflusst die Fähigkeit des Modells, Sprache zu interpretieren und zu generieren. 

Ein LLM kann über Milliarden (oder sogar Hunderte Milliarden) von Parametern verfügen. Je mehr Parameter ein Modell enthält, desto komplexer sind die Aufgaben, die es ausführen kann. 

Mit zunehmender Anzahl von Parametern in einem Modell steigt jedoch auch der Bedarf an Hardwareressourcen. Unternehmen verfügen möglicherweise nicht über die Mittel für eine Investition in die benötigte Hardware, und genau das macht Tuning-Techniken wie PEFT so wichtig. 

Durch das Eliminieren unnötiger Parameter können Sie die Modelleffizienz erhöhen, ohne Abstriche bei der Genauigkeit zu machen.

Effizientes Fine Tuning von Parametern

PEFT geht strategisch vor, indem es nur eine geringe Anzahl von Parametern modifiziert und den Großteil der Struktur des vortrainierten Modells beibehält. Nachstehend sind einige Beispiele aufgeführt, wie diese Anpassungen erfolgen können:

Einfrieren von Modellschichten: Während der Inferenz werden Berechnungen durch sämtliche Schichten eines neuronalen Netzwerks gesendet. Indem Sie einige dieser Schichten einfrieren, reduzieren Sie die zur Durchführung von Berechnungen erforderliche Rechenleistung. 

Hinzufügen von Adaptern: Stellen Sie sich Adapter wie ein Erweiterungspaket für ein Gesellschaftsspiel vor. Adapter werden auf die Schichten innerhalb des vortrainierten Modells aufgesetzt und für das Lernen domain- oder anwendungsspezifischer Informationen trainiert. In diesem Szenario verändert sich das ursprüngliche Modell nicht, sondern gewinnt neue Fähigkeiten hinzu. 

Es gibt verschiedene Methoden zur Durchführung von PEFT, darunter:

  • LoRA (Low-Rank Adaptation)
  • QLoRA (Quantized Low-Rank Adaptation)
  • Prefix Tuning
  • Prompt Tuning
  • P-Tuning

Mehr zu LoRA und QLoRA im Vergleich erfahren

Fine Tuning ist eine Möglichkeit, einem LLM eine Absicht zu kommunizieren, damit das Modell seine Ausgabe an Ihre Anforderungen anpassen kann.

Nehmen wir folgendes Beispiel: Ein LLM mag in der Lage sein, eine E-Mail im Stil von Shakespeare zu verfassen, doch es weiß nichts über die Details der Produkte, die Ihr Unternehmen liefert.

Um das Modell mit Ihren besonderen Informationen zu trainieren, können Sie Fine Tuning verwenden. 

Beim Fine Tuning handelt es sich um den Prozess des Trainings eines vortrainierten Modells mit einem besser angepassten Datensatz, damit es besondere Aufgaben effektiv ausführen kann. Diese zusätzlichen Trainingsdaten modifizieren die Modellparameter und erzeugen eine neue Version, die das ursprüngliche Modell ersetzt.

Fine Tuning ist entscheidend für die Personalisierung eines LLMs für einen domainspezifischen Use Case. Traditionelles Fine Tuning ist jedoch mit Kosten verbunden. 

Warum ist Fine Tuning teuer?

In die Kosten für das Fine Tuning eines LLMs fließen mehrere Faktoren ein, darunter:

  • GPU-Anforderungen: Fine Tuning erfordert ein hohes Maß an Rechenleistung. GPUs (Graphic Processing Units) sind teuer in der Anschaffung und in der Nutzung, und während des Fine Tunings müssen sie über längere Zeiträume hinweg ausgeführt werden. Stromverbrauch und Kühlung können ebenfalls kostspielig sein.
  • Datenbedarf: Die für das Fine Tuning eines LLMs mit neuen Informationen benötigten Datensätze müssen von hoher Qualität und ordnungsgemäß gekennzeichnet sein. Die Erfassung, Zusammenstellung und Vorverarbeitung dieser Daten kann sich als kosten- und zeitintensiv erweisen. 

LLM-Ausrichtung bezeichnet den Prozess, bei dem ein Sprachmodell so trainiert und personalisiert wird, dass es die gewünschten Ausgaben erzeugt.

Berücksichtigen Sie bei der Entscheidung zwischen verschiedenen LLM-Ausrichtungstechniken folgende Faktoren:

  • Abhängigkeit von Daten: Wie viele Daten werden benötigt? Haben Sie Zugang zu den Daten, die für das Funktionieren dieser Technik erforderlich sind?
  • Genauigkeit: Wie stark wirkt sich diese Technik auf die Genauigkeit des Modells nach dem Tuning aus?
  • Komplexität für Nutzende: Wie einfach ist die Technik in der Anwendung?

PEFT erfordert im Vergleich zu traditionellem Fine Tuning weniger Daten, erzielt sehr hohe Genauigkeitsraten und ist benutzerfreundlicher. 

Zu weiteren möglichen Optionen für LLM-Ausrichtung zählen:

  • Retrieval-Augmented Generation (RAG): RAG bietet die Möglichkeit, die in einem LLM vorhandenen Daten durch externe Wissensquellen Ihrer Wahl zu ergänzen, wie etwa Daten-Repositories, Textsammlungen und bestehende Dokumentation.
  • InstructLab: Das von IBM und Red Hat entwickelte InstructLab Community-Projekt bietet den Personen in einem Unternehmen die Möglichkeit, mit Kenntnissen und Kompetenzen zum Aufbau eines Sprachmodells beizutragen.
    • InstructLab weist eine geringe Abhängigkeit von Daten auf, da es synthetische Daten als Ergänzung zu von Menschen generierten Informationen verwendet. Die Genauigkeit ist mit der des Fine Tuning vergleichbar, und die Komplexität für Nutzende ist sehr gering. 

Parametereffizientes Fine Tuning ist eine von mehreren Ausrichtungstechniken, die auf Red Hat® OpenShift® AI unterstützt werden.

OpenShift AI ist eine flexible, skalierbare MLOps-Plattform mit Tools zum Entwickeln, Bereitstellen und Verwalten von KI-gestützten Anwendungen. OpenShift AI unterstützt den gesamten Lifecycle von KI/ML-Experimenten und -Modellen, sowohl On-Premise als auch in der Public Cloud.

Mehr über Red Hat OpenShift AI erfahren

Red Hat® AI ist ein Portfolio von Produkten und Services, das Ihr Unternehmen in sämtlichen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie sich noch ganz am Anfang befinden oder bereit sind, KI in Ihrer gesamten Hybrid Cloud zu skalieren. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die besonderen Use Cases Ihres Unternehmens unterstützen.

Red Hat AI basiert auf Open Source-Technologien und Partnernetzwerken, die den Fokus auf Performance, Stabilität und GPU-Unterstützung für verschiedene Infrastrukturen legen. Das Portfolio bietet ein effizientes Tuning kleiner Modelle für bestimmte Zwecke und sorgt für Flexibilität beim Deployment, unabhängig davon, wo sich Ihre Daten befinden.

Red Hat OpenShift AI: Eine Plattform für KI-Anwendungen

OpenShift AI ist eine quelloffene, flexible MLOps-Plattform mit Tools zum Entwickeln, Bereitstellen und Verwalten von KI-Anwendungen in der Hybrid Cloud.

Weiterlesen

Was ist AIOps? Künstliche Intelligenz (KI) für IT-Operations

Erfahren Sie, was AIOps ist und wie IT-Abläufe mit KI optimiert werden können. Mehr über Vorteile, Herausforderungen und Potenziale von AIOps für Unternehmen.

Künstliche Intelligenz in Banken: Einsatz von KI und ML

Erfahren Sie, wie Künstliche Intelligenz und maschinelles Lernen das Bankwesen verändert. Mehr über Vorteile, Herausforderungen und Potenziale von KI in Banken.

Was ist Retrieval Augmented Generation (RAG)? | Red Hat AI

Erfahren Sie, wie RAG (Retrieval-Augmented Generation) KI-Modelle mit externem Wissen erweitert, damit LLMs genauere Antworten für Ihr Unternehmen liefern.

Ressourcen zu KI/ML