Was ist parametereffizientes Fine Tuning (PEFT)?

URL kopieren

Die Nutzung von Large Language Models (LLMs) erfordert Rechenressourcen und finanzielle Mittel. Parametereffizientes Fine Tuning (PEFT) umfasst eine Reihe von Techniken, die nur einen Teil der Parameter innerhalb eines LLM anpassen, um Ressourcen zu sparen. 

PEFT macht die benutzerdefinierte Anpassung von LLMs besser zugänglich und erzeugt dabei Ausgaben, die mit denen eines traditionellen Fine Tuning-Modells vergleichbar sind. 

Mehr über Red Hat AI erfahren

Sowohl Fine Tuning als auch PEFT sind Techniken zur LLM-Ausrichtung. Sie versorgen ein LLM mit den gewünschten Daten und passen es so an, dass es die gewünschten Ausgaben liefert. Sie können sich PEFT als eine Weiterentwicklung des traditionellen Fine Tunings vorstellen.

Traditionelles Fine Tuning nimmt Anpassungen an einem LLM vor, indem das gesamte Modell weiter trainiert wird. Dies erfordert einen intensiven Einsatz von Rechenressourcen, Daten und Zeit. 

PEFT hingegen modifiziert nur einen kleinen Teil der Parameter innerhalb eines Modells und ist daher im Allgemeinen besser zugänglich für Unternehmen ohne umfangreiche Ressourcen. 

Was ist Models as a Service?

Red Hat AI

Mit PEFT können große Modelle schneller und auf kleinerer Hardware trainiert werden. 

Zu den Vorteilen von PEFT gehören insbesondere:

  • Höhere Trainingsgeschwindigkeit: Wenn weniger Parameter aktualisiert werden, ermöglicht PEFT schnellere Experimente und Iterationen.
  • Ressourceneffizienz: PEFT nutzt deutlich weniger GPU-Speicher als traditionelles Fine Tuning und kann auf Consumer-Hardware ausgeführt werden. Das heißt, Sie können ein LLM auf einem Laptop trainieren und benötigen keinen dedizierten Server.
  • Vermeidung von katastrophalem Vergessen: Katastrophales Vergessen findet statt, wenn das Modell mit neuen Trainingsdaten versorgt wird, dabei aber das bereits erworbene Wissen vergisst. PEFT kann katastrophales Vergessen bei Modellen verhindern, da es nicht das gesamte Modell, sondern nur einige wenige Parameter aktualisiert.
  • Portierbarkeit: Mit PEFT abgestimmte Modelle sind kleiner und überschaubarer. Dadurch lassen sie sich leichter auf mehreren Plattformen bereitstellen. Dies erleichtert die Aktualisierung und Verbesserung des Modells in einer operativen Umgebung.
  • Nachhaltigkeit: PEFT unterstützt operative Umweltziele, indem es weniger Rechenressourcen nutzt.
  • Zugänglichkeit: Teams und Unternehmen mit weniger Rechenressourcen können Fine Tuning für Modelle durchführen und das gewünschte Ergebnis erzielen.

Was ist Unternehmens-KI? 

LLMs setzen sich aus mehreren neuronalen Netzwerkschichten zusammen. Stellen Sie sich diese Schichten als eine Art Flussdiagramm vor, das mit einer Eingabeschicht beginnt und mit einer Ausgabeschicht endet. Zwischen diesen beiden Schichten befinden sich zahlreiche weitere Schichten, die jeweils eine spezifische Funktion bei der Verarbeitung von Daten auf ihrem Weg durch das neuronale Netzwerk übernehmen.

Wenn Sie die Art und Weise ändern möchten, wie ein Sprachmodell Informationen verarbeitet, ändern Sie die Parameter. 

PEFT-Technik: LLM-Optimierung mit GPUs

Was sind Parameter in einem LLM?

Parameter (zuweilen auch als Gewichte bezeichnet) bestimmen, wie ein LLM Sprache verarbeitet. 

Stellen Sie sich die Parameter einfach wie ein einstellbares Zahnrad im Inneren einer Maschine vor. Die einzelnen Parameter verfügen über einen spezifischen numerischen Wert, und eine Änderung dieses Werts beeinflusst die Fähigkeit des Modells, Sprache zu interpretieren und zu generieren. 

Ein LLM kann über Milliarden (oder sogar hunderte Milliarden) von Parametern verfügen. Je mehr Parameter ein Modell enthält, desto komplexer sind die Aufgaben, die es ausführen kann. 

Mit zunehmender Anzahl von Parametern in einem Modell steigt jedoch auch der Bedarf an Hardwareressourcen. Unternehmen verfügen möglicherweise nicht über die Mittel für eine Investition in die benötigte Hardware, und genau hier kommen Tuning-Techniken wie PEFT ins Spiel. 

Durch das Eliminieren unnötiger Parameter können Sie die Modelleffizienz erhöhen, ohne Abstriche bei der Genauigkeit zu machen.

Effizientes Fine Tuning von Parametern

PEFT geht strategisch vor, indem es nur eine geringe Anzahl von Parametern modifiziert und den Großteil der Struktur des vortrainierten Modells beibehält. Nachstehend sind einige Beispiele aufgeführt, wie diese Anpassungen erfolgen können:

Einfrieren von Modellschichten: Während der Inferenz werden Berechnungen durch sämtliche Schichten eines neuronalen Netzwerks gesendet. Indem Sie einige dieser Schichten einfrieren, reduzieren Sie die zur Durchführung von Berechnungen erforderliche Rechenleistung. 

Hinzufügen von Adaptern: Stellen Sie sich Adapter wie ein Erweiterungspaket für ein Gesellschaftsspiel vor. Adapter werden auf die Schichten innerhalb des vortrainierten Modells aufgesetzt und für das Lernen domain- oder anwendungsspezifischer Informationen trainiert. In diesem Szenario verändert sich das ursprüngliche Modell nicht, sondern gewinnt neue Fähigkeiten hinzu. 

Es gibt verschiedene Methoden zur Durchführung von PEFT, darunter:

  • LoRA (Low-Rank Adaptation)
  • QLoRA (Quantized Low-Rank Adaptation)
  • Prefix Tuning
  • Prompt Tuning
  • P-Tuning

Mehr über LoRA im Vergleich zu QLoRA erfahren

Fine Tuning ist eine Möglichkeit, einem LLM eine Absicht zu kommunizieren, damit das Modell seine Ausgabe an Ihre Anforderungen anpassen kann.

Nehmen wir folgendes Beispiel: Ein LLM mag in der Lage sein, eine E-Mail im Stil von Shakespeare zu verfassen, aber es weiß nichts über die Details der Produkte, die Ihr Unternehmen liefert.

Um das Modell mit Ihren besonderen Informationen zu trainieren, können Sie Fine Tuning verwenden. 

Beim Fine Tuning handelt es sich um den Trainingsprozess eines bereits vortrainierten Modells mit einem besser angepassten Datensatz, damit es besondere Aufgaben effektiv ausführen kann. Diese zusätzlichen Trainingsdaten ändern die Modellparameter und erstellen eine neue Version, die das ursprüngliche Modell ersetzt.

Fine Tuning ist entscheidend für die Personalisierung eines LLM für einen domainspezifischen Use Case. Traditionelles Fine Tuning hat jedoch seinen Preis. 

Warum ist Fine Tuning teuer?

Die Kosten für das Fine Tuning eines LLM werden von mehreren Faktoren beeinflusst, darunter:

  • GPU-Anforderungen: Fine Tuning erfordert ein hohes Maß an Rechenleistung. GPUs (Graphic Processing Units) sind teuer in der Anschaffung und in der Nutzung, und während des Fine Tunings müssen sie über längere Zeiträume hinweg in Betrieb bleiben. Stromverbrauch und Kühlung können ebenfalls kostspielig sein.
  • Datenbedarf: Die für das Fine Tuning eines LLM mit neuen Informationen benötigten Datensätze müssen von hoher Qualität und ordnungsgemäß gekennzeichnet sein. Die Erfassung, Zusammenstellung und Vorverarbeitung dieser Daten kann sich als kosten- und zeitintensiv erweisen. 

LLM-Ausrichtung bezeichnet den Prozess, bei dem ein Sprachmodell so trainiert und personalisiert wird, dass es die gewünschten Ausgaben erzeugt.

Berücksichtigen Sie bei der Entscheidung zwischen verschiedenen LLM-Ausrichtungstechniken folgende Faktoren:

  • Abhängigkeit von Daten: Wie viele Daten werden benötigt? Haben Sie Zugang zu den Daten, die für das Funktionieren dieser Technik erforderlich sind?
  • Genauigkeit: Wie stark wirkt sich diese Technik auf die Genauigkeit des Modells nach dem Tuning aus?
  • Komplexität für Nutzende: Wie einfach ist die Technik in der Anwendung?

PEFT erfordert im Vergleich zu traditionellem Fine Tuning weniger Daten, erzielt sehr hohe Genauigkeitsraten und ist benutzerfreundlicher. 

Eine weitere zu prüfende Option für die LLM-Ausrichtung ist Retrieval-Augmented Generation (RAG). RAG bietet die Möglichkeit, die in einem LLM vorhandenen Daten durch externe Wissensquellen Ihrer Wahl zu ergänzen, wie etwa Daten-Repositories, Textsammlungen und bestehende Dokumentation. RAG zeichnet sich durch eine starke Abhängigkeit von Daten aus, erzielt jedoch hohe Genauigkeitsraten und ist weniger komplex in der Nutzung als Fine Tuning. 

Mehr über RAG im Vergleich zu Fine Tuning erfahren

Parametereffizientes Fine Tuning ist eine von mehreren Ausrichtungstechniken, die auf Red Hat® OpenShift® AI unterstützt werden.

OpenShift AI ist eine flexible, skalierbare MLOps-Plattform mit Tools zum Entwickeln, Bereitstellen und Verwalten von KI-gestützten Anwendungen. OpenShift AI unterstützt den gesamten Lifecycle von KI/ML-Experimenten und -Modellen, sowohl On-Premise als auch in der Public Cloud.

Mehr über Red Hat OpenShift AI erfahren

Red Hat® AI ist ein Portfolio von Produkten und Services, das Ihr Unternehmen in sämtlichen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie sich noch ganz am Anfang befinden oder bereit sind, KI in Ihrer gesamten Hybrid Cloud zu skalieren. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.

Red Hat AI basiert auf Open Source-Technologien und Partnernetzwerken, die den Fokus auf Performance, Stabilität und GPU-Unterstützung für verschiedene Infrastrukturen legen. Das Portfolio bietet ein effizientes Tuning kleiner Modelle für bestimmte Zwecke und sorgt für Flexibilität beim Deployment, unabhängig davon, wo sich Ihre Daten befinden.

Ressource

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

In diesem Guide für den Einstieg erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die KI-Einführung beschleunigen können.

Red Hat OpenShift AI

Eine KI-Plattform mit Tools zum schnellen Entwickeln, Trainieren, Bereitstellen und Überwachen von Modellen und KI-gestützten Anwendungen.

Weiterlesen

RAG im Vergleich zu Fine Tuning: LLMs optimal anpassen

RAG (Retrieval-Augmented Generation) oder Fine Tuning? Erfahren Sie, welche LLM-Methode für die Anpassung an Ihre Unternehmensdaten am besten geeignet ist.

Was sind Granite-Modelle? Large Language Models für KI

Granite sind LLMs von IBM für Unternehmensanwendungen. Granite-Modelle unterstützen Use Cases für gen KI, die Sprache und Code enthalten. Einsatz und Vorteile

Was ist verteilte Inferenz?

Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird.

Ressourcen zu KI/ML

Verwandte Artikel