Was sind LLMOps?

URL kopieren

Große Sprachmodelle (Large Language Models, LLMs) sind ML-Modelle (Maschinelles Lernen), die menschliche Sprache verstehen und erzeugen können.LLMs wie GPT-3, LLaMA und Falcon sind Tools, die aus Daten lernen, um Wörter und Sätze zu produzieren. Da sich diese Tools ständig weiterentwickeln, benötigen Unternehmen Best Practices für die Nutzung dieser Modelle.Hier kommen LLMOps ins Spiel.

Large Language Model Operations (LLMOps) sind operative Methoden zum Verwalten großer Sprachmodelle. Mit LLMOps wird der Lifecycle von LLMs verwaltet und automatisiert, vom Fine Tuning bis zur Wartung, und Entwicklungs- und andere Teams werden beim Bereitstellen, Überwachen und Verwalten von LLMs unterstützt.

Wenn LLMs ein Teilbereich von ML-Modellen sind, dann ist LLMOps ein großes Sprachmodell, das Machine Learning Operations (MLOps) entspricht. MLOps besteht aus mehreren Workflow-Praktiken mit dem Ziel, Bereitstellung und Wartung von ML-Modellen zu optimieren. Mit MLOps soll die Integration von ML-Modellen in die Softwareentwicklung kontinuierlich weiterentwickelt werden. In ähnlicher Weise zielt LLMOps darauf ab, den Lifecycle der LLM-Entwicklung und -Bereitstellung kontinuierlich zu erproben, zu iterieren, einzusetzen und zu verbessern.

Auch wenn LLMOps und MLOps Ähnlichkeiten aufweisen, gibt es dennoch Unterschiede. Dazu gehören:

Lernen: Traditionelle ML-Modelle werden in der Regel von Grund auf erstellt oder trainiert, während LLMs von einem Basismodell ausgehen und anhand von Daten optimiert werden, um die Performance von Aufgaben zu verbessern.

Tuning: Bei LLMs verbessert das Fine Tuning die Performance und erhöht die Genauigkeit, sodass das Modell mehr Kenntnisse über ein bestimmtes Thema hat. Durch Prompt Tuning können LLMs eine bessere Performance bei bestimmten Aufgaben erzielen. Ein weiterer Unterschied ist das Hyperparameter Tuning. Bei traditionellem ML konzentriert sich das Tuning auf die Verbesserung der Genauigkeit. Bei LLMs ist das Tuning sowohl für die Genauigkeit als auch für das Senken der Kosten und der für das Training benötigten Energiemenge wichtig. Beide Modelle profitieren vom Tuning-Prozess, allerdings mit unterschiedlichen Schwerpunkten. Abschließend muss noch der RAG-Prozess (Retrieval-Augmented Generation) erwähnt werden, bei dem externes Wissen genutzt wird, um sicherzustellen, dass das LLM genaue und spezifische Fakten erfasst, um bessere Antworten zu produzieren.

Feedback: Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Verbesserung beim Training von LLMs. Das menschliche Feedback ist entscheidend für die Performance eines LLM. LLMs verwenden Feedback, um die Genauigkeit zu bewerten, während traditionelle ML-Modelle spezifische Metriken für die Genauigkeit verwenden.

Performance-Metriken: ML-Modelle haben präzise Performance-Metriken, aber LLMs verfügen über andere Metriken, wie etwa BLEU (Bilingual Evaluation Understudy) und ROUGE (Recall-Oriented Understudy for Gisting Evaluation), die eine komplexere Auswertung erfordern.

LLMOps bietet als optimale Methode zum Überwachen und Verbessern der Performance 3 wichtige Vorteile:

Effizienz: Mit LLMOps können Teams Modelle schneller entwickeln, die Modellqualität verbessern und schnell bereitstellen. Mit einem optimierten Managementansatz können Teams besser auf einer Plattform zusammenarbeiten, die Kommunikation, Entwicklung und Deployment fördert.

Skalierbarkeit: LLMOps ermöglicht besseres Skalieren und Verwalten, da mehrere Modelle für CI/CD (Continuous Integration und Continuous Delivery/Deployment) gemanagt und überwacht werden können. LLMOps bietet auch ein schnelleres Benutzererlebnis durch verbesserte Datenkommunikation und Reaktion. 

Risikominderung: LLMOps fördert mehr Transparenz und sorgt für bessere Compliance mit Unternehmens- und Branchenrichtlinien.LLMOps können die Sicherheit und den Datenschutz verbessern, indem sie sensible Informationen schützen und Risiken vorbeugen.

Es gibt mehrere Use Cases für LLMOps.

CI/CD (Continuous Integration/Continuous Delivery): Mit CI/CD soll der Lifecycle der Modellentwicklung optimiert, beschleunigt und automatisiert werden. Damit entfällt die Notwendigkeit für menschliche Eingriffe, um neuen Code zu erhalten, was zu kürzeren Ausfallzeiten und schnelleren Code-Releases führt. Tools wie Tekton, auf dem Red Hat OpenShift Pipelines basiert, unterstützen die Workflows von Entwicklungsteams durch Automatisieren von Deployments auf mehreren Plattformen.

Datenerfassung, Kennzeichnung, Speicherung: Bei der Datenerfassung werden verschiedene Quellen genutzt, um genaue Informationen zu erhalten. Bei der Datenkennzeichnung werden Daten kategorisiert. Bei der Datenspeicherung werden digitale Informationen, die mit einem Netzwerk verbunden sind, erfasst und gespeichert.

Fine Tuning, Inferenz und Überwachung von Modellen: Das Fine Tuning optimiert die Modelle, um domainspezifische Aufgaben zu erfüllen. Die Modellinferenz kann die Produktion auf der Basis des vorhandenen Wissens steuern und die Maßnahmen auf der Grundlage der abgeleiteten Informationen durchführen. Die Modellüberwachung, einschließlich des menschlichen Feedbacks, erfasst und speichert Daten über das Modellverhalten, um mehr über das Modellverhalten bei realen Produktionsdaten zu erfahren.

Es gibt mehrere Phasen oder Komponenten von LLMOps und für die einzelnen Phasen und Komponenten jeweils Best Practices:

Explorative Datenanalyse (EDA): Der Prüfungsprozess von Daten zur Vorbereitung des ML-Lifecycle durch das Erstellen von Datensätzen.

  • Datenerfassung: Im ersten Schritt werden Daten aus verschiedenen Quellen wie Code-Archiven und sozialen Netzwerken gesammelt, um das LLM zu trainieren.
  • Datenbereinigung: Nach der Datenerfassung müssen die Daten überprüft und für das Training vorbereitet werden. Dazu gehören das Entfernen von Fehlern, das Korrigieren von Inkonsistenzen und das Entfernen von Datenduplikaten.
  • Datenexploration: Der nächste Schritt besteht darin, die Daten zu explorieren, um ihre Eigenschaften besser zu verstehen, einschließlich der Identifizierung von Ausreißern und der Erkennung von Mustern.

Datenvorbereitung und Prompt Engineering: Der Prozess der gemeinsamen Nutzung zugänglicher Daten durch die Teams und die Entwicklung von Prompts für LLMs.

  • Datenaufbereitung: Die Daten zum Trainieren eines LLM werden auf verschiedene Weise aufbereitet, einschließlich der Zusammenfassung und Auswertung der erfassten Daten.
  • Prompt Engineering: Das Erstellen von Prompts, die für Texte verwendet werden, damit LLMs den gewünschten Output erzeugen.

Fine Tuning des Modells: Die Verwendung gängiger Open Source Libraries wie Hugging Face Transformers dient dem Fine Tuning und der Verbesserung der Modell-Performance.

  • Modelltraining: Nach der Aufbereitung der Daten wird das LLM mit Hilfe eines ML-Algorithmus trainiert oder feinabgestimmt, um die Datenmuster zu erkennen.
  • Modellbewertung: Nach dem Training muss das LLM evaluiert werden, um seine Performance zu überprüfen. Dazu wird ein Datensatz verwendet, der nicht zum Training des LLM verwendet wurde.
  • Fine Tuning des Modells: Wenn das LLM nicht gut funktioniert, kann ein Fine Tuning vorgenommen werden. Dabei werden die Parameter des LLM verändert, um seine Performance zu verbessern.

Modellüberprüfung und -Governance: Der Prozess des Ermittelns, Teilens und der Zusammenarbeit bei ML-Modellen mithilfe einer quelloffenen MLOps-Plattform wie Kubeflow.

  • Modellüberprüfung: Nach dem Fine Tuning muss die Sicherheit und Zuverlässigkeit des LLM überprüft werden, d. h. es muss auf Verzerrungen und Sicherheitsrisiken geprüft werden.
  • Modell-Governance: Modell-Governance ist der Verwaltungsprozess des LLM während seines gesamten Lifecycles. Dazu gehören das Verfolgen seiner Performance, das Vornehmen von Änderungen bei Bedarf und das Stilllegen des Modells, wenn es nicht mehr benötigt wird.

Modellinferenz und -bereitstellung: Die Verwaltung von Produktionsdetails wie etwa die Häufigkeit der Aktualisierung eines Modells oder die Anfragezeiten. 

  • Modellbereitstellung: Sobald das LLM geprüft und genehmigt wurde, kann es in der Produktion eingesetzt werden, indem es über eine API (Application Programming Interface) zur Verfügung gestellt wird.
  • Modellinferenz: Die API kann von einer Anwendung abgefragt werden, um Text zu generieren oder Fragen zu beantworten. Dies kann auf verschiedene Weise geschehen, etwa über eine REST-API oder eine Webanwendung.

Modellüberwachung mit menschlichem Feedback: Das Erstellen von Modellen und das Überwachen von abweichendem oder negativem Benutzerverhalten.

  • Modellüberwachung: Nach dem Deployment muss das LLM überwacht werden, damit die erwartete Performance gewährleistet ist. Dazu gehören das Überwachen der Performance, das Erkennen von Problemen und das Vornehmen von Änderungen bei Bedarf.
  • Menschliches Feedback: Dies dient zur Verbesserung der LLM-Perfomance und kann durch Feedback zu dem vom LLM generierten Text oder durch die Erkennung von Problemen mit der LLM-Performance erfolgen.

Eine LLMOps-Plattform bietet Entwicklungs- und anderen Teams eine Umgebung, mit der sich die Zusammenarbeit durch Datenanalyse, Experimentverfolgung, Prompt Engineering und LLM-Verwaltung fördern lässt. Außerdem bietet sie gemanagte Modellübergänge, -bereitstellung und -überwachung für LLMs.Durch besseres Library Management unterstützt die Plattform die Senkung der Betriebskosten und reduziert den Bedarf an hochqualifizierten technischen Teammitgliedern, die Aufgaben wie Datenvorverarbeitung, Modellüberwachung und Deployment ausführen.

Als branchenführende Hybrid Cloud-Anwendungsplattform auf Basis von Kubernetes beschleunigt Red Hat® OpenShift® das Rollout von KI-gestützten Anwendungen in Hybrid Cloud-Umgebungen, vom Rechenzentrum über den Netzwerkrand bis hin zu mehreren Clouds.

Mit Red Hat OpenShift können Unternehmen den iterativen Prozess der Integration von Modellen in Softwareentwicklungsprozesse, Produktions-Rollout, Überwachung, erneutes Training und erneute Bereitstellung für kontinuierliche Vorhersagegenauigkeit automatisieren und vereinfachen.

Red Hat OpenShift AI ist eine flexible, skalierbare MLOps-Plattform mit Tools zum Entwickeln, Bereitstellen und Verwalten von KI-gestützten Anwendungen. Sie ermöglicht Data Scientists und Anwendungsentwicklungsteams, die Integration von künstlicher Intelligenz (KI) in Anwendungen sicher, konsistent und in großem Umfang zu vereinfachen. OpenShift AI bietet Tools, die den gesamten Lifecycle von KI/ML-Experimenten und -Modellen unterstützen, sowohl On-Premise als auch in der Public Cloud.

Durch die Kombination der Funktionen von Red Hat OpenShift AI und Red Hat OpenShift in einer einzigen unternehmensfähigen KI-Anwendungsplattform können Teams in einer zentralen kollaborativen Umgebung zusammenarbeiten, die Konsistenz, Sicherheit und Skalierbarkeit fördert.

Neu

InstructLab

InstructLab ist ein Open Source-Projekt zur Verbesserung von großen Sprachmodellen (LLM).

Mehr zu KI/ML

Produkte

Neu

Eine Plattform für Basismodelle, mit der Sie Unternehmensanwendungen mithilfe von großen Sprachmodellen (LLM) der Granite-Familie nahtlos entwickeln, testen und bereitstellen können.

Ein auf KI fokussiertes Portfolio, das Tools zum Trainieren, Tuning, Bereitstellen, Überwachen und Managen von KI/ML-Experimenten und -Modellen auf Red Hat OpenShift bietet.

Eine Plattform, die es Ihnen ermöglicht, Unternehmensanwendungen schnell und effizient über die von Ihnen gewünschte Infrastruktur bereitzustellen. 

Red Hat Ansible Lightspeed mit IBM watsonx Code Assistant ist ein generativer KI-Service, der von und für Teams aus dem Bereich Automatisierung, Operations und Entwicklung für Ansible konzipiert wurde. 

Ressourcen

E-Book

Wichtige Überlegungen beim Aufbau einer produktionsbereiten KI/ML-Umgebung

Analystenreport

Total Economic Impact™ der Red Hat Hybrid Cloud-Plattform für MLOps

Webinar

Mit Open Source und Kubernetes den größtmöglichen Nutzen aus KI ziehen