Was ist generative KI?
Generative KI ist eine Technologie der künstlichen Intelligenz, die sich auf Deep Learning-Modelle stützt, um neue Inhalte zu erstellen.
Generative KI-Anwendungen können Texte, Bilder, Code und vieles mehr erstellen. Dies geschieht während der KI-Inferenz, der operativen Phase von KI, in der das Modell das im Training Erlernte auf reale Situationen anwenden kann. Zu den üblichen Use Cases für generative KI gehören Chatbots, das Erstellen und Bearbeiten von Bildern, die Unterstützung von Softwarecode und die wissenschaftliche Forschung.
Generative KI wird im beruflichen Umfeld eingesetzt, um kreative Ideen schnell zu visualisieren sowie langweilige und zeitaufwendige Aufgaben effizient zu erledigen. In Bereichen wie der medizinischen Forschung und dem Produktdesign kann generative KI Fachkräfte dabei unterstützen, ihre Arbeit besser und deutlich schneller zu erledigen. Allerdings bringt generative KI auch neue Risiken mit sich, die Nutzende kennen und mindern sollten.
Funktionsweise generativer KI
Wenn Sie sich mit ChatGPT über eine überraschend kohärente Konversation amüsiert oder Midjourney dabei beobachtet haben, wie es ein realistisches Bild nach einer von Ihnen ausgedachten Beschreibung gerendert hat, dann wissen Sie, dass sich generative KI wie Zauberei anfühlen kann. Was steckt dahinter?
Unter den KI-Apps, die Sie verwenden, stellen Deep Learning-Modelle Muster nach, die sie aus einer riesigen Menge von Trainingsdaten gelernt haben. Dann arbeiten sie innerhalb der von Menschen geschaffenen Parameter, um auf der Basis des Gelernten etwas Neues zu schaffen.
Deep Learning-Modelle speichern keine Kopie ihrer Trainingsdaten, sondern eine kodierte Version davon, bei der ähnliche Datenpunkte dicht nebeneinander angeordnet sind. Diese Darstellung kann dann entschlüsselt werden, um neue, ursprüngliche Daten mit ähnlichen Merkmalen zu erstellen.
Das Entwickeln einer benutzerdefinierten generativen KI-App erfordert ein Modell sowie Anpassungen, wie etwa ein von Menschen überwachtes Fine Tuning oder eine für einen Use Case spezifische Datenschicht.
Die meisten der derzeit beliebten generativen KI-Apps reagieren auf Prompts von Nutzenden. Sie beschreiben die gewünschten Informationen in natürlicher Sprache, und die App stellt das Gewünschte wie von Zauberhand her.
Red Hat Ressourcen
Use Cases für generative KI
Die Durchbrüche generativer KI beim Erzeugen von Texten und Bildern sorgen für Schlagzeilen und befeuern die Fantasie vieler Menschen. Im Folgenden sind einige der ersten Use Cases für diese sich schnell entwickelnde Technologie aufgeführt.
Texte: Lanage bevor ChatGPT für Schlagzeilen sorgte (und begann, selbst welche zu schreiben), gelang es generativen KI-Systemen, von Menschen verfasste Texte zu imitieren. Programme zur Sprachübersetzung waren einer der ersten Use Cases für generative KI-Modelle. Aktuelle generative KI-Tools können auf Aufforderungen (Prompts) zum Erstellen hochwertiger Inhalte zu nahezu jedem Thema reagieren. Diese Tools können ihre Texte auch an unterschiedliche Textlängen und verschiedene Schreibstile anpassen
Bilderzeugung: Generative KI-Image Tools können qualitativ hochwertige Bilder als Reaktion auf Prompts für unzählige Themen und Stile synthetisieren. Einige KI-Tools, wie beispielsweise das generative Füllen in Adobe Photoshop, können neue Elemente zu bestehenden Werken hinzufügen.
Erzeugen von Sprache und Musik: Mithilfe von geschriebenem Text und Audiobeispielen der Stimme einer Person können KI-Stimmwerkzeuge gesprochene Sprache oder Gesang erzeugen, die den Klang der Stimme eines echten Menschen nachahmen. Mit anderen Tools kann künstliche Musik aus Prompts oder Samples erzeugt werden.
Erzeugen von Videos: Neue Services experimentieren mit verschiedenen generativen KI-Techniken zur Erzeugung bewegter Grafiken. Einige davon sind in der Lage, ein Standbild mit Ton zu unterlegen und den Mund und den Gesichtsausdruck einer Person zum Sprechen zu bringen.
Codegenerierung und -vervollständigung: Manche generative KI-Tools können einen schriftlichen Prompt entgegennehmen und auf Wunsch Computercode ausgeben, um Softwareentwicklungsteams zu unterstützen.
Data Augmentation: Generative KI kann eine große Menge synthetischer Daten erzeugen, wenn die Verwendung echter Daten unmöglich oder nicht wünschenswert ist. Synthetische Daten können beispielsweise nützlich sein, wenn Sie ein Modell trainieren möchten, um Daten aus dem Gesundheitswesen zu interpretieren, ohne dabei personenbezogene Daten einzubeziehen. Damit können auch kleine oder unvollständige Datensätze zu einem größeren Satz synthetischer Daten für Trainings- oder Testzwecke erweitert werden.
Agentische KI: Agentische KI und generative KI arbeiten zusammen. Agentische KI-Systeme können gen KI verwenden, um mit Nutzenden zu kommunizieren, unabhängig Inhalte als Teil eines übergeordneten Ziels zu erstellen oder mit externen Tools zu kommunizieren. Mit anderen Worten: Gen KI ist ein kritischer Teil des „kognitiven“ Prozesses agentischer KI.
Was ist Deep Learning?
Deep Learning macht generative KI erst möglich und ist eine maschinelle Lerntechnik zur Analyse und Interpretation großer Datenmengen. Auch bekannt unter den Begriffen „Deep Neural Learning“ oder „Deep Neural Networking“, lernen Computer, Wissen durch Beobachtung zu erwerben. Sie imitieren also die Art und Weise, wie wir Menschen uns Wissen aneignen. Deep Learning ist ein entscheidendes Konzept für das Anwenden von Computern beim Verstehen menschlicher Sprache oder bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).
Wir können uns Deep Learning als eine Art Flussdiagramm vorstellen, das mit einer Eingabeschicht beginnt und mit einer Ausgabeschicht endet. Zwischen diesen beiden Schichten befinden sich sogenannte „verborgene Schichten“, die Informationen auf unterschiedlichen Ebenen verarbeiten und dabei ihr Verhalten mit dem Empfang neuer Daten kontinuierlich anpassen. DL-Modelle können Hunderte von verborgenen Schichten aufweisen, die beim Entdecken von Zusammenhängen und Mustern innerhalb des Datensatzes eine Rolle spielen.
In der aus mehreren Knoten bestehenden Eingabeschicht werden Daten in das Modell eingeführt, kategorisiert und anschließend in die nächste Schicht verschoben. Der Weg der Daten durch die verschiedenen Schichten basiert dabei auf den Berechnungen, die für die einzelnen Knoten festgelegt wurden. Während die Daten so sämtliche Schichten durchlaufen, beziehen sie Beobachtungen mit ein, die schließlich die Ausgabe – die finale Analyse – der Daten bilden.
Eine Technologie, die den Fortschritt des Deep Learnings beschleunigt hat, ist die GPU (Graphics Processing Unit). GPUs wurden ursprünglich entwickelt, um das Rendering von Videospielgrafiken zu beschleunigen. Als effiziente Methode für das parallele Ausführen von Berechnungen haben sich GPUs jedoch für DL-Workloads als sehr geeignet erwiesen.
Die Durchbrüche bei der Größe und Geschwindigkeit von DL-Modellen haben unmittelbar zu der aktuellen Welle bahnbrechender generativer KI-Anwendungen geführt.
Was ist ein neuronales Netzwerk?
Ein neuronales Netzwerk ist eine Art der Informationsverarbeitung, die biologische neuronale Systeme, wie etwa die Verbindungen im menschlichen Gehirn, nachahmt. So kann die KI Verbindungen zwischen scheinbar nicht zusammenhängenden Informationsmengen herstellen. Das Konzept des neuronalen Netzwerks hängt eng mit Deep Learning zusammen.
Wie nutzt ein Deep Learning-Modell das Konzept des neuronalen Netzwerks, um Datenpunkte zu verbinden? Beginnen wir mit der Funktionsweise des menschlichen Gehirns. In unserem Gehirn finden sich viele miteinander vernetzte Neuronen, die als Boten für Informationen fungieren, wenn das Gehirn eingehende Daten verarbeitet. Neuronen nutzen elektrische Impulse und chemische Signale, um miteinander zu kommunizieren und Informationen zwischen den unterschiedlichen Bereichen des Gehirns zu übertragen.
Ein Artificial Neural Network (ANN) basiert auf diesem biologischen Phänomen, besteht aber aus künstlichen Neuronen, die aus Softwaremodulen, den so genannten Knoten, zusammengesetzt sind. Anders als das Gehirn, das chemische Signale nutzt, kommunizieren und übermitteln diese Knoten Informationen mithilfe mathematischer Berechnungen. Dieses simulierte neuronale Netz (Simulated Neural Network, SNN) verarbeitet Daten, indem es Datenpunkte in Cluster gruppiert und Vorhersagen trifft.
Verschiedene neuronale Netztechniken eignen sich für unterschiedliche Arten von Daten. Ein rekurrentes neuronales Netz (Recurrent Neural Network, RNN) ist ein Modell, das sequentielle Daten verwendet, beispielsweise durch das Lernen von Wörtern in einer bestimmten Reihenfolge, um Sprache zu verarbeiten.
Basierend auf der Idee des RNN sind Transformer eine spezielle Art von neuronaler Netzwerkarchitektur, die Sprache schneller verarbeiten kann. Die Transformer erlernen die Beziehungen zwischen den Wörtern in einem Satz, was im Vergleich zu RNNs, die Wörter in sequenzieller Reihenfolge aufnehmen, ein effizienterer Prozess ist.
Ein Large Language Model (LLM) ist ein Deep Learning-Modell, das durch das Anwenden von Transformern auf einen großen Satz generalisierter Daten trainiert wird. LLMs ermöglichen viele der beliebten KI-Chat- und Text-Tools.
Eine weitere Deep Learning-Technik, das Diffusionsmodell, eignet sich nachweislich gut für die Bilderzeugung. Diffusionsmodelle lernen den Prozess, der ein natürliches Bild in ein unscharfes visuelles Raster verwandelt Generative Image Tools kehren diesen Prozess um: Sie beginnen mit einem zufälligen Rastermuster und verfeinern es, bis es einem realistischen Bild ähnelt.
Deep Learning-Modelle können durch Parameter beschrieben werden. Ein einfaches Kreditprognosemodell, das anhand von 10 Eingaben aus einem Kreditantragsformular trainiert wurde, hätte 10 Parameter. Im Gegensatz dazu kann ein LLM über Milliarden von Parametern verfügen. Generative Pre-trained Transformer 4 (GPT-4) von OpenAI, eines der Basismodelle für ChatGPT, hat Berichten zufolge 1 Billion Parameter.
Was ist ein Basismodell?
Ein Basismodell ist ein Deep Learning-Modell, das mit einer großen Menge allgemeiner Daten trainiert wurde. Einmal trainiert, können Basismodelle für spezielle Use Cases weiterentwickelt werden. Wie der Name schon sagt, können diese Modelle die Basis für viele verschiedene Anwendungen bilden.
Das Entwickeln eines neuen Basismodells ist heutzutage ein umfangreiches Projekt. Für diesen Prozess sind enorme Mengen an Trainingsdaten erforderlich, die in der Regel aus dem Internet, digitalen Libraries mit Büchern, Datenbanken mit wissenschaftlichen Artikeln, Bildsammlungen oder anderen großen Datensätzen stammen. Das Trainieren eines Modells anhand dieser Datenmenge erfordert eine immense Infrastruktur, einschließlich des Aufbaus oder des Leasings einer GPU-Cloud. Die bisher größten Basismodelle sollen in ihrer Entwicklung Hunderte von Millionen Dollar gekostet haben.
Aufgrund des hohen Arbeitsaufwands, der für das Trainieren eines Basismodells von Grund auf erforderlich ist, ist es üblich, auf Modelle zurückzugreifen, die von Dritten trainiert wurden, und dann Anpassungen vorzunehmen. Dabei gibt es verschiedene Methoden, um ein Basismodell anzupassen. Dazu gehören Fine Tuning, Prompt Tuning sowie das Hinzufügen kunden- oder domainspezifischer Daten. Beispielsweise werden die Basismodelle der Granite-Familie von IBM anhand kuratierter Daten trainiert und bieten dabei Transparenz bezüglich der verwendeten Trainingsdaten.
Was ist Fine Tuning?
Beim Fine Tuning handelt es sich um den Trainingsprozess eines bereits vortrainierten Modells mit einem besser angepassten Datensatz, damit es besondere Aufgaben effektiv ausführen kann. Diese zusätzlichen Trainingsdaten ändern die Modellparameter und erstellen eine neue Version, die das ursprüngliche Modell ersetzt.
Für das Fine Tuning werden in der Regel deutlich weniger Daten und Zeit benötigt als für das erste Training. Das traditionelle Fine Tuning ist aber weiterhin ein rechenintensiver Prozess.
Parametereffizientes Fine Tuning (PEFT) umfasst eine Reihe von Techniken, die nur einen Teil der Parameter innerhalb eines LLM anpassen, um Ressourcen zu sparen. Stellen Sie sich PEFT als eine Weiterentwicklung des traditionellen Fine Tunings vor.
Sowohl LoRA (Low-Rank Adaptation) als auch QLoRA (Quantized Low-Rank Adaptation) sind Techniken zum Trainieren von KI-Modellen. LoRA und QLoRA tragen zu einem effizienteren Fine Tuning von LLMs bei, unterscheiden sich aber durch ihre Methoden der Modellmanipulation und der Storage-Nutzung, um die gewünschten Ergebnisse zu erzielen.
Was ist Retrieval-Augmented Generation?
Mit Retrieval-Augmented Generation (RAG) können Sie bessere Antworten von einer generativen KI-Anwendung erhalten, da ein Large Language Model (LLM) mit einer externen Ressource verbunden wird.
Wenn Sie eine RAG-Architektur in ein LLM-basiertes Frage-Antwort-System (wie etwa einen Chatbot) implementieren, ermöglichen Sie die Kommunikation zwischen dem LLM und den von Ihnen gewählten zusätzlichen Wissensquellen. Das erlaubt dem LLM, Querverweise zu ziehen und sein internes Wissen zu ergänzen. So bietet es Nutzenden eine zuverlässigere und genauere Ausgabe zu ihrer Abfrage.
Geschwindigkeit, Skalierbarkeit und Einsparungen
Mit der zunehmenden Perfektionierung generativer KI-Modelle nehmen diese auch an Umfang zu. Manche LLMs können Hunderte von Milliarden von Parametern umfassen. Parameter bestimmen das Sprachverständnis eines LLM. Je mehr Parameter ein Modell aufweist, desto komplexer und genauer sind die Aufgaben, die es ausführen kann. Allerdings erfordern mehr Parameter auch mehr Rechenleistung.
Statt weitere GPUs hinzuzufügen (was kostspielig sein kann), können Sie Techniken wie vLLM und llm-d nutzen, um die Verarbeitung auf Ihrer vorhandenen Hardware effizienter zu gestalten.
- vLLM ist ein Inferenzserver, der den Output von gen KI-Anwendungen mithilfe einer effizienteren Nutzung des GPU-Speichers beschleunigt.
- llm-d ist ein Kubernetes-natives Open Source Framework, das die verteilte Inferenz in großem Umfang beschleunigt. Beide sind darauf ausgelegt, die Anforderungen großer generativer KI-Modelle zu erfüllen, indem sie sich auf die Performance-Optimierung konzentrieren.
Was sind die Risiken generativer KI?
Die generative KI-Technologie hat sich in kurzer Zeit stark weiterentwickelt und einen großen Hype ausgelöst, sowohl in positiver als auch in negativer Hinsicht. Die Vor- und Nachteile dieser Technologie sind noch nicht vollständig bekannt. Im Folgenden werfen wir einen kurzen Blick auf einige wichtige Bedenken gegenüber generativer KI.
Mögliche Schädigung: Es besteht die unmittelbare und offensichtliche Gefahr, dass Kriminelle generative KI-Tools für böswillige Zwecke einsetzen, beispielsweise für groß angelegte Desinformationskampagnen in den sozialen Medien oder für nicht berechtigte Deepfake-Bilder, die auf echte Menschen abzielen.
Verstärkung schädlicher gesellschaftlicher Vorurteile: Es hat sich gezeigt, dass generative KI-Tools die in den Trainingsdaten enthaltenen menschlichen Vorurteile, einschließlich schädlicher Stereotypen und Hassreden, übernehmen und wiedergeben.
Angabe von Falschinformationen: Generative KI-Tools können erfundene und schlichtweg falsche Informationen und Szenen produzieren, die manchmal als „Halluzinationen“ bezeichnet werden. Manche Fehler in den generierten Inhalten sind harmlos, beispielsweise eine unsinnige Antwort auf eine Chat-Frage oder ein Bild einer menschlichen Hand mit zu vielen Fingern. Doch auch schwerwiegende Fälle, in denen die KI versagt hat, haben sich ereignet, wie etwa im Fall eines Chatbots, der Personen, die Fragen zu Essstörungen stellten, schädliche Ratschläge gab.
Sicherheits- und rechtliche Risiken: Generative KI-Systeme können Sicherheitsrisiken darstellen, unter anderem durch die Eingabe sensibler Daten durch Nutzende in Apps, die nicht entsprechend sicher konzipiert wurden. Antworten generativer KI können rechtliche Risiken bergen, indem sie urheberrechtlich geschützte Inhalte reproduzieren oder sich die Stimme oder Identität einer realen Person ohne deren Zustimmung aneignen. Außerdem können einige generative KI-Tools Nutzungsbeschränkungen unterliegen.
Nicht erklärbare Ausgaben: Manchmal ist ein KI-Modell zu komplex, um von Menschen verstanden oder interpretiert werden zu können – man nennt das auch Black Box-Modell. Black Box-Modelle können zu schwerwiegenden Folgen führen, wenn sie für Entscheidungsprozesse mit hoher Tragweite genutzt werden, insbesondere in risikoreichen Branchen wie etwa Gesundheitswesen, Transportwesen, Sicherheit, Militär, Justiz, Luft- und Raumfahrt, Strafrecht oder Finanzwesen. Um dieses Problem zu lösen, können XAI-Techniken (erklärbare KI) im gesamten ML-Lifecycle angewendet werden, um die Ergebnisse für den Menschen transparenter und verständlicher zu machen.
Wie Red Hat helfen kann
Red Hat AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen bei den einzelnen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.
Mit Red Hat AI erhalten Sie Zugriff auf Red Hat® AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.
Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Kollektion validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz ermöglicht. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeit verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.
Der offizielle Red Hat Blog
Lernen Sie mehr über unser Ökosystem von Kunden, Partnern und Communities und erfahren Sie das Neueste zu Themen wie Automatisierung, Hybrid Cloud, KI und mehr.