LLMs im Vergleich zu SLMs
Large Language Models (LLMs) und Small Language Models (SLMs) sind KI-Systeme, die darauf trainiert werden, menschliche Sprache, einschließlich Programmiersprachen, zu interpretieren. Sie unterscheiden sich in der Regel in der Größe der Datensätze, mit denen sie trainiert werden, in den verschiedenen Prozessen, die zum Trainieren dieser Datensätze verwendet werden, und in den Kosten bzw. dem Nutzen für den Einstieg in verschiedene Use Cases.
Wie ihre Namen schon andeuten, werden sowohl LLMs als auch SLMs auf Datensätzen trainiert, die aus Sprache bestehen, was sie von Modellen unterscheidet, die auf Bildern (wie etwa DALL·E) oder Videos (wie Sora) trainiert werden. Zu den sprachbasierten Datensätzen gehören beispielsweise Texte auf Webseiten, Entwicklungscode, E-Mails und Anleitungen.
Eine der bekanntesten Anwendungen von SLMs und LLMs ist generative KI (gen KI), die – daher der Name – nicht geschriebene Inhaltsantworten auf viele verschiedene, unvorhersehbare Abfragen generieren kann. Insbesondere LLMs sind in der breiten Öffentlichkeit dank des Basismodells GPT-4 und ChatGPT bekannt geworden, einem dialogorientierten Chatbot, der mithilfe von riesigen Datensätzen und Billionen von Parametern trainiert wurde, um auf eine Vielzahl menschlicher Anfragen zu reagieren. Obwohl gen KI beliebt ist, gibt es auch nicht-generative Anwendungen von LLMs und SLMs, wie beispielsweise prädiktive KI.
LLMs und SLMs werden in der Regel auf unterschiedlichen Datensätzen trainiert.
Der Umfang von GPT-4/ChatGPT ist ein hervorragendes Beispiel dafür, dass es einen allgemeinen Unterschied zwischen LLMs und SLMs gibt: die Datensätze, auf denen sie trainiert werden.
LLMs sind normalerweise darauf ausgelegt, menschliche Intelligenz auf umfassender Ebene nachzuahmen, und werden daher mit einer Vielzahl großer Datensätze trainiert. Im Fall von GPT-4/ChatGPT umfasst dies das gesamte öffentliche Internet (!) bis zu einem bestimmten Datum. Genau deshalb hat ChatGPT einen schlechten Ruf erlangt, weil es eine so große Bandbreite von Anfragen von Durchschnittsnutzenden interpretiert und beantwortet. Das ist jedoch auch der Grund, warum es manchmal wegen potenziell falscher Antworten, die umgangssprachlich als „Halluzinationen“ bezeichnet werden, Aufmerksamkeit erregt hat: es fehlt das Fine Tuning und domainspezifische Training, um auf branchen- oder nischenspezifische Anfragen präzise zu antworten.
SLMs hingegen werden in der Regel anhand kleinerer Datensätze trainiert, die auf bestimmte Branchenbereiche (also Fachgebiete) zugeschnitten sind. Beispielsweise könnte ein Gesundheitsdienstleister einen SLM-gestützten Chatbot verwenden, der auf medizinischen Datensätzen trainiert wurde. Dieser könnte domainspezifisches Wissen in die nicht fachkundigen Anfragen der einzelnen Nutzenden bezüglich ihrer Gesundheit einfließen lassen und so die Qualität der Frage und Antwort verbessern. In einem solchen Fall muss der SLM-gestützte Chatbot nicht anhand des gesamten Internets trainiert werden – also anhand sämtlicher Blog-Beiträge, fiktionaler Romane oder Gedichte, die jemals geschrieben wurden, da dies für den Use Case im Gesundheitswesen irrelevant ist.
Zusammengefasst zeichnen sich SLMs in der Regel durch besondere Fachgebiete aus, haben aber im Vergleich zu LLMs Schwierigkeiten in Bezug auf Allgemeinwissen und das Verständnis von Zusammenhängen.
Red Hat Ressourcen
SLMs und LLMs haben unterschiedliche Trainingsabläufe
Größe und Umfang der Datensätze sind nicht der einzige Faktor bei der Unterscheidung zwischen SLMs und LLMs. Ein Modell kann auch dann als SLM gelten, wenn es mit denselben Datensätzen wie ein LLM trainiert wurde. Das liegt daran, dass die Trainingsparameter und der Gesamtprozess und nicht nur die Datenmenge Teil der Definition der Modelle sind. Mit anderen Worten: Es ist nicht nur wichtig, mit wie vielen Daten ein Modell trainiert wurde, sondern auch, was es aus diesen Daten lernen soll.
Parameter
Beim maschinellen Lernen sind Parameter interne Variablen, die bestimmen, welche Vorhersagen ein Modell trifft. Mit anderen Worten: Modelle entscheiden anhand von Parametern, was mit dem Rohmaterial des Datensatzes geschieht. Während des Trainings passt ein KI-Modell seine Parameter kontinuierlich an, um die Vorhersagen zu verbessern. Dies ist vergleichbar mit dem Drehen eines Knopfes am Radio, um den richtigen Sender zu finden. Abgesehen von der Gesamtanzahl der Parameter spielen in diesem äußerst komplizierten Prozess noch weitere Faktoren eine Rolle, beispielsweise die Art und Weise, wie die Parameter in einem Modell geschichtet werden, wie sie gegeneinander gewichtet werden und wie sie für die Erkennung von Mustern im Gegensatz zum einfachen Auswendiglernen optimiert werden.
In der Branche gibt es keine eindeutige Definition dafür, wie viele Parameter einem SLM im Vergleich zu einem LLM entsprechen. Relevant ist vielmehr, dass SLMs in der Regel weit weniger Parameter enthalten als LLMs, da ihre Use Cases stärker auf bestimmte Wissensbereiche ausgerichtet sind. Das LLM GPT-4/ChatGPT wurde angeblich mit Billionen von Parametern trainiert, sodass es auf nahezu jegliche Benutzereingabe reagieren kann. Hier ist jedoch zu erwähnen, dass GPT-4 ein Beispiel für ein besonders großes LLM ist. Es gibt viele Beispiele für kleinere LLMs (nicht ganz SLMs), wie die quelloffenen Granite-Modelle von IBM, die zwischen 3 und 35 Milliarden Parameter umfassen. SLMs verfügen in der Regel über weniger Parameter (die manchmal immer noch in die Milliarden gehen), weil die erwarteten Anwendungen viel enger gefasst sind.
Fine Tuning
Das Fine Tuning ist ein weiterer Aspekt des Modelltrainings, der SLMs und LLMs unterscheidet. Dabei handelt es sich um den Prozess der Anpassung und Aktualisierung eines vortrainierten Modells mit neuen Daten. Mittels Fine Tuning wird für gewöhnlich ein bereits trainiertes Modell an einen bestimmten Use Case angepasst. Dabei werden neue Datensätze eingeführt und so getestet, ob die bestehenden Parameter in einem neuen Kontext noch akzeptable Ergebnisse liefern. Im Allgemeinen ist das Fine Tuning umso schwieriger, zeitaufwendiger und ressourcenintensiver, je mehr Parameter ein Modell enthält. Daher erfordern LLMs einen größeren Aufwand als SLMs.
Neben Parametern und Fine Tuning unterscheiden sich SLMs und LLMs in der Regel auch in Bezug auf die Art und Komplexität ihres Trainings. Das Verständnis der verschiedenen Arten des Modelltrainings, wie „Selbstbeobachtungsmechanismen“ oder „Encoder-Decoder-Modellschemata“, erfordert ein hohes Maß an Fachwissen. Ein wesentlicher Unterschied zwischen dem Training von SLMs und LLMs besteht darin, dass SLMs in der Regel ressourceneffizientere und eher auf bestimmte Use Cases ausgerichtete Ansätze verfolgen als ihre LLM-Pendants.
Voreingenommenheit:
Obwohl jedes KI-Modell bis zu einem gewissen Grad einem Fine Tuning unterzogen wird, ist eine Abstimmung auf alle möglichen Schlussfolgerungen aufgrund des Umfangs der meisten LLMs unmöglich. LLMs werden in der Regel auch mit offen zugänglichen Datensätzen wie dem Internet trainiert, während für SLMs oft branchen- oder unternehmensspezifische Datensätze verwendet werden. Dies kann zu Verzerrungen führen, wie zu einer Unterrepräsentation oder Falschdarstellung bestimmter Gruppen und Ideen oder zu sachlichen Ungenauigkeiten. Da es sich bei LLMs und SLMs um Sprachmodelle handelt, können sie auch sprachliche Verzerrungen aufgrund von Dialekten, geografischer Lage und Grammatik aufweisen.
Kurz gesagt kann jedes Sprachmodell Verzerrungen aufweisen, aber insbesondere LLMs bieten aufgrund ihres Umfangs mehr Möglichkeiten für Verzerrungen. Mit den auf kleineren Datensätzen trainierten SLMs lassen sich die unweigerlich auftretenden Verzerrungen leichter abschwächen.
LLMs und SLMs benötigen unterschiedliche Ressourcen
Das Training eines Modells für einen geschäftlichen Use Case, ob LLM oder SLM, ist ein ressourcenintensiver Prozess. Das Training von LLMs ist jedoch besonders ressourcenintensiv. Bei GPT-4 liefen insgesamt 25.000 NVIDIA A100-GPUs gleichzeitig und kontinuierlich für 90–100 Tage. Auch hier ist GPT-4 eines der umfangreichsten Modelle im LLM-Spektrum. Andere LLMs wie Granite erforderten nicht so viele Ressourcen. Für das Training eines SLM sind zwar immer noch erhebliche Rechenressourcen erforderlich, aber weit weniger als für ein LLM.
Ressourcenbedarf für Training im Vergleich zu Inferenz
Wichtig ist auch der Unterschied zwischen Modelltraining und Modellinferenz. Wie bereits erwähnt, ist das Training der erste Schritt bei der Entwicklung eines KI-Modells. Inferenz ist der Prozess, den ein trainiertes KI-Modell durchläuft, um Vorhersagen zu neuen Daten zu treffen. Wenn beispielsweise ChatGPT eine Frage gestellt wird, veranlasst dies ChatGPT, eine Vorhersage zu liefern. Dieser Prozess der Erzeugung einer Vorhersage ist eine Inferenz.
Einige vortrainierte LLMs, wie die Granite-Modellfamilie, können mit den Ressourcen einer einzigen Hochleistungs-Workstation Inferenzen erstellen (Granite-Modelle sind beispielsweise auf einer V100-32GB GPU2 einsetzbar), obwohl viele mehrere parallele Recheneinheiten zur Datengenerierung benötigen. Je höher die Anzahl der gleichzeitig auf ein LLM zugreifenden Nutzenden ist, desto langsamer arbeitet das Modell bei den Inferenzen. SLMs hingegen sind in der Regel so konzipiert, dass sie mit den Ressourcen eines Smartphones oder eines anderen mobilen Geräts Inferenzen generieren können.
Kosten/Nutzen beim Einstieg in LLMs im Vergleich zu SLMs
Auf die Frage „Welches Modell ist besser?“ gibt es keine Antwort. Dies hängt vielmehr von den Plänen, Ressourcen, Kenntnissen, Terminen und anderen Faktoren Ihres Unternehmens ab. Wichtig ist auch die Entscheidung, ob Ihr Use Case das Training eines Modells von Grund auf oder das Fine Tuning eines bereits trainierten Modells erfordert. Allgemeine Überlegungen hinsichtlich LLMs und SLMs umfassen:
Kosten
Im Allgemeinen benötigen LLMs viel mehr Ressourcen für Training, Fine Tuning und Inferenzen. Wichtig ist, dass das Training eine weniger häufige Investition darstellt. Rechenressourcen werden nur für die Dauer des Trainings eines Modells benötigt, das nicht kontinuierlich, sondern nur zeitweise erfolgt. Allerdings sind Inferenzen mit laufenden Kosten verbunden, die mit zunehmender Nutzung des Modells durch immer mehr Nutzende steigen können. In den meisten Fällen erfordert dies Cloud Computing-Ressourcen in großem Umfang, eine erhebliche Investition in lokale Ressourcen oder beides.
SLMs werden häufig für Use Cases mit niedriger Latenz, wie Edge Computing, evaluiert. Das liegt daran, dass sie oft nur mit den auf einem einzigen mobilen Gerät verfügbaren Ressourcen ausgeführt werden können und keine ständige, leistungsstarke Verbindung zu umfangreicheren Ressourcen benötigen.
Fachwissen
Viele gängige vortrainierte LLMs wie Granite, Llama und GPT-4 bieten eine „Plug-and-Play“-Option für den Einstieg in die KI. Für Unternehmen, die mit KI experimentieren möchten, sind diese oft empfehlenswert, da sie nicht von Grund auf entwickelt und trainiert werden müssen. SLMs hingegen erfordern in der Regel spezielles datenwissenschaftliches Fachwissen und Branchenkenntnisse für ein genaues Fine Tuning mit Nischendatensätzen.
Sicherheit
Ein potenzielles Risiko der LLMs ist die Offenlegung sensibler Daten über APIs (Application Programming Interfaces). Insbesondere das Fine Tuning eines LLM für die Daten Ihres Unternehmens erfordert eine sorgfältige Beachtung der Compliance und der Unternehmensrichtlinien. Das Risiko von Datenpannen kann bei SLMs geringer sein, da sie ein höheres Maß an Kontrolle bieten.
Wie kann Red Hat Sie unterstützen?
Red Hat AI bietet generative und prädiktive KI-Funktionen sowie MLOps-Support für den Aufbau flexibler, vertrauenswürdiger KI-Lösungen in großem Umfang in Hybrid Cloud-Umgebungen. Es trägt dazu bei, die Einführung von KI zu beschleunigen, die Komplexität der Bereitstellung von KI-Lösungen zu abstrahieren und sorgt für Flexibilität bei Entwicklung und Deployment, unabhängig davon, wo sich Ihre Daten befinden.
In Kombination mit der Open Hybrid Cloud-Infrastruktur von Red Hat können Unternehmen mit Red Hat AI individuelle KI-Lösungen für ihr Unternehmen entwickeln, Modell- und Anwendungs-Lifecycles verwalten, sich an Anforderungen für die Hardwarebeschleunigung anpassen und kritische Workloads auf einer einzigen Plattform bereitstellen, ausführen und nebeneinander betreiben.
Machine Learning und KI für den Einstieg
Möchten Sie ML- und KI-Modelle erforschen, können Sie InstructLab testen, eine communitybasierte Lösung für das Trainieren von LLMs. Dort können Sie kostenlos experimentieren und direkt zur Entwicklung Ihres KI-Modells beitragen.
Einfacher Zugang zu den Modellen der IBM Granite-Familie
Sobald Sie für den nächsten Schritt bereit sind, erhalten Sie mit Red Hat® Enterprise Linux® AI eine Plattform für Basismodelle, mit der Sie LLMs der Granite-Familie für Unternehmensanwendungen entwickeln, testen und ausführen können. Granite ist eine Familie von KI-Modellen mit Open Source-Lizenz, die von Red Hat vollständig unterstützt und schadlos gehalten werden. Der Open Source-Ansatz fördert Innovationen im Bereich der generativen KI und sorgt gleichzeitig für Vertrauen und Sicherheit.
Skalierung für Unternehmen
Red Hat® OpenShift® AI ist eine Plattform, die Ihre Modelle in Hybrid Cloud-Umgebungen in großem Umfang unterstützen kann. Sie können KI-Modelle für Ihren speziellen Use Case und mit Ihren eigenen Daten trainieren, mit Prompts versehen, feinabstimmen und bereitstellen.
Gemeinsam bieten diese Produkte eine einheitliche Lösung, mit der Data Scientists und Entwicklungsteams zusammenarbeiten und Modelle schneller vom Experiment zur Produktion bringen können.
Wachstum mit Partnern
Darüber hinaus bieten die Partnerintegrationen von Red Hat Zugang zu einem wachsenden Ökosystem zuverlässiger KI-Tools, die für die Zusammenarbeit mit Open Source-Plattformen entwickelt wurden.
Der offizielle Red Hat Blog
Lernen Sie mehr über unser Ökosystem von Kunden, Partnern und Communities und erfahren Sie das Neueste zu Themen wie Automatisierung, Hybrid Cloud, KI und mehr.