Was sind Small Language Models (SLMs)?
Ein Small Language Model (SLM) ist eine kleinere Version eines Large Language Models (LLM), das über mehr Fachwissen verfügt, schneller angepasst und effizienter ausgeführt werden kann.
SLMs besitzen durch ihr Training domainspezifisches Wissen, während LLMs über ein breites Allgemeinwissen verfügen. Aufgrund ihrer geringeren Größe benötigen SLMs weniger Rechenressourcen für Training und Deployment, so lassen sich Infrastrukturkosten senken und Fine Tuning beschleunigen. Die Kompaktheit von SLMs macht sie ideal für Edge-Geräte und mobile Anwendungen.
SLMs im Vergleich zu LLMs
Sowohl SLMs als auch LLMs sind KI-Systeme, die darauf trainiert werden, menschliche Sprache, einschließlich Programmiersprachen, zu interpretieren. LLMs und SLMs unterscheiden sich in der Regel in der Größe der Datensätze, mit denen sie trainiert werden, in den verschiedenen Prozessen, die zum Training mit diesen Datensätzen verwendet werden, und in den Kosten bzw. dem Nutzen für den Einstieg in verschiedene Use Cases.
Wie ihr Name schon sagt, werden sowohl LLMs als auch SLMs auf Datensätzen trainiert, die aus Sprache bestehen, was sie von Modellen unterscheidet, die mit Bildern (wie etwa DALL E) oder Videos (wie Sora) trainiert werden. Zu den sprachbasierten Datensätzen gehören beispielsweise Texte von Webseiten, Entwicklungscode, E-Mails und Anleitungen.
Eine der bekanntesten Anwendungen von SLMs und LLMs ist die generative KI (gen KI), die ohne Skript Inhalte als Antworten auf viele verschiedene, unvorhersehbare Anfragen generieren kann. Insbesondere LLMs sind in der breiten Öffentlichkeit dank des Basismodells GPT-4 und ChatGPT bekannt geworden, einem dialogbasierten Chatbot, der mithilfe von riesigen Datensätzen und Billionen von Parametern trainiert wurde, um auf eine Vielzahl menschlicher Anfragen zu reagieren. Obwohl gen KI beliebt ist, gibt es auch nicht-generative Anwendungen von LLMs und SLMs, wie beispielsweise prädiktive KI.
LLMs und SLMs werden in der Regel auf unterschiedlichen Datensätzen trainiert
Der Umfang von GPT-4/ChatGPT ist ein hervorragendes Beispiel dafür, dass es einen allgemeinen Unterschied zwischen LLMs und SLMs gibt: die Datensätze, auf denen sie trainiert werden.
LLMs sind normalerweise darauf ausgelegt, menschliche Intelligenz auf umfassender Ebene nachzuahmen, und werden daher mit einer Vielzahl großer Datensätze trainiert. Im Fall von GPT-4/ChatGPT umfasst dies das gesamte öffentliche Internet (!) bis zu einem bestimmten Datum. Genau deshalb hat ChatGPT einen schlechten Ruf erlangt, weil es eine so große Bandbreite von Anfragen von Durchschnittsnutzenden interpretiert und beantwortet. Das ist jedoch auch der Grund, warum es manchmal wegen potenziell falscher Antworten, die umgangssprachlich als „Halluzinationen“ bezeichnet werden, Aufmerksamkeit erregt hat: Es fehlen Fine Tuning und domainspezifisches Training, um auf branchen- oder nischenspezifische Anfragen präzise zu antworten.
SLMs hingegen werden in der Regel anhand kleinerer Datensätze trainiert, die auf bestimmte Branchenbereiche (also Fachgebiete) zugeschnitten sind. Beispielsweise könnte ein Gesundheitsdienstleister einen SLM-gestützten Chatbot verwenden, der auf medizinischen Datensätzen trainiert wurde. Dieser könnte domainspezifisches Wissen in die nicht fachkundigen Anfragen der einzelnen Nutzenden bezüglich ihrer Gesundheit einfließen lassen und so die Qualität der Frage und Antwort verbessern. In einem solchen Fall muss der SLM-gestützte Chatbot nicht anhand des gesamten Internets trainiert werden – also anhand sämtlicher Blog-Beiträge, fiktionaler Romane oder Gedichte, die jemals geschrieben wurden, da dies für den Use Case im Gesundheitswesen irrelevant ist.
Zusammengefasst zeichnen sich SLMs in der Regel durch besondere Fachgebiete aus, haben aber im Vergleich zu LLMs Schwierigkeiten in Bezug auf Allgemeinwissen und das Verständnis von Zusammenhängen.
Red Hat Ressourcen
LLMs und SLMs benötigen unterschiedliche Ressourcen
Das Training eines Modells für einen geschäftlichen Use Case, ob LLM oder SLM, ist ein ressourcenintensiver Prozess. Das Training von LLMs ist jedoch besonders ressourcenintensiv. Bei GPT-4 liefen insgesamt 25.000 NVIDIA A100-GPUs gleichzeitig und kontinuierlich für 90–100 Tage. Auch hier ist GPT-4 eines der umfangreichsten Modelle im LLM-Spektrum. Andere LLMs wie Granite erforderten nicht so viele Ressourcen. Für das Training eines SLM sind zwar immer noch erhebliche Rechenressourcen erforderlich, aber weit weniger als für ein LLM.
Ressourcenbedarf für Training im Vergleich zu Inferenz
Wichtig ist auch der Unterschied zwischen Modelltraining und Modellinferenz. Wie bereits erwähnt, ist das Training der erste Schritt bei der Entwicklung eines KI-Modells. Inferenz ist der Prozess, den ein trainiertes KI-Modell durchläuft, um Vorhersagen zu neuen Daten zu treffen. Wenn beispielsweise ChatGPT eine Frage gestellt wird, veranlasst dies ChatGPT, eine Vorhersage zu liefern. Dieser Prozess der Erzeugung einer Vorhersage ist eine Inferenz.
Einige vortrainierte LLMs, wie die Granite-Modellfamilie, können mit den Ressourcen einer einzigen Hochleistungs-Workstation Inferenzen erstellen (Granite-Modelle sind beispielsweise auf einer V100-32GB GPU2 einsetzbar), obwohl viele von ihnen mehrere parallele Recheneinheiten zur Datengenerierung benötigen. Je höher die Anzahl der gleichzeitig auf ein LLM zugreifenden Nutzenden ist, desto langsamer arbeitet das Modell bei den Inferenzen. SLMs hingegen sind in der Regel so konzipiert, dass sie mit den Ressourcen eines Smartphones oder eines anderen Mobilgeräts Inferenzen generieren können.
KI-Inferenz in großem Umfang
Es gibt viele verschiedene Faktoren, die den Erfolg von Inferenz in großem Umfang beeinflussen können. Dies hängt in erster Linie davon ab, wie effizient und effektiv Ihre Komponenten zusammenarbeiten.
Insbesondere Inferenzserver, die größere KI-Modelle (wie LLMs) und ihre komplexeren Inferenzfunktionen unterstützen, sind für die Skalierung von KI-Workloads für Unternehmen unerlässlich.
Diese KI-Tools nutzen Ressourcen effizienter, um Inferenzen in großem Umfang zu beschleunigen:
- llm-d: LLM-Prompts können komplex und uneinheitlich sein. Sie benötigen in der Regel umfangreiche Rechenressourcen und Storage, um große Datenmengen zu verarbeiten. llm-d, ein Open Source-KI-Framework, verwendet gut strukturierte Abläufe, damit Entwicklungsteams Techniken wie verteilte Inferenz nutzen können, um die steigenden Anforderungen anspruchsvoller und größerer Reasoning-Modelle wie LLMs zu erfüllen.
- Verteilte Inferenz: Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird. Stellen Sie sich dies als Äquivalent zum Sprichwort „Viele Hände machen ein schnelles Ende“ für den Softwarebereich vor.
- vLLM: vLLM steht für Virtual Large Language Model und ist eine Library von Open Source-Code, die von der vLLM Community verwaltet wird. Das Modell unterstützt Large Language Models (LLMs) dabei, Berechnungen effizienter und in großem Umfang durchzuführen. Die Lösung hilft Unternehmen wie LinkedIn, Roblox und Amazon, ihre Inferenzfunktionen zu beschleunigen.
Vorteile von SLMs
Auf die Frage „Welches Modell ist besser?“ gibt es keine Antwort. Dies hängt vielmehr von den Plänen, Ressourcen, Kenntnissen, Terminen und anderen Faktoren Ihres Unternehmens ab. Wichtig ist auch die Entscheidung, ob Ihr Use Case das Training eines Modells von Grund auf oder das Fine Tuning eines bereits trainierten Modells erfordert. Allgemeine Überlegungen hinsichtlich LLMs und SLMs umfassen:
Kosten
Im Allgemeinen benötigen LLMs viel mehr Ressourcen für Training, Fine Tuning und Inferenzen. Wichtig ist, dass das Training eine weniger häufige Investition darstellt. Rechenressourcen werden nur für die Dauer des Trainings eines Modells benötigt, das nicht kontinuierlich, sondern nur zeitweise erfolgt. Allerdings sind Inferenzen mit laufenden Kosten verbunden, die mit zunehmender Nutzung des Modells durch immer mehr Nutzende steigen können. In den meisten Fällen erfordert dies Cloud Computing-Ressourcen in großem Umfang, eine erhebliche Investition in lokale Ressourcen oder beides.
SLMs werden häufig für Use Cases mit niedriger Latenz, wie Edge Computing, evaluiert. Das liegt daran, dass sie oft nur mit den auf einem einzigen mobilen Gerät verfügbaren Ressourcen ausgeführt werden können und keine ständige, leistungsstarke Verbindung zu umfangreicheren Ressourcen benötigen.
Fachwissen
Viele gängige vortrainierte LLMs wie Granite, Llama und GPT-4 bieten eine „Plug and Play“-Option für den Einstieg in die KI. Für Unternehmen, die mit KI experimentieren möchten, sind diese oft empfehlenswert, da sie nicht von Grund auf entwickelt und trainiert werden müssen. SLMs hingegen erfordern in der Regel spezielles datenwissenschaftliches Fachwissen und Branchenkenntnisse für ein genaues Fine Tuning mit Nischendatensätzen.
Sicherheit
Ein potenzielles Risiko der LLMs ist die Offenlegung sensibler Daten über APIs (Application Programming Interfaces). Insbesondere das Fine Tuning eines LLM für die Daten Ihres Unternehmens erfordert eine sorgfältige Beachtung der Compliance und der Unternehmensrichtlinien. Das Risiko von Datenpannen kann bei SLMs geringer sein, da sie ein höheres Maß an Kontrolle bieten.
Einschränkungen von SLMs
Bei der Integration von SLMs in die Workflows von Unternehmen ist es wichtig, die damit verbundenen Einschränkungen zu kennen.
Verzerrung
Mit den auf kleineren Datensätzen trainierten SLMs lassen sich die unweigerlich auftretenden Verzerrungen im Vergleich zu LLMs leichter abschwächen. Wie bei Sprachmodellen von beliebiger Größe können jedoch auch bei Trainingsdaten Verzerrungen auftreten, wie eine Unterrepräsentation oder Falschdarstellung bestimmter Gruppen und Ideen oder sachliche Ungenauigkeiten. Sprachmodelle können auch sprachliche Verzerrungen aufgrund von Dialekten, geografischer Lage und Grammatik aufweisen.
Die Teams sollten besonders auf die Qualität der Trainingsdaten achten, um verzerrte Ergebnisse zu vermeiden.
Eng gefasster Wissensbereich
SLMs verfügen über einen kleineren Datenbestand, auf den sie bei der Erstellung von Antworten zurückgreifen können. Das macht sie hervorragend geeignet für spezifische Aufgaben, aber weniger für Fälle, die ein breites Spektrum an Allgemeinwissen erfordern.
Teams könnten die Erstellung einer Sammlung spezieller SLMs zur Verwendung neben einem LLM (oder mehreren LLMs) in Betracht ziehen. Diese Lösung ist besonders interessant, wenn Teams Modelle mit bestehenden Anwendungen verbinden können und so einen vernetzten Workflow mit mehreren Sprachmodellen schaffen, die im Tandem arbeiten.
Use Cases für SLM
Durch ihre Anpassungsfähigkeit eignen sich SLMs für eine Vielzahl von Use Cases.
Chatbots
Verwenden Sie ein SLM, um einen Chatbot mit speziellen Materialien zu trainieren. So könnte ein Chatbot für den Kundenservice mit unternehmensspezifischem Wissen geschult werden, damit er Fragen beantworten und Nutzende zu entsprechenden Informationen weiterleiten kann.
Agentische KI
Integrieren Sie SLMs in einen agentischen KI-Workflow, damit sie Aufgaben für Nutzende erledigen können.
Generative KI
SLMs können Aufgaben wie das Erstellen neuer Texte, das Übersetzen vorhandener Texte und das Zusammenfassen von Texten ausführen.
Wie Red Hat helfen kann
Red Hat AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen bei den einzelnen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.
Mit Red Hat AI erhalten Sie Zugriff auf Red Hat® AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.
Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Kollektion validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz ermöglicht. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeit verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.
Der offizielle Red Hat Blog
Lernen Sie mehr über unser Ökosystem von Kunden, Partnern und Communities und erfahren Sie das Neueste zu Themen wie Automatisierung, Hybrid Cloud, KI und mehr.