SLMs im Vergleich zu LLMs: Was sind Small Language Models?

Veröffentlicht 1. Oktober 2024•6 Minuten (Lesedauer)

Ein Small Language Model (SLM) ist eine kleinere Version eines Large Language Models (LLM), das über mehr Fachwissen verfügt, schneller angepasst und effizienter ausgeführt werden kann.

SLMs besitzen durch ihr Training domainspezifisches Wissen, während LLMs über ein breites Allgemeinwissen verfügen. Aufgrund ihrer geringeren Größe benötigen SLMs weniger Rechenressourcen für Training und Deployment, so lassen sich Infrastrukturkosten senken und Fine Tuning beschleunigen. Die Kompaktheit von SLMs macht sie ideal für Edge-Geräte und mobile Anwendungen.

SLMs im Vergleich zu LLMs

SLMs und LLMs sind beides KI-Systeme, die darauf trainiert werden, menschliche Sprache, einschließlich Programmiersprachen, zu interpretieren. LLMs und SLMs unterscheiden sich in der Regel in der Größe der Datensätze, mit denen sie trainiert werden, in den verschiedenen Prozessen, die zum Training mit diesen Datensätzen verwendet werden, und in den Kosten bzw. dem Nutzen für den Einstieg in verschiedene Use Cases.

Wie ihre Namen schon andeuten, werden sowohl LLMs als auch SLMs auf Datensätzen trainiert, die aus Sprache bestehen, was sie von Modellen unterscheidet, die auf Bildern (wie etwa DALL E) oder Videos (wie Sora) trainiert werden. Zu den sprachbasierten Datensätzen gehören beispielsweise Texte auf Webseiten, Entwicklungscode, E-Mails und Anleitungen.

Eine der bekanntesten Anwendungen von SLMs und LLMs ist die generative KI (gen KI), die ohne Skript Inhalte als Antworten auf viele verschiedene, unvorhersehbare Anfragen generieren kann. Insbesondere LLMs sind in der breiten Öffentlichkeit dank des Basismodells GPT-4 und ChatGPT bekannt geworden, einem dialogorientierten Chatbot, der mithilfe von riesigen Datensätzen und Billionen von Parametern trainiert wurde, um auf eine Vielzahl menschlicher Anfragen zu reagieren. Obwohl gen KI beliebt ist, gibt es auch nicht-generative Anwendungen von LLMs und SLMs, wie beispielsweise prädiktive KI.

Wichtige Überlegungen beim Aufbau einer produktionsbereiten KI/ML-Umgebung

Der Umfang von GPT-4/ChatGPT ist ein hervorragendes Beispiel dafür, dass es einen allgemeinen Unterschied zwischen LLMs und SLMs gibt: die Datensätze, auf denen sie trainiert werden.

LLMs sind normalerweise darauf ausgelegt, menschliche Intelligenz auf umfassender Ebene nachzuahmen, und werden daher mit einer Vielzahl großer Datensätze trainiert. Im Fall von GPT-4/ChatGPT umfasst dies das gesamte öffentliche Internet (!) bis zu einem bestimmten Datum. Genau deshalb hat ChatGPT einen schlechten Ruf erlangt, weil es eine so große Bandbreite von Anfragen von Durchschnittsnutzenden interpretiert und beantwortet. Das ist jedoch auch der Grund, warum es manchmal wegen potenziell falscher Antworten, die umgangssprachlich als „Halluzinationen“ bezeichnet werden, Aufmerksamkeit erregt hat: es fehlt das Fine Tuning und domainspezifische Training, um auf branchen- oder nischenspezifische Anfragen präzise zu antworten.

SLMs hingegen werden in der Regel anhand kleinerer Datensätze trainiert, die auf bestimmte Branchenbereiche (also Fachgebiete) zugeschnitten sind. Beispielsweise könnte ein Gesundheitsdienstleister einen SLM-gestützten Chatbot verwenden, der auf medizinischen Datensätzen trainiert wurde. Dieser könnte domainspezifisches Wissen in die nicht fachkundigen Anfragen der einzelnen Nutzenden bezüglich ihrer Gesundheit einfließen lassen und so die Qualität der Frage und Antwort verbessern. In einem solchen Fall muss der SLM-gestützte Chatbot nicht anhand des gesamten Internets trainiert werden – also anhand sämtlicher Blog-Beiträge, fiktionaler Romane oder Gedichte, die jemals geschrieben wurden, da dies für den Use Case im Gesundheitswesen irrelevant ist.

Zusammengefasst zeichnen sich SLMs in der Regel durch besondere Fachgebiete aus, haben aber im Vergleich zu LLMs Schwierigkeiten in Bezug auf Allgemeinwissen und das Verständnis von Zusammenhängen.

LoRA und QLoRA im Vergleich

Das Training eines Modells für einen geschäftlichen Use Case, ob LLM oder SLM, ist ein ressourcenintensiver Prozess. Das Training von LLMs ist jedoch besonders ressourcenintensiv. Bei GPT-4 liefen insgesamt 25.000 NVIDIA A100-GPUs gleichzeitig und kontinuierlich für 90–100 Tage. Auch hier ist GPT-4 eines der umfangreichsten Modelle im LLM-Spektrum. Andere LLMs wie Granite erforderten nicht so viele Ressourcen. Für das Training eines SLM sind zwar immer noch erhebliche Rechenressourcen erforderlich, aber weit weniger als für ein LLM.

Ressourcenbedarf für Training im Vergleich zu Inferenz

Wichtig ist auch der Unterschied zwischen Modelltraining und Modellinferenz. Wie bereits erwähnt, ist das Training der erste Schritt bei der Entwicklung eines KI-Modells. Inferenz ist der Prozess, den ein trainiertes KI-Modell durchläuft, um Vorhersagen zu neuen Daten zu treffen. Wenn beispielsweise ChatGPT eine Frage gestellt wird, veranlasst dies ChatGPT, eine Vorhersage zu liefern. Dieser Prozess der Erzeugung einer Vorhersage ist eine Inferenz.

Einige vortrainierte LLMs, wie die Granite-Modellfamilie, können mit den Ressourcen einer einzigen Hochleistungs-Workstation Inferenzen erstellen (Granite-Modelle sind beispielsweise auf einer V100-32GB GPU2 einsetzbar), obwohl viele mehrere parallele Recheneinheiten zur Datengenerierung benötigen. Je höher die Anzahl der gleichzeitig auf ein LLM zugreifenden Nutzenden ist, desto langsamer arbeitet das Modell bei den Inferenzen. SLMs hingegen sind in der Regel so konzipiert, dass sie mit den Ressourcen eines Smartphones oder eines anderen mobilen Geräts Inferenzen generieren können.

Auf die Frage „Welches Modell ist besser?“ gibt es keine Antwort. Dies hängt vielmehr von den Plänen, Ressourcen, Kenntnissen, Terminen und anderen Faktoren Ihres Unternehmens ab. Wichtig ist auch die Entscheidung, ob Ihr Use Case das Training eines Modells von Grund auf oder das Fine Tuning eines bereits trainierten Modells erfordert. Allgemeine Überlegungen hinsichtlich LLMs und SLMs umfassen:

Kosten

Im Allgemeinen benötigen LLMs viel mehr Ressourcen für Training, Fine Tuning und Inferenzen. Wichtig ist, dass das Training eine weniger häufige Investition darstellt. Rechenressourcen werden nur für die Dauer des Trainings eines Modells benötigt, das nicht kontinuierlich, sondern nur zeitweise erfolgt. Allerdings sind Inferenzen mit laufenden Kosten verbunden, die mit zunehmender Nutzung des Modells durch immer mehr Nutzende steigen können. In den meisten Fällen erfordert dies Cloud Computing-Ressourcen in großem Umfang, eine erhebliche Investition in lokale Ressourcen oder beides.

SLMs werden häufig für Use Cases mit niedriger Latenz, wie Edge Computing, evaluiert. Das liegt daran, dass sie oft nur mit den auf einem einzigen mobilen Gerät verfügbaren Ressourcen ausgeführt werden können und keine ständige, leistungsstarke Verbindung zu umfangreicheren Ressourcen benötigen.

Red Hat Blog: Tipps für kostengünstigere LLMs

Fachwissen

Viele gängige vortrainierte LLMs wie Granite, Llama und GPT-4 bieten eine „Plug-and-Play“-Option für den Einstieg in die KI. Für Unternehmen, die mit KI experimentieren möchten, sind diese oft empfehlenswert, da sie nicht von Grund auf entwickelt und trainiert werden müssen. SLMs hingegen erfordern in der Regel spezielles datenwissenschaftliches Fachwissen und Branchenkenntnisse für ein genaues Fine Tuning mit Nischendatensätzen.

Sicherheit

Ein potenzielles Risiko der LLMs ist die Offenlegung sensibler Daten über APIs (Application Programming Interfaces). Insbesondere das Fine Tuning eines LLM für die Daten Ihres Unternehmens erfordert eine sorgfältige Beachtung der Compliance und der Unternehmensrichtlinien. Das Risiko von Datenpannen kann bei SLMs geringer sein, da sie ein höheres Maß an Kontrolle bieten.

Bei der Integration von SLMs in die Workflows von Unternehmen ist es wichtig, die damit verbundenen Einschränkungen zu kennen.

Verzerrung

Mit den auf kleineren Datensätzen trainierten SLMs lassen sich die unweigerlich auftretenden Verzerrungen im Vergleich zu LLMs leichter abschwächen. Wie bei Sprachmodellen von beliebiger Größe können jedoch auch bei Trainingsdaten Verzerrungen auftreten, wie eine Unterrepräsentation oder Falschdarstellung bestimmter Gruppen und Ideen oder sachliche Ungenauigkeiten. Sprachmodelle können auch sprachliche Verzerrungen aufgrund von Dialekten, geografischer Lage und Grammatik aufweisen.

Die Teams sollten besonders auf die Qualität der Trainingsdaten achten, um verzerrte Ergebnisse zu vermeiden.

Eng gefasster Wissensbereich

SLMs verfügen über einen kleineren Datenbestand, auf den sie bei der Erstellung von Antworten zurückgreifen können. Das macht sie hervorragend geeignet für spezifische Aufgaben, aber weniger für Fälle, die ein breites Spektrum an Allgemeinwissen erfordern.

Teams könnten die Erstellung einer Sammlung spezieller SLMs zur Verwendung neben einem LLM (oder mehreren LLMs) in Betracht ziehen. Diese Lösung ist besonders interessant, wenn Teams Modelle mit bestehenden Anwendungen verbinden können und so einen vernetzten Workflow mit mehreren Sprachmodellen schaffen, die im Tandem arbeiten.

Durch ihre Anpassungsfähigkeit eignen sich SLMs für eine Vielzahl von Use Cases.

Chatbots

Verwenden Sie ein SLM, um einen Chatbot mit speziellen Materialien zu trainieren. So könnte ein Chatbot für den Kundenservice mit unternehmensspezifischem Wissen geschult werden, damit er Fragen beantworten und Nutzende zu entsprechenden Informationen weiterleiten kann.

Agentische KI

Integrieren Sie SLMs in einen agentischen KI -Workflow, damit sie Aufgaben für Nutzende erledigen können.

Generative KI

SLMs können Aufgaben wie das Erstellen neuer Texte, das Übersetzen vorhandener Texte und das Zusammenfassen von Texten ausführen.

Use Cases für gen KI

Red Hat AI bietet generative und prädiktive KI-Funktionen sowie MLOps-Support für den Aufbau flexibler, vertrauenswürdiger KI-Lösungen in großem Umfang in Hybrid Cloud-Umgebungen. Es trägt dazu bei, die Einführung von KI zu beschleunigen, die Komplexität der Bereitstellung von KI-Lösungen zu abstrahieren und sorgt für Flexibilität bei Entwicklung und Deployment, unabhängig davon, wo sich Ihre Daten befinden.

In Kombination mit der Open Hybrid Cloud-Infrastruktur von Red Hat können Unternehmen mit Red Hat AI individuelle KI-Lösungen für ihr Unternehmen entwickeln, Modell- und Anwendungs-Lifecycles verwalten, sich an Anforderungen für die Hardwarebeschleunigung anpassen und kritische Workloads auf einer einzigen Plattform bereitstellen, ausführen und nebeneinander betreiben.

Das Portfolio von Red Hat AI erkunden

Einfacher Zugriff auf die Modelle der Granite-Familie von IBM

Red Hat® Enterprise Linux® AI ist eine Plattform zum Entwickeln, Testen und Ausführen von LLMs für Unternehmensanwendungen in einer einzigen Server-Umgebung. Die Lösung umfasst Red Hat AI Inference Server, der schnelle und kostengünstige Inferenz in der gesamten Hybrid Cloud liefert, indem er den Durchsatz maximiert und die Latenz minimiert.

Mehr über Red Hat Enterprise Linux AI erfahren

Skalieren für Unternehmen

Red Hat® OpenShift® AI ist eine Plattform, die Ihre Modelle in Hybrid Cloud-Umgebungen in großem Umfang unterstützen kann. Sie können KI-Modelle für Ihren speziellen Use Case und mit Ihren eigenen Daten trainieren, mit Prompts versehen, feinabstimmen und bereitstellen.

Gemeinsam bieten diese Produkte eine einheitliche Lösung, mit der Data Scientists und Entwicklungsteams zusammenarbeiten und Modelle schneller vom Experiment zur Produktion bringen können.

Mehr über Red Hat OpenShift AI erfahren

Mit Partnern wachsen

Darüber hinaus bieten die Partnerintegrationen von Red Hat Zugang zu einem wachsenden Ökosystem zuverlässiger KI-Tools, die für die Zusammenarbeit mit Open Source-Plattformen entwickelt wurden.

Unsere KI-Partner ansehen

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Granite sind LLMs von IBM für Unternehmensanwendungen. Granite-Modelle unterstützen Use Cases für gen KI, die Sprache und Code enthalten. Einsatz und Vorteile

Was ist verteilte Inferenz?

Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird.

Was ist MCP (Model Context Protocol)?

Erfahren Sie, wie Sie mit MCP (Model Context Protocol) KI-Anwendungen mit externen Datenquellen verbinden und so intelligentere Workflows entwickeln können.

SLMs im Vergleich zu LLMs: Was sind Small Language Models?

SLMs im Vergleich zu LLMs

Red Hat Ressourcen

Ressourcenbedarf für Training im Vergleich zu Inferenz

Kosten

Fachwissen

Sicherheit

Verzerrung

Eng gefasster Wissensbereich

Chatbots

Agentische KI

Generative KI

Einfacher Zugriff auf die Modelle der Granite-Familie von IBM

Skalieren für Unternehmen

Mit Partnern wachsen

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

Red Hat Testversionen

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Was ist verteilte Inferenz?

Was ist MCP (Model Context Protocol)?

Ressourcen zu KI/ML

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links