Was ist KI-Inferenz?

Veröffentlicht 7. Januar 2025•7 Minuten (Lesedauer)

KI-Inferenz bezieht sich auf den Vorgang, bei dem ein KI-Modell eine auf Daten basierende Antwort gibt. Was einige allgemein „KI“ nennen, ist in Wirklichkeit der KI-Inferenz zu verdanken: der letzte Schritt – sozusagen der Aha-Moment – in einem langen und komplexen Prozesses der ML-Technologie (Machine Learning).

Die Genauigkeit und Geschwindigkeit von KI-Inferenz (Künstliche Intelligenz) lässt sich verbessern, wenn KI-Modelle mit ausreichend Daten trainiert werden.

Mehr über Red Hat AI erfahren

Wenn ein KI-Modell beispielsweise mit Daten über Tiere trainiert wird – von ihren Unterschieden und Ähnlichkeiten bis hin zu typischen Gesundheitsmerkmalen und Verhaltensweisen – ist ein riesiger Datensatz erforderlich, damit das Modell Verbindungen herstellen und Muster identifizieren kann.

Nachdem es erfolgreich trainiert wurde, kann das Modell Inferenzen generieren. So kann es etwa die Rasse eines Hundes feststellen, das Miauen einer Katze erkennen oder sogar vor einem frei laufenden Pferd warnen. Obwohl es diese Tiere außerhalb eines abstrakten Datensatzes noch nie gesehen hat, kann es aufgrund der umfassenden Trainingsdaten in Echtzeit Inferenzen in einer neuen Umgebung generieren.

Unser menschliches Gehirn stellt Verbindungen auf die gleiche Weise her. Wir können uns in Büchern, Filmen oder Onlineressourcen über verschiedene Tiere informieren. Wir können uns Bilder oder Videos ansehen und uns anhören, wie diese Tiere klingen. Wenn wir dann einen Zoo besuchen, können wir Inferenzen generieren und beispielsweise einen Büffel erkennen. Selbst wenn wir noch nie im Zoo gewesen sind, können wir das Tier identifizieren, weil wir vorher dazu recherchiert haben. Das Gleiche gilt auch für KI-Modelle während der KI-Inferenz.

Erfahren Sie bei unserem nächsten Live Event mehr über die neuesten Entwicklungen und zukünftigen Pläne von Red Hat AI. Besuchen Sie die nächste Live Session

Unter KI-Inferenz versteht man die operative Phase von KI, in der das Modell in der Lage ist, das im Training Erlernte auf reale Situationen anzuwenden. Die Fähigkeit von KI, Muster zu erkennen und Rückschlüsse zu ziehen, unterscheidet sie von anderen Technologien. Dadurch kann sie bei täglichen Aufgaben in der Praxis oder bei einer besonders komplizierten Computerprogrammierung von großer Hilfe sein.

Prädiktive KI im Vergleich zu generativer KI

Unternehmen können KI-Inferenz heute in verschiedenen alltäglichen Use Cases nutzen. Hier einige Beispiele:

Gesundheitswesen: KI-Inferenz kann Fachkräfte im Gesundheitswesen dabei unterstützen, die Patientenanamnese mit aktuellen Daten zu vergleichen und Muster und Anomalien schneller festzustellen, als Menschen das könnten. Beispiele sind Ausreißerwerte in einem Gehirnscan oder ein zusätzlicher Herzschlag. Dadurch können Anzeichen für eine gesundheitliche Gefährdung von Patientinnen und Patienten viel früher und viel schneller erkannt werden.

Finanzwesen: Wenn KI-Inferenz mit großen Datensätzen von Bank- und Kreditinformationen trainiert wurde, kann sie Fehler oder ungewöhnliche Daten in Echtzeit identifizieren, um Betrug früh und schnell zu erfassen. Dies kann Ressourcen für den Kundenservice optimieren, Kundendaten besser schützen und den Ruf der Marke verbessern.

Automobilbranche: Seit dem Einzug von KI in die Welt der Automobile verändern autonome Fahrzeuge die Art und Weise, wie wir unsere Fahrzeuge bewegen. KI-Inferenz kann Fahrzeuge etwa dabei unterstützen, die effizienteste Route von A nach B zu finden oder zu bremsen, wenn wir uns einem Stoppschild nähern. Dies vereinfacht das Fahren und erhöht die Sicherheit der Fahrzeuginsassen.

Viele weitere Branchen wenden KI-Inferenz auch kreativ an. Sie lässt sich für Drive-ins von Fast-Food-Restaurants, Veterinärkliniken oder Hotelconcierges nutzen. Viele Unternehmen sind gerade dabei, die Technologie ganz unterschiedlich zu ihrem Vorteil einzusetzen, um etwa die Genauigkeit zu verbessern, Zeit und Geld zu sparen und im Wettbewerb einen Schritt voraus zu bleiben.

Weitere Use Cases für KI/ML

KI-Training bezieht sich auf den Prozess, das Modell mithilfe von Daten zu trainieren, damit es lernt, Verbindungen herzustellen und Muster zu identifizieren. Training ist also der Lehrprozess eines Modells, während Inferenz das KI-Modell in Aktion beschreibt.

Was sind Basismodelle?

Der Großteil von KI-Training findet in den Anfangsphasen der Modellentwicklung statt. Nach Abschluss des Trainings kann das Modell Verbindungen herstellen, und zwar mit Daten, die ihm völlig neu sind. Wird ein KI-Modell mit einem größeren Datensatz trainiert, kann es mehr Verbindungen erlernen und dadurch genauere Inferenzen generieren. Wenn das Modell nach dem Training Probleme hat, akkurate Inferenzen zu generieren, kann Fine Tuning sein Wissen ergänzen und so die Genauigkeit verbessern.

Training und KI-Inferenz ermöglichen es der KI, menschliche Fähigkeiten nachzuahmen, etwa das Ziehen von Rückschlüssen, die auf Evidenz und Logik basieren.

Faktoren wie die Modellgröße können dabei den Ressourcenbedarf für die Bearbeitung Ihres Modells beeinflussen.

Mehr dazu erfahren, wie kleinere Modelle die GPU-Inferenz vereinfachen können

Durch verschiedene Arten von KI-Inferenz lassen sich unterschiedliche Use Cases unterstützen.

Batch-Inferenz: Batch-Inferenz wird so genannt, weil sie Daten in sehr großem Umfang erhält und verarbeitet. Statt Inferenz in Echtzeit zu verarbeiten, werden Daten bei dieser Methode in Wellen verarbeitet. Dies kann stündlich oder sogar täglich erfolgen, je nach Datenumfang und Effizienz des KI-Modells. Diese Inferenzen werden auch „Offline-Inferenzen“ oder „statische Inferenzen“ genannt.
Online-Inferenz: Online-Inferenzen oder „dynamische“ Inferenzen können Antworten in Echtzeit bereitstellen. Bei diesen Inferenzen sind Hardware und Software erforderlich, die Latenzbarrieren reduzieren und Highspeed-Vorhersagen unterstützen. Online-Inferenz ist etwa am Edge nützlich, da die KI ihre Arbeit dabei dort erledigt, wo sich die Daten befinden. Das kann auf einem Smartphone, im Auto oder in einem entlegenen Büro mit eingeschränkter Konnektivität sein.
ChatGPT von OpenAI ist ein gutes Beispiel für Online-Inferenz. Es benötigt vorab sehr viel operative Unterstützung, um schnelle und akkurate Antworten liefern zu können.
Streaming-Inferenz: Streaming-Inferenz beschreibt KI-Systeme, die nicht unbedingt zur Kommunikation mit Menschen verwendet werden. Anstelle von Prompts und Anfragen erhalten solche Modelle einen konstanten Datenfluss, um Vorhersagen zu treffen und ihre interne Datenbank zu aktualisieren. Streaming-Inferenz kann Änderungen überwachen, die Regelmäßigkeit aufrechterhalten und Probleme vorhersagen, bevor sie entstehen.

Mehr dazu erfahren, wie verteilte Inferenz mit vLLM Engpässe beseitigen kann

Ein KI-Inferenzserver ist die Software, dank der ein KI-Modell den Sprung vom Training in den Betrieb schafft. Ein solcher Server unterstützt das Modell mithilfe von maschinellem Lernen dabei, das Gelernte in der Praxis anzuwenden und Inferenzen zu generieren.

Der KI-Inferenzserver und das KI-Modell müssen kompatibel sein, damit sie effiziente Ergebnisse liefern können. Hier sind einige Beispiele von Inferenzservern und Modellen, die optimal zusammenarbeiten:

Multimodal-Inferenzserver: Diese Art von Inferenzserver kann verschiedene Modelle gleichzeitig unterstützen. Das bedeutet, dass ein solcher Server Daten in Form von Code, Bildern oder Text erhalten und all diese unterschiedlichen Inferenzen auf einem einzigen Server verarbeiten kann. Ein Multimodal-Inferenzserver nutzt GPU- und CPU-Arbeitsspeicher auf effizientere Weise, damit er mehr als ein Modell unterstützen kann. Dies kann Hardware und Kosten optimieren und erleichtert die Skalierung.
Einzelmodell-Inferenzserver: Diese Art von Inferenzserver unterstützt nur ein einziges Modell. Der KI-Inferenzprozess dieses Servers ist auf die Kommunikation mit einem Modell spezialisiert, das anhand eines spezifischen Use Cases trainiert wurde. Es kann möglicherweise Daten nur in Textform oder nur in Codeform verarbeiten. Dank dieser Spezialisierung ist es unglaublich effizient, was für die Entscheidungsfindung in Echtzeit oder bei Ressourcenbeschränkungen nützlich sein kann.

Die größten Herausforderungen beim Ausführen von KI-Inferenz sind Skalierung, Ressourcen und Kosten.

Komplexität: Es ist einfacher, einem Modell beizubringen, simple Aufgaben auszuführen. Beispielsweise lernt es schnell, Bilder zu generieren oder Kunden über Rückgaberichtlinien zu informieren. Wenn wir Modelle zum Erlernen komplexerer Daten nutzen, damit diese etwa Finanzbetrug stoppen oder medizinische Anomalien identifizieren, sind mehr Daten für das Training erforderlich. Außerdem bedarf es mehr Ressourcen, die diese Daten unterstützen.
Ressourcen: Komplexere Modelle erfordern spezielle Hardware und Software, um das enorme Ausmaß an Datenverarbeitung zu ermöglichen, das stattfindet, wenn ein Modell Inferenzen generiert. Eine wichtige Komponente dieser Ressourcen ist der CPU-Speicher (Central Processing Unit). Eine CPU wird oft auch als Hub oder Kontrollzentrum des Computers bezeichnet. Wenn ein Modell auf der Basis seines Wissens – der Trainingsdaten – eine Antwort generiert, muss es auf die Daten zurückgreifen, die sich im CPU-Speicher befinden.
Kosten: Diese einzelnen Puzzleteile, die KI-Inferenz erst ermöglichen, sind nicht gerade kostengünstig. Unabhängig davon, ob Sie skalieren oder auf die neueste KI-gestützte Hardware umsteigen wollen – die erforderlichen Ressourcen können zusammen ziemlich umfangreich sein. Mit der zunehmenden Komplexität der Modelle und der Weiterentwicklung der Hardware können die Kosten drastisch ansteigen. Dadurch kann es für Unternehmen schwierig werden, mit KI-Innovationen Schritt zu halten.

Die Komplexität von KI-Inferenz nimmt bei einer Skalierung im Unternehmen nur zu. Und wenn Nutzende nicht unkompliziert Inferenzen in großem Umfang durchführen können, erhöhen sich die Markteinführungszeiten und es wird schwieriger, im gesamten Unternehmen Use Cases für gen KI anzuwenden.

llm-d ist ein Open Source-KI-Framework, das die verteilte Inferenz in großem Umfang beschleunigt. Das bedeutet, dass llm-d die komplexen und uneinheitlichen Anforderungen der LLM-Inferenz unterstützen kann. Mit Tools wie llm-d oder LLM Compressor können Sie Inferenzen beschleunigen und Ihr Team und Ihre Ressourcen erheblich entlasten.

Was ist vLLM?

KI-Inferenz wird in Use Cases mit hohem Volumen und vielen Variablen verwendet. Aber ein konsistentes Deployment von LLMs in großem Umfang erfordert viel Rechenleistung, Ressourcen und spezielle operative Kompetenzen. vLLM kann diese Herausforderungen meistern, indem es die für die Unterstützung der KI-Inferenz im Unternehmen erforderliche Hardware effizienter nutzt. Daher ist vLLM besonders attraktiv für Branchen, die neben Geschwindigkeit auch Flexibilität und Kontrolle benötigen.

Als Open Source-Lösung bietet vLLM Unternehmen folgende Vorteile:

Besitz und Verwaltung ihrer GPUs
Kontrolle ihrer Daten
Experimentieren mit hochmodernen Modellen gleich nach dem Release

vLLM kann auf einer Vielzahl von Hardware bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi und AWS Neuron. vLLM ist auch nicht auf bestimmte Hardware beschränkt, d. h., es funktioniert in der gesamten Cloud, im Rechenzentrum oder am Netzwerkrand.

Erfahren Sie, wie namhafte Unternehmen mit vLLM in diesen 3 realen Use Cases effektiv skalieren.

3 reale Use Cases für vLLM

Red Hat AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen bei den einzelnen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.

Mit Red Hat AI erhalten Sie Zugriff auf Red Hat® AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.

Mehr über Red Hat AI Inference Server erfahren

Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Kollektion validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz bieten kann. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeiten verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.

Repository auf Hugging Face erkunden

Mehr über validierte Modelle von Red Hat AI erfahren

Red Hat AI basiert auf Open Source-Technologien und Partnernetzwerken, die den Fokus auf Performance, Stabilität und GPU-Unterstützung für verschiedene Infrastrukturen legen.

Unser Partnernetzwerk erkunden

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Granite sind LLMs von IBM für Unternehmensanwendungen. Granite-Modelle unterstützen Use Cases für gen KI, die Sprache und Code enthalten. Einsatz und Vorteile

Was ist verteilte Inferenz?

Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird.

Was ist MCP (Model Context Protocol)?

Erfahren Sie, wie Sie mit MCP (Model Context Protocol) KI-Anwendungen mit externen Datenquellen verbinden und so intelligentere Workflows entwickeln können.

Was ist KI-Inferenz?

Red Hat AI

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

Red Hat AI

Weiterlesen

Was sind Granite-Modelle? Large Language Models für KI

Was ist verteilte Inferenz?

Was ist MCP (Model Context Protocol)?

Ressourcen zu KI/ML

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links