Was ist KI-Inferenz?
KI-Inferenz bezieht sich auf den Vorgang, bei dem ein KI-Modell eine auf Daten basierende Antwort gibt. Was einige allgemein „KI“ nennen, ist in Wirklichkeit der KI-Inferenz zu verdanken: der letzte Schritt – sozusagen der Aha-Moment – in einem langen und komplexen Prozesses der ML-Technologie (Maschinelles Lernen).
Die Genauigkeit und Geschwindigkeit von KI-Inferenz (Künstliche Intelligenz) lässt sich verbessern, wenn KI-Modelle mit ausreichend Daten trainiert werden.
Wenn ein KI-Modell beispielsweise mit Daten über Tiere trainiert wird – von ihren Unterschieden und Ähnlichkeiten bis hin zu typischen Gesundheitsmerkmalen und Verhaltensweisen, ist ein riesiger Datensatz erforderlich, damit das Modell Verbindungen herstellen und Muster identifizieren kann.
Nachdem es erfolgreich trainiert wurde, kann das Modell Inferenzen generieren. So kann es etwa die Rasse eines Hundes feststellen, das Miauen einer Katze erkennen oder sogar vor einem frei laufenden Pferd warnen. Obwohl es diese Tiere außerhalb eines abstrakten Datensatzes noch nie gesehen hat, kann es aufgrund der umfassenden Trainingsdaten in Echtzeit Inferenzen in einer neuen Umgebung generieren.
Unser menschliches Gehirn stellt Verbindungen auf die gleiche Weise her. Wir können uns in Büchern, Filmen oder Onlineressourcen über verschiedene Tiere informieren. Wir können uns Bilder oder Videos ansehen und uns anhören, wie diese Tiere klingen. Wenn wir dann einen Zoo besuchen, können wir Inferenzen generieren und beispielsweise einen Büffel erkennen. Selbst wenn wir noch nie im Zoo gewesen sind, können wir das Tier identifizieren, weil wir vorher dazu recherchiert haben. Das Gleiche gilt auch für KI-Modelle während der KI-Inferenz.
Warum ist KI-Inferenz wichtig?
Unter KI-Inferenz versteht man die operative Phase von KI, in der das Modell in der Lage ist, das im Training Erlernte auf reale Situationen anzuwenden. Die Fähigkeit von KI, Muster zu erkennen und Rückschlüsse zu ziehen, unterscheidet sie von anderen Technologien. Dadurch kann sie bei täglichen Aufgaben in der Praxis oder bei einer besonders komplizierten Computerprogrammierung von großer Hilfe sein.
Red Hat AI | Open Source KI-Modelle für Hybrid Cloud
Use Cases für KI-Inferenz
Unternehmen können KI-Inferenz heute in verschiedenen alltäglichen Use Cases nutzen. Hier einige Beispiele:
Gesundheitswesen: KI-Inferenz kann Fachkräfte im Gesundheitswesen dabei unterstützen, die Patientenanamnese mit aktuellen Daten zu vergleichen und Muster und Anomalien schneller festzustellen als Menschen. Beispiele sind Ausreißerwerte in einem Gehirnscan oder ein zusätzlicher Herzschlag. Dadurch können Anzeichen für eine gesundheitliche Gefährdung von Patientinnen und Patienten viel früher und viel schneller erkannt werden.
Finanzwesen: Wenn KI-Inferenz mit großen Datensätzen von Bank- und Kreditinformationen trainiert wurde, kann sie Fehler oder ungewöhnliche Daten in Echtzeit identifizieren, um Betrug früh und schnell zu erfassen. Dies kann Ressourcen für den Kundenservice optimieren, Kundendaten besser schützen und den Ruf der Marke verbessern.
Automobilbranche: Seit dem Einzug von KI in die Welt der Automobile verändern autonome Fahrzeuge die Art und Weise, wie wir unsere Fahrzeuge bewegen. KI-Inferenz kann Fahrzeuge etwa dabei unterstützen, die effizienteste Route von A nach B zu finden oder zu bremsen, wenn wir uns einem Stoppschild nähern. Dies vereinfacht das Fahren und erhöht die Sicherheit der Fahrzeuginsassen.
Viele weitere Branchen wenden KI-Inferenz auch kreativ an. Sie lässt sich für Drive-ins von Fast-Food-Restaurants, Veterinärkliniken oder Hotelconcierges nutzen. Viele Unternehmen sind gerade dabei, die Technologie ganz unterschiedlich zu ihrem Vorteil einzusetzen, um etwa die Genauigkeit zu verbessern, Zeit und Geld zu sparen und im Wettbewerb einen Schritt voraus zu bleiben.
Was ist KI-Training?
KI-Training bezieht sich auf den Prozess, das Modell mithilfe von Daten zu trainieren, damit es lernt, Verbindungen herzustellen und Muster zu identifizieren. Training ist also der Lehrprozess eines Modells, während Inferenz das KI-Modell in Aktion beschreibt.
Der Großteil von KI-Training findet in den Anfangsphasen der Modellentwicklung statt. Nach Abschluss des Trainings kann das Modell Verbindungen herstellen, und zwar mit Daten, die ihm völlig neu sind. Wird ein KI-Modell mit einem größeren Datensatz trainiert, kann es mehr Verbindungen erlernen und dadurch genauere Inferenzen generieren. Wenn das Modell nach dem Training Probleme hat, akkurate Inferenzen zu generieren, kann Fine Tuning sein Wissen ergänzen und so die Genauigkeit verbessern.
Training und KI-Inferenz ermöglichen es der KI, menschliche Fähigkeiten nachzuahmen, etwa das Ziehen von Rückschlüssen, die auf Evidenz und Logik basieren.
Welche Arten von KI-Inferenz gibt es?
Durch verschiedene Arten von KI-Inferenz lassen sich unterschiedliche Use Cases unterstützen.
- Batch-Inferenz: Batch-Inferenz wird so genannt, weil sie Daten in sehr großem Umfang erhält und verarbeitet. Statt Inferenz in Echtzeit zu verarbeiten, werden Daten bei dieser Methode in Wellen verarbeitet. Dies kann stündlich oder sogar täglich erfolgen, je nach Datenumfang und Effizienz des KI-Modells. Diese Inferenzen werden auch „Offline-Inferenzen“ oder „statische Inferenzen“ genannt.
Online-Inferenz: Online-Inferenzen oder „dynamische“ Inferenzen können Antworten in Echtzeit bereitstellen. Bei diesen Inferenzen sind Hardware und Software erforderlich, die Latenzbarrieren reduzieren und Highspeed-Vorhersagen unterstützen. Online-Inferenz ist etwa am Edge nützlich, da die KI ihre Arbeit dabei dort erledigt, wo sich die Daten befinden. Das kann auf einem Smartphone, im Auto oder in einem entlegenen Büro mit eingeschränkter Konnektivität sein.
ChatGPT von OpenAI ist ein gutes Beispiel für Online-Inferenz. Es benötigt vorab sehr viel operative Unterstützung, um schnelle und akkurate Antworten liefern zu können.
- Streaming-Inferenz: Streaming-Inferenz beschreibt KI-Systeme, die nicht unbedingt zur Kommunikation mit Menschen verwendet werden. Anstelle von Prompts und Anfragen erhalten solche Modelle einen konstanten Datenfluss, um Vorhersagen zu treffen und ihre interne Datenbank zu aktualisieren. Streaming-Inferenz kann Änderungen überwachen, die Regelmäßigkeit aufrechterhalten und Probleme vorhersagen, bevor sie entstehen.
Was ist ein KI-Inferenzserver?
Ein KI-Inferenzserver ist die Software, dank der ein KI-Modell den Sprung vom Training in den Betrieb schafft. Ein solcher Server unterstützt das Modell mithilfe von maschinellem Lernen dabei, das Gelernte in der Praxis anzuwenden und Inferenzen zu generieren.
Der KI-Inferenzserver und das KI-Modell müssen kompatibel sein, damit sie effiziente Ergebnisse liefern können. Hier sind einige Beispiele von Inferenzservern und Modellen, die optimal zusammenarbeiten:
- Multimodal-Inferenzserver: Diese Art von Inferenzserver kann verschiedene Modelle gleichzeitig unterstützen. Das bedeutet, dass ein solcher Server Daten in Form von Code, Bildern oder Text erhalten und all diese unterschiedlichen Inferenzen auf einem einzigen Server verarbeiten kann. Ein Multimodal-Inferenzserver nutzt GPU- und CPU-Arbeitsspeicher auf effizientere Weise, damit er mehr als ein Modell unterstützen kann. Dies kann Hardware und Kosten optimieren und erleichtert die Skalierung.
- Einzelmodell-Inferenzserver: Diese Art von Inferenzserver unterstützt nur ein einziges Modell. Der KI-Inferenzprozess dieses Servers ist auf die Kommunikation mit einem Modell spezialisiert, das anhand eines spezifischen Use Cases trainiert wurde. Es kann möglicherweise Daten nur in Textform oder nur in Codeform verarbeiten. Dank dieser Spezialisierung ist es unglaublich effizient, was für die Entscheidungsfindung in Echtzeit oder bei Ressourcenbeschränkungen nützlich sein kann.
Herausforderungen der KI-Inferenz
Die größten Herausforderungen beim Ausführen von KI-Inferenz sind Skalierung, Ressourcen und Kosten.
- Komplexität: Es ist einfacher, einem Modell beizubringen, simple Aufgaben auszuführen. Beispielsweise lernt es schnell, Bilder zu generieren oder Kunden über Rückgaberichtlinien zu informieren. Wenn wir Modelle zum Erlernen komplexerer Daten nutzen, damit diese etwa Finanzbetrug stoppen oder medizinische Anomalien identifizieren, sind mehr Daten für das Training erforderlich. Außerdem bedarf es mehr Ressourcen, die diese Daten unterstützen.
- Ressourcen: Komplexere Modelle erfordern spezielle Hardware und Software, um das enorme Ausmaß an Datenverarbeitung zu ermöglichen, das stattfindet, wenn ein Modell Inferenzen generiert. Eine wichtige Komponente dieser Ressourcen ist der CPU-Speicher (Central Processing Unit). Eine CPU wird oft auch als Hub oder Kontrollzentrum des Computers bezeichnet. Wenn ein Modell auf der Basis seines Wissens – der Trainingsdaten – eine Antwort generieren will, muss es auf die Daten zurückgreifen, die sich im CPU-Speicher befinden.
- Kosten: Diese einzelnen Puzzleteile, die KI-Inferenz erst ermöglichen, sind nicht gerade kostengünstig. Unabhängig davon, ob Sie skalieren oder auf die neueste KI-gestützte Hardware umsteigen wollen – die erforderlichen Ressourcen können zusammen ziemlich umfangreich sein. Mit der zunehmenden Komplexität der Modelle und der Weiterentwicklung der Hardware können die Kosten drastisch ansteigen. Dadurch kann es für Unternehmen schwierig werden, mit KI-Innovationen Schritt zu halten.
vLLM, ein Inferenzserver, der die Ausgabe generativer KI-Anwendungen beschleunigt, ist eine mögliche Lösung für diese Herausforderungen.