Was ist AgentOps?

Veröffentlicht 24. April 2026•9 Minuten (Lesedauer)

AgentOps (Agent Operations) ist ein Framework von Tools zum Monitoring des „Gehirns“ einer KI bei der Entscheidungsfindung in Echtzeit. Betrachten Sie es als eine Möglichkeit, Ihre autonomen KI-„Beschäftigten“ zu verwalten und deren Parameter festzulegen. Der Ansatz trägt dazu bei, dass ein Agent eine ihm übertragene Aufgabe effizient, sicher und innerhalb des vorgegebenen Budgets erledigt.

Mehr über Red Hat AI erfahren

Das Handeln der Agenten ist nichtdeterministisch – das heißt, es wird durch eine Reihe zufälliger Wahrscheinlichkeitsverteilungen bestimmt. Das bedeutet, dass sich ihre Aktionen nicht genau vorhersagen lassen. Diese mangelnde Vorhersagbarkeit hilft den Agenten, kreative Wege zur Problemlösung zu finden. Doch in der Produktion kann Autonomie ohne Erklärbarkeit zu einem Nachteil werden. AgentOps hilft dabei, dieses Risiko zu mindern.

Agentische KI ist ein Softwaresystem, das für die Interaktion mit Daten und Tools ausgelegt ist, sodass nur minimale menschliche Eingriffe erforderlich sind. Mit dem Schwerpunkt auf zielorientiertem Verhalten kann agentische KI Aufgaben bewältigen, indem sie eine Liste von Schritten erstellt und diese dann eigenständig ausführt.

Agentische KI stellt eine Möglichkeit dar, Automatisierung mit den kreativen Fähigkeiten eines LLMs (Large Language Model) zu kombinieren. Um agentische KI in die Praxis umzusetzen, gewährt man einem LLM Zugang zu externen Tools und Algorithmen, die Anweisungen liefern, wie die KI-Agenten diese Tools verwenden sollen.

KI-Agent im Vergleich zu agentischer KI

Worin besteht der Unterschied zwischen einem KI-Agenten und agentischer KI? Ein KI-Agent ist ein Substantiv („Ich entwickle 3 Agenten.“) und agentische KI ist beschreibend („Wir müssen unsere Software agentischer machen.“).

Ein KI-Agent ist eine Software-Entität, die so konstruiert ist, dass sie innerhalb eines agentischen Systems arbeitet und eine bestimmte Rolle ausführt. Agentische KI beschreibt ein System, das mit begrenzter menschlicher Anleitung planen, Entscheidungen treffen und Maßnahmen zur Erreichung von Zielen ergreifen kann. Agentische KI bezieht sich auf die Verhaltensmerkmale eines Systems.

AgentOps dient sowohl KI-Agenten als auch agentischer KI auf unterschiedliche Weise.

Für KI-Agenten bietet AgentOps folgende Unterstützung:

Identität und Versionierung: erfasst die Unterschiede in den Persönlichkeiten und Fähigkeiten der Agenten
Tool-Management: überwacht, welche Agenten Zugang zu welchen APIs (Application Programming Interface) und Datenbanken haben
Kosten- und Ressourcenverfolgung: erfasst, wie viel Geld Agent A im Vergleich zu Agent B ausgibt

AgentOps unterstützt agentische KI bei Folgendem:

Nachverfolgbarkeit: bildet den „Gedankenbaum“ oder das Reasoning ab, damit ein Mensch nachvollziehen kann, warum die KI sich für eine bestimmte Handlung entschieden hat (etwa, warum die KI Schritt 3 vor Schritt 2 ausgeführt hat)
Erfolgsquoten: messen den Erfolg des von Ihnen geschaffenen gesamten Agentensystems
Halluzinationserkennung: erkennt Fehler in Echtzeit, bevor der Agent zu viele Ressourcen für die falschen Aktionen aufwendet

KI-Agenten und agentische Workflows können so autonom sein, wie wir sie programmieren. Unabhängig davon, wo sich ein Workflow im agentischen Spektrum befindet, ist AgentOps für Zuverlässigkeit und Übersichtlichkeit wichtig.

Grad der Autonomie	Logikstil	Gründe für AgentOps
Am wenigsten agentisch	Zuerst A ausführen, dann B und dann C.	Abfangen von LLM-Halluzinationen und API-Fehlern.
Semi-agentisch	Zuerst A ausführen, und dann zwischen B und C entscheiden.	Verstehen, warum KI B gegenüber C bevorzugt hat.
Vollständig agentisch	Das ist unser Ziel. Herausfinden, wie dies zu erreichen ist.	Reasoning, Evaluierung und Optimierung verstehen.

Use Cases für agentische KI ansehen

Agentische Workflows können helfen, Probleme kreativ zu lösen, aber diese Kreativität muss gemanagt werden, damit Systeme nicht außer Kontrolle geraten. AgentOps trägt zur Risikominderung bei agentischer KI bei, indem es agentische Systeme beobachtet, bewertet, steuert und optimiert.

Beobachtbarkeit

Agenten erzeugen einen Eindruck von „Vernunft“ in einem Kreislauf von Denken-Handeln-Beobachten. Wenn in diesem Prozess ein Fehler auftritt, kann die gesamte Aufgabe scheitern. Wenn ein Agent etwas Unerwartetes tut, müssen Sie seine Logik untersuchen, um den Fehler zu finden. AgentOps bietet eine nachvollziehbare Reasoning-Kette, sodass ein Mensch die Ursache einer Fehlentscheidung erkennen kann.

Echtzeitauswertung

Während Ihr Hauptagent arbeitet, kann ein sekundärer Agent (über AgentOps-Prozesse) eingerichtet werden, um ihn zu überwachen. Wenn der Überwachungsagent feststellt, dass der Hauptagent halluziniert oder von seinem Ziel abweicht, kann er das System anhalten oder es für eine menschliche Intervention markieren.

Governance

Wenn wir Aufgaben an Agenten delegieren, müssen wir Leitplanken einrichten. Leitplanken sind Barrieren, die dafür sorgen, dass KI-Systeme innerhalb definierter Grenzen operieren. Mit AgentOps können Sie HITL-Checkpoints (Human-in-the-Loop) implementieren und sicherstellen, dass Agenten keine risikoreichen Aktionen (wie das Löschen von Dateien oder das Ausgeben von Geld) durchführen können, ohne dass dies eine Person vorher genehmigt.

Kostenoptimierung

AgentOps stellt Ihnen die Belege zur Verfügung, um Ihnen zu zeigen, ob der Agent ineffizient arbeitet. Beispielsweise könnte er sich für ein zu teures Modell entscheiden oder ein Problem auf eine zu komplexe Weise lösen, die zu viele Ressourcen verbraucht.

Mit AgentOps können Sie Ihr System anhand von Anweisungen wie den folgenden einrichten:

„Aufgabe abbrechen, wenn sie mehr als 5,00 US-Dollar kostet.“
„Aufgabe abbrechen, wenn sie mehr als 20 Schritte umfasst.“
„Den Befehl ‚Löschen‘ sperren.“

AgentOps ist ein entscheidendes Element für diejenigen, die souveräne KI-Praktiken implementieren möchten. Bei souveräner KI geht es darum, die Technologie zu besitzen, Daten lokal zu halten und sicherzustellen, dass Ihre KI-Systeme Ihre Werte und rechtlichen Anforderungen widerspiegeln.

AgentOps sorgt für Transparenz in unseren Systemen, was aus rechtlicher Sicht wichtig ist. Schließlich wird die Verteidigungsstrategie „Die KI hat das so entschieden“ vor Gericht keinen Bestand haben.

Wir bewegen uns weg von der Nutzung von KI als Tool zur Beantwortung von Fragen hin zu ihrer Nutzung als System, das den Kontext versteht. Daher müssen Organisationen semantische Schichten und Model Context Protocol (MCP) Gateways erstellen, die es einem KI-Agenten ermöglichen, sicher durch eine ganze Sammlung von Unternehmensdaten zu navigieren. AgentOps kann folgende Unterstützung bieten:

Nachverfolgung der Nutzung von Hardware-Ressourcen
Monitoring der Häufigkeit von Halluzinationen
Sicherstellen, dass die Daten verschlüsselt bleiben
Erstellen eines auditierbaren Protokolls der vom Agenten durchgeführten Aktionen
Beenden eines Prozesses, falls Richtlinienverstöße auftreten

In einem souveränen KI-System kann AgentOps eine überprüfbare Aufzeichnung von Entscheidungen, Datenflüssen und Tool-Interaktionen bereitstellen, damit Sie besser verstehen können, wie Ihr System funktioniert.

Ein vollständig handlungsfähiger Agent trifft seine eigenen Entscheidungen, wählt seine eigenen Tools und korrigiert seine eigenen Fehler. Dies erfordert viele komplexe Entscheidungsfindungen, die zu einem „Black Box“-Problem werden.

Der Begriff „Black Box“ bezeichnet ein KI-Modell, das zu komplex ist, um von Menschen verstanden zu werden, und dessen Funktionsweise nicht offengelegt wird, oder beides. So entsteht eine Situation, in der nicht einmal die Data Scientists und Engineers, die den Algorithmus entwickelt haben, genau erklären können, wie das Modell zu einer bestimmten Ausgabe gelangt ist. Um das Black Box-Problem zu lösen, benötigen wir erklärbare KI (XAI).

Erklärbare KI (XAI) ist eine Philosophie und eine Reihe von Praktiken, die darauf abzielen, die Aktionen von KI für Menschen verständlich zu machen. AgentOps ist das Toolkit, das dies ermöglicht.

AgentOps kann eine chronologische Übersicht aller Reasoning-Schleifen, Tool-Aufrufe und Beobachtungen eines KI-Agenten bereitstellen. Dies hilft uns dabei, die Motivation nachzuvollziehen, warum ein Agent sich für das eine Tool und gegen ein anderes entschieden hat. Es bietet Menschen auch die Möglichkeit, über Reinforcement Learning Feedback zu geben, um den Agenten zu korrigieren, falls dieser einen Fehler macht.

AgentOps kann beispielsweise eine Schnittstelle bereitstellen, über die Menschen den Grund für die Ausführung einer Aufgabe durch den Agenten nachlesen können. Dann können wir dem Agenten sagen: „Schritt 3 war eine Fehlentscheidung; es wurde ein zu teures Modell verwendet.“

AgentOps ist eine weitere Ergänzung zur Ops-Familie (Operations) (wie DevOps, AIOps, MLOps und LLMOps). Nehmen wir uns einen Moment Zeit, um die verschiedenen Arten von Abläufen zu definieren und zu erklären, wie sie zusammenwirken.

DevOps ist die Basis, auf der sämtliche andere Abläufe aufgebaut sind. DevOps bezeichnet einen Ansatz, der sicherstellen soll, dass jegliche Software zuverlässig entwickelt, getestet und bereitgestellt werden kann. Das Ziel von DevOps ist die Beschleunigung der Softwarebereitstellung.
AIOps (KI für IT-Abläufe) befasst sich mit der Anwendung von KI im DevOps-Bereich. Das Ziel von AIOps ist es, mithilfe von KI IT-Abläufe zu automatisieren und Fehler zu verhindern, bevor sie auftreten. Der Ansatz hilft bei der Überwachung von Servern und der Verhinderung von Abstürzen.
Bei MLOps (Machine Learning Operations) geht es um die Verwaltung des Lifecycles eines Machine Learning-Modells. Das Ziel von MLOps ist es, sicherzustellen, dass die Genauigkeit des Modells nicht abweicht, wenn neue Daten hinzukommen.
LLMOps (Large Language Model Operations) ist eine Untergruppe von MLOps, die speziell für die Verwaltung von LLMs entwickelt wurde. Ziel von LLMOps ist es, Prompts zu verwalten, Halluzinationen zu reduzieren und die Kosten von API-Aufrufen zu senken.

Mehr über AIOps mit Red Hat erfahren

Was hat das alles mit AgentOps zu tun?

Um mit AgentOps ein zuverlässiges Geschäftsprodukt betreiben zu können, müssen LLMOps und DevOps bereits implementiert sein. AIOps und MLOps können ebenfalls hilfreich sein. Wie können sie zusammenarbeiten?

DevOps: Zum Erstellen eines Agenten benötigen Sie Code. Dieser Code muss auf zuverlässige und skalierbare Weise verarbeitet und über Server übertragen werden. DevOps stellt sicher, dass dies geschieht.
LLMOps: LLMOps verarbeitet die Logik des Prompts der Nutzenden und hilft dem Agenten, diese in einen Aktionsplan umzusetzen.
MLOps: MLOps stellt sicher, dass die vom Agenten verwendeten Machine Learning-Modelle korrekt sind. Dies kann bedeuten, dass das Modell automatisch mit aktuellen Daten aktualisiert wird und sichergestellt wird, dass der Agent das aktualisierte Modell und keine alte Version aufruft.
AIOps: Wenn ein Server abstürzt, könnten bis zu 1000 Warnmeldungen ausgelöst werden. AIOps kann erkennen, dass alle diese Warnmeldungen vom selben Event stammen und den Menschen mit nur einer einzigen Warnmeldung über 1 „schwerwiegenden Vorfall“ informieren. Das ist effizienter und sorgt für weniger Verwirrung.

Sie sollten AgentOps in sämtlichen Phasen eines agentischen Workflows anwenden, von der operativen Basis über Sicherheitsmaßnahmen bis hin zur fortgeschrittenen Skalierung.

Sie sollten auf einer operativen Basis aufbauen. Dies bedeutet, sicherzustellen, dass die folgenden Systeme vorhanden sind:

Standardisierte Protokolle

Damit Agenten innerhalb eines digitalen IT-Ökosystems interagieren können, müssen sie mit den von ihnen verwendeten Tools eine gemeinsame Sprache sprechen. MCP ermöglicht eine bidirektionale Verbindung und eine standardisierte Kommunikationsform zwischen KI-Anwendungen und externen Services. Ohne ein standardisiertes Protokoll wie MCP kann agentische KI zwar denken und planen, aber nicht mit externen Systemen interagieren.

Fehlerbehandlungsmechanismen

Bei der Arbeit mit agentischen Workflows ist es wichtig, Instabilität und Funktionsunfähigkeit zu berücksichtigen. Das bedeutet, innerhalb Ihres Systems Versicherungspolicen zu erstellen, die Fehler beheben können, wenn sie auftreten – zum Beispiel, dass im Falle eines Autounfalls ein Airbag bereitsteht. Diese Funktionen werden manchmal auch als Funktionen „mit Selbstreparaturfunktion“ bezeichnet.

Wiederholungslogik: Gelegentlich können Elemente des Systems, das Ihr Agent verwendet, vorübergehend ausfallen, was zu Instabilität führt. Anstatt den gesamten Workflow zu unterbrechen, ist der Aufbau einer Wiederholungslogik eine gute Verteidigungsstrategie. Das bedeutet, Anweisungen zu erstellen, wie vorgegangen werden und Selbstkorrekturen durchgeführt werden sollen, um endlose Reasoning-Schleifen (und kostspielige Rechnungen) zu vermeiden.
Ausweichmodell: Dieses sekundäre Modell kann einspringen, wenn das primäre Modell nicht mehr leistungsfähig ist oder zu teuer wird. Wenn Ihr Agent beispielsweise OpenAI verwendet und dieses ausfällt, kann Ihr Agent auf ein lokales Modell wie Llama 3 umschalten.

Tool-Leitplanken

Wenn die Mechanismen zur Fehlerbehandlung die Airbags sind, die sich als Reaktion auf einen Aufprall entfalten, dann sind die Leitplanken die Bremsen, die einen Aufprall von vornherein verhindern sollen. Sie können Regeln festlegen, die Ihr Agent befolgen soll, wie etwa dass Dateien nur gelöscht werden, wenn dies von einem Menschen genehmigt wird.

Governance und Compliance

Durch Governance und Compliance stellen Sie sicher, dass sämtliche Aktionen Ihrer Agenten protokolliert und nachvollziehbar sind. Dies ist besonders wichtig in Bereichen, die eine strikte Einhaltung von Datenschutzgesetzen erfordern, wie etwa der Datenschutz-Grundverordnung (DSGVO) oder dem Health Insurance Portability and Accountability Act (HIPAA).

Speicheroptimierung

Agenten können „verwirrt“ werden, wenn ihr Gesprächsverlauf zu lang ist. Dies überlagert ihr Kontextfenster und kann zu einer Aufmerksamkeitsabweichung führen, was Halluzinationen oder den Verlust ihrer Fähigkeit zum Erreichen eines Ziels zur Folge haben kann. Mit vLLM lässt sich der Speicher optimieren. vLLM nutzt PagedAttention (als Speichermanagement-Technik), um agentischen Systemen die effiziente Verarbeitung langer Kontextverläufe in großem Umfang zu ermöglichen. vLLM ist besonders nützlich für agentische Workflows, da es auch bei steigender Komplexität eine hohe Performance gewährleistet.

Mehr über vLLM erfahren

Frameworks für die Zusammenarbeit von mehreren Agenten

Bei der Zusammenarbeit von mehreren Agenten werden mehreren unabhängigen LLMs unterschiedliche Rollen, Erinnerungen und Tools zugewiesen. Man könnte beispielsweise einen Agenten als „Forscher“ und einen anderen als „Entwickler“ einsetzen, die Nachrichten hin und her senden, um ein Endergebnis zu erzeugen. Das Ziel der Zusammenarbeit mehrerer Agenten ist es, die Grenzen eines einzelnen Modells zu überwinden, indem die Agenten gezwungen werden, zusammenzuarbeiten und sich gegenseitig zu kritisieren.

Autonomie-Dilemma

Unabhängigkeit kann zu großartigen Ergebnissen führen – oder zu Chaos. Das richtige Maß an Agentenautonomie zu finden, ist knifflig und erfordert viel Zeit, um mithilfe von Leitplanken das richtige Gleichgewicht herzustellen. Dafür müssen Entwicklungsteams Kontrollpunkte mit menschlicher Einbindung einrichten, um sicherzustellen, dass der Agent nur innerhalb der genehmigten Grenzen agiert.

Ethische und Compliance-Fragen

Agenten sind zielorientiert und könnten sich „kreativ“ dafür entscheiden, Abkürzungen zu nehmen, wie etwa einem Kunden einen nicht autorisierten Preisnachlass anzubieten, um einen Abschluss zu erzielen. Dies kann gegen Gesetze zur fairen Kreditvergabe oder interne Richtlinien verstoßen. Zur Lösung dieses Problems sind Durchsetzungsebenen für Richtlinien und Audits erforderlich, um sicherzustellen, dass die Maßnahmen der Agenten den rechtlichen und unternehmensinternen Standards entsprechen.

Bedenken bezüglich des Datenschutzes

Da Agenten auf viele Datenquellen zugreifen können, besteht das Risiko, dass sie versehentlich sensible oder private Daten an Personen weitergeben, die keinen Zugang dazu haben sollten. Dagegen kann man sich mit einer Liste verbotener Handlungen schützen.

Unerwartete Kosten

Agenten arbeiten in einer Schleife (denken-handeln-beobachten), die schnell (und teuer) in eine Spirale ausarten kann. Es ist wichtig, vorauszudenken und Budgetobergrenzen sowie Sicherheitsnetze einzuführen, um eine zu hohe Ressourcennutzung zu vermeiden.

Skalierbarkeit

Die Ausführung eines Agenten auf einem Laptop unterscheidet sich grundlegend von der Ausführung von 1.000 Agenten, die 1.000 Workflows gleichzeitig ausführen. Der Einsatz von Tools wie verteilter Inferenz, llm‑d und vLLM hilft dabei, die enorme Anzahl an Speicher- und Rechenanforderungen zu bewältigen, die zum Betrieb einer ganzen Flotte von Agenten erforderlich sind.

Hier einige Beispiele dafür, wie ein Unternehmen AgentOps zur Verwaltung seiner Workflows einsetzen könnte:

Finanzwächter

Ein Team von Agenten überwacht täglich Tausende von Transaktionen und meldet Betrug oder Verstöße gegen die Richtlinien. Sie nehmen Daten auf, gleichen diese mit internen Richtlinien ab und kennzeichnen verdächtige Aktivitäten zur Überprüfung durch Menschen.

Autonomer Helpdesk-Helfer

Den Agenten wird die Möglichkeit gegeben, Code in einer Sandbox-Umgebung zu testen und zu korrigieren. Wenn ein Arbeitsticket eingereicht wird, reproduziert der Agent den Fehler in einer Sandbox, schreibt einen möglichen Fix und führt dann Tests durch. Wenn er eine gute Idee hat, wie das Problem behoben werden kann, benachrichtigt er einen Menschen, der die Arbeit des Agenten überprüft und genehmigt.

Überwacher der Lieferkette

Ein agentisches System überwacht das globale Wetter, Schifffahrtsstreiks und Hafenstaus. Es macht das Team auf Wetterstörungen aufmerksam, berechnet die Kosten für eine Umleitung und schlägt eine Änderung vor.

Red Hat® AI operationalisiert den gesamten Lifecycle eines Agenten durch eine dedizierte AgentOps Control Plane. Dadurch wird sichergestellt, dass die einzelnen Deployments in Ihrer Hybrid Cloud-Umgebung geschützt, nachvollziehbar und effizient sind.

Die Plattform bietet Governance auf Unternehmensebene durch integrierte Sicherheits-Leitplanken. Die zugrundeliegende Infrastruktur nutzt vLLM und llm‑d für leistungsstarke verteilte Inferenz, sodass Sie ressourcenintensive Workflows skalieren können – von On-Premise- bis hin zu Edge-Umgebungen.

Red Hat AI bietet schnelle, flexible und effiziente Inferenz durch seinen vLLM-basierten Server. Die Lösung verknüpft die Modelle zuverlässig mit Ihren Daten, um die Anpassung und Entwicklung spezialisierter Agenten auf einer einzelnen Plattform zu vereinheitlichen. Unsere KI-Produkte basieren auf Open Source und bieten Ihnen die vollständige End-to-End-Kontrolle über KI-Workflows in beliebigem Umfang.

Weiterlesen

Was ist Mixture of Experts (MoE)?

„Mixture of Experts“ (MoE) ist eine Modellarchitekturtechnik, mit der sich die KI-Inferenz beschleunigen lässt. Dabei werden Aufgaben an den leistungsfähigsten Teil des Modells weitergeleitet.

Was sind prädiktive Analysen? Definition und Techniken

Verbessern Sie Ihre IT-Performance durch prädiktive Analysen. Von neuronalen Netzwerken bis zum maschinellen Lernen – Daten zeigen Ihnen Trends und Chancen.

Was ist souveräne KI?

Beim Thema souveräne KI geht es darum, KI-Technologie selbst zu besitzen, Daten lokal zu speichern und sicherzustellen, dass Ihre Systeme Ihre individuellen Werte und rechtlichen Anforderungen widerspiegeln.

Ressourcen zu KI/ML

Ausgewähltes Produkt

Red Hat AI

Flexible Lösungen, die die Entwicklung und Bereitstellung von KI-Lösungen in Hybrid Cloud-Umgebungen beschleunigen.