Die Architektur hinter autonomen Systemen
Die rasante Entwicklung der Künstlichen Intelligenz (KI) – insbesondere in den Bereichen Generativer KI(GenAI) und Large Language Models (LLMs) – ebnet den Weg für immer leistungsfähigere Agentenarchitekturen. Ein besonders spannender Fortschritt ist die Integration von LLMs in agentische KI-Systeme, die komplexe Aufgaben effizienter bewältigen können – etwa in der automatisierten Kundenberatung, imProjektmanagementoder bei derstrategischen Entscheidungsfindung.
Stellen Sie sich ein Unternehmen vor, das einen virtuellen Projektmanager einsetzt – einen KI-Agenten, der nicht nur Aufgaben plant, sondern auch mit spezialisierten Agenten für Technik, Marketing und Finanzen zusammenarbeitet. Während der Projektmanager den Überblick behält, identifiziert der technische Agent potenzielle Herausforderungen, der Marketing-Agent entwickelt und plant eine entsprechende Produktstrategie, und der Finanz-Agent achtet auf das Budget. Das gesamte System agiert autonom undnahtlos – dank der LLM-basierten Kommunikation zwischen den Agenten.
Im Folgenden werfen wir einen detaillierten Blick auf die Architektur solcher LLM-Agenten. Wir beleuchten, was sie ausmacht, wie sie organisiert sind und welche Kernkonzepte hinter ihrer Funktionsweise stehen. Außerdem stellen wir die führenden Frameworks und Tools vor, die die Entwicklung solcher Systeme ermöglichen.
Ein KI-Agent ist ein autonomes System, das in einer bestimmten Umgebung agiert, um definierte Ziele zu erreichen. Er nimmt Informationen aus seiner Umgebung auf, verarbeitet sie und leitet daraus gezielte Aktionen ab, um seine Aufgaben zu erfüllen. Durch die Integration von LLMs können diese Agenten nicht nur natürliche Sprache verstehen, sondern auch generieren, wodurch sich ihre Einsatzmöglichkeiten erheblich erweitern. Sie kombinieren effiziente Problemlösung mit einem tiefen Verständnis für komplexe Eingaben – vergleichbar mit einem Microservice, nur weitaus leistungsfähiger.
LLM-basierte Agentensysteme finden in verschiedenen Bereichen Anwendung. Darunter sind vor allem folgende Einsatzgebiete populär:
LLM-basierte Agentensysteme können in der Softwareentwicklung eingesetzt werden, um komplexe Probleme zu lösen und die Zusammenarbeit zwischen verschiedenen Softwaremodulen zu verbessern.1
Durch die Fähigkeit, natürliche Sprache zu verstehen und zu generieren, können LLM-basierte Agenten in Simulationen eingesetzt werden, um menschliches Verhalten nachzubilden oder komplexe Szenarien zu modellieren.2
In autonomen Systemen, wie z. B. Customer Support oder autonomen Fahrzeugen, können LLM-basierte Agenten eingesetzt werden, um komplexe Entscheidungsprozesse zu unterstützen und die Interaktion mit Menschen zu verbessern.
Der Einsatz von KI-Agenten in unterschiedlichen Unternehmensbereichen bietet zahlreiche Vorteile – von gesteigerter Produktivität über Kostensenkung bis hin zur Automatisierung komplexer Prozesse. Drei zentrale Vorteile sind:
Durch ihre hohe Autonomität können Agenten die ihnen zugewiesenen Aufgaben ohne menschliche Interaktion umsetzen. Agenten entscheiden aufgrund der ihnen vorliegenden Daten in unerreichbarer Effizienz, dabei stehen ihnen Tools und Modelle zur Verfügung, die Findung einer optimalen Lösung unterstützen. 3
Automatisierung reduziert Kosten. Das gilt auch für den Einsatz von KI-Agenten. In einem Multi-Agent-System-Projekt in der Automobilindustrie haben wir ein System zur Automatisierung der Fehleranalyse implementiert. Das System identifiziert Grundursachen in ca. 30 Minuten und verbessert die Zusammenarbeit zwischen Qualitätsmanagement, Produktion und Werkstätten. Die Agenten sind in der Lage, Korrekturmaßnahmen selbständig einzuleiten. Durch dieses System können jährlich bis zu 13 Millionen Euro an Garantiekosten gespart werden.
Generative KI-Agenten können nicht nur repetitive Aufgaben lösen oder isolierte Entscheidungen treffen. Zusammengesetzt in einem Agentensystem können diese Agenten im Zusammenspiel hochkomplexe Aufgaben und Prozesse autonom umsetzen. Im Kundenservice würde dann ein Agent die Kommunikation mit den Kunden entweder per Chat oder Sprache übernehmen. Ein weiterer Agent analysiert und klassifiziert die Anliegen der Kunden und leitet sie zu den entsprechenden Bereichen weiter. Standardaufgaben wie Abwicklung von Retouren würden dann von spezialisierten Agenten vollautomatisiert ausgeführt. Zum Abschluss werden die automatisiert erstellten Antworten noch von einem letzten auf Plausibilität und Richtigkeit geprüft, sodass die Fehlerquote möglichst niedrig bleibt. Bei 2nd oder 3rd-Level-Support oder anderen nicht automatisierbaren Themen können auch im Rahmen eines solchen Systems Menschen zur Lösung oder Überprüfung und Validierung eingebunden werden (Human in the Loop).
Die Architektur von LLM-basierten Agentensystemen umfasst mehrere zentrale Konzepte:
Wahrnehmung (Perception): Agenten sammeln Daten aus ihrer Umgebung, die sowohl strukturiert als auch unstrukturiert sein können, einschließlich natürlicher Sprache. Relevante Datenquellen sind immer abhängig jeweiligen Anwendungsfall. Hier sind nur ein paar Beispiele:
Kognition (Cognition/Reasoning): Die Integration von LLMs ermöglicht es Agenten, komplexe Sprachverarbeitung durchzuführen, Kontext zu verstehen und fundierte Entscheidungen zu treffen.
Aktion (Action): Basierend auf der durch die kognitive Verarbeitung getroffenen Entscheidung führen Agenten Aktionen aus, die von physischen Bewegungen bis hin zur Generierung von Text oder Code reichen können.
Der folgende Abschnitt erläutert die technischen Ansätze zur Umsetzung verschiedener Agentenarchitekturen. Um Unterschiede, Stärken und Schwächen besser vergleichbar zu machen, werden alle Ansätze anhand eines Beispiels zur Generierung eines Fachzeitschriftenartikels skizziert. Für die Umsetzung in einem Agentensystem sind folgende Agenten essenziell:
Headline-Agent: Ein Agent, der auf die Erstellung kurzer, prägnanter und gut vermarktbarer Überschriften spezialisiert ist.
Scientific-Agent: Dieser Agent generiert den Inhalt des Artikels. Zusätzlich zum Weltwissen des Sprachmodells stehen diesem Agenten zahlreiche wissenschaftliche Quellen und Datenbanken zur Verfügung.
Visual-Agent: Da ein guter Artikel auch von der ein oder anderen Visualisierung profitiert, erstellt dieser Agent genau diese.
Im Zusammenspiel werden diese Agenten in verschiedenen Ansätzen mehr oder weniger erfolgreich einen Artikel mit Überschrift, Inhalten und passenden Grafiken erstellen. Wovon der Erfolg abhängt, erfahren Sie im Folgenden.
Dieser Ansatz basiert auf einem strikten, hierarchischen und zentralisierten Konzept. An der Spitze steht ein zentraler, orchestrierender, Agent, der alle Aufgaben und Entscheidungen steuert. Alle anderen Agenten und Systeme in diesem Konstrukt haben klar definierte Aufgaben und sind dem Orchestrator untergeordnet. Jegliche systeminterne Kommunikation läuft über den Orchestrator, die anderen Agenten agieren isoliert voneinander.
Bezogen auf unser Beispiel bedeutet das, dass der Nutzerinput direkt an den orchestrierenden Agenten geht. Aus der Eingabe erstellt dieser nun Aufgaben für die einzelnen Agenten und verteilt diese. Nach Abschluss bewertet der Orchestrator die Ergebnisse und fügt diese zum finalen Output zusammen und gibt diesen an den User zurück.
Dieser Ansatz ist sehr effizient darin, klar definierte und idealerweise sequenzielle Aufgaben umzusetzen. Es ist klar, woher welche Information stammt, und der Orchestrator hat am Ende immer die letzte Entscheidung. Eine solche Architektur eignet sich sehr gut, um definierte Prozesse anhand eines vorgebenen Regelwerks abzuarbeiten.
Damit haben wir auf der einen Seite die Vorteile eines Single-Point-of-Control; auf der anderen bedeutet dies jedoch auch einen Single-Point-of-Failure. Bei größeren, komplexen Anfragen kann der Orchestrator schnell zum Bottleneck werden, der den ganzen Prozess verlangsamt. Schlimmstenfalls könnten Probleme in jenem zentralen Agenten zu falschen Ergebnissen führen.
Der horizontale Architekturansatz ist das Gegenstück zur vertikalen Architektur. In diesem Modell gibt es keinen zentralen Orchestrator – stattdessen arbeiten alle Agenten gleichberechtigt in einem dezentralen System zusammen. Das Ziel besteht darin, die gestellte Aufgabe durch kooperative und kollaborative Interaktion effizient zu lösen. Die interne Kommunikation erfolgt zwischen den Agenten, dabei teilen sich alle Agenten die gleichen Informationen bzw. Kontext. Entscheidungen werden „gemeinsam“ getroffen, indem beteiligte Agenten die Fertigstellung ihrer Parts signalisieren.
Unsere KI-Schreibwerkstatt freut sich in diesem Beispiel über die große Autonomie in der Umsetzung. Alle Agenten starten parallel mit der Interpretation der Aufgabe und beginnen autonom mit der Umsetzung. Damit am Ende auch ein gehaltvoller Artikel entsteht, ist dieses Beispielsystem so aufgebaut, dass die Agenten ihre Ziele und Ergebnisse aufeinander abstimmen, sodass Titel, Inhalt und Grafiken auch inhaltlich zusammenpassen.
Die Stärken dieser Architektur liegen vor allem in ihrer Dynamik. Dank der Autonomie der Agenten kann ein breites Spektrum an Aufgaben mit minimalen Vorgaben bewältigt werden. So lassen sich beispielsweise komplexe, interdisziplinäre Probleme effizient „diskutieren“ und bearbeiten, indem jeder Agent als Fachexperte agiert und das Agentensystem als eine Art „Mixture of Experts“ fungiert. Derselbe Ansatz eignet sich auch für kreative Prozesse wie Brainstorming, bei denen unterschiedliche Perspektiven zusammengeführt werden.
Die Freiheit dieser Architektur bringt allerdings auch entscheidende Nachteile. So kann die Koordination von vielen Agenten in einem System schnell zur Herausforderung werden. Ohne koordinierende Instanz kann das System durch sich wiederholende Entscheidungs- und Kommunikationsschleifen schnell ineffizient werden. Generell sind horizontale KI-Architekturen deutlich langsamer als ihr vertikales Pendant. Demokratische Entscheidungen brauchen Zeit und Raum für Diskussionen. Während das in der analogen Welt unabdingbar ist, müssen KI-Agenten nicht unbedingt jedes Problem in endlosen Schleifen diskutieren.
Wie in jedem guten Designkonzept gibt es auch für agentische Systeme einen hybriden Ansatz, der darauf abzielt, die Stärken der individuellen Ansätze zu kombinieren.
Diesen Ansatz kann man sich am besten mit der Virtualisierung eines Teams vorstellen. Es gibt einen Teamlead (Orchestrator), der die Verantwortung trägt und wichtige Entscheidungen trifft. Gleichzeitig haben die Teammitglieder (Agenten) die Freiheit, ihre Aufgaben individuell zu lösen und nach Bedarf zusammenzuarbeiten.
In unserem Beispiel würde der Orchestrator wie bei der vertikalen Architektur die Aufgabe interpretieren und an die einzelnen Agenten weitergeben. Bei der Umsetzung arbeiten die Agenten jedoch parallel und stimmen sich untereinander ab, um das Ziel zu erreichen. Der Orchestrator ist in diesem Fall also nicht die absolute Kontroll- und Entscheidungsinstanz, kann jedoch im Zweifelsfall eingreifen. „Streiten“ sich beispielsweise zwei Agenten, indem sie sich nicht auf eine richtige Lösung einigen können, unterbricht der Orchestrator diese Schleife und trifft eine Entscheidung.
Die Stärken dieser Architektur liegen auf der Hand. Die Dynamik und Flexibilität der horizontalen Architektur kontrolliert und fokussiert durch eine effizienzgetriebene Kontrollinstanz als System kann adaptiv sehr komplexe Probleme lösen, die sowohl Struktur als auch Kreativität benötigen. Ein solches System ist jedoch hochkomplex und kann nicht ohne weiteres umgesetzt werden. Außerdem benötigt der Betrieb einer solchen Plattform deutlich mehr Ressourcen als die individuellen Ansätze.
Die Entwicklung von LLM-basierten Agentensystemen wird durch verschiedene Tools und Frameworks unterstützt:
Ein Open-Source-Framework, das es Entwicklern ermöglicht, LLM-Anwendungen über mehrere Agenten zu erstellen, die miteinander kommunizieren, um Aufgaben zu erfüllen. AutoGen-Agenten sind anpassbar, können Gespräche führen und in verschiedenen Modi arbeiten, die Kombinationen von LLMs, menschlichen Eingaben und Tools umfassen.5
Ein graphbasiertes Framework, das Workflows als Graphen darstellt und die Visualisierung sowie Verwaltung komplexer Interaktionen zwischen Agenten ermöglicht. Es bietet umfassende Speicherfunktionen für Kurz- und Langzeitgedächtnis und ist besonders nützlich für dynamische Workflows mit feingranularer Kontrollierbarkeit.6
Setzt auf eine rollenbasierte Organisation mit hohem Abstraktionslevel. Jede "Crew" besteht aus spezialisierten Agenten mit spezifischen Rollen und Zielen. Es bietet ein umfassendes Speichersystem und ermöglicht die Gestaltung komplexer Workflows durch eventgesteuerte Interaktionen zwischen verschiedenen Crews.7
LLM-basierte Agentensysteme repräsentieren einen bedeutenden Fortschritt in der KI-Forschung und -Anwendung. Durch die Kombination der Sprachverarbeitungsfähigkeiten von LLMs mit den kollaborativen Eigenschaften von -Agentensystemen können komplexe Aufgaben effizienter und effektiver gelöst werden.
Zukünftige Entwicklungen könnten zu noch intelligenteren und anpassungsfähigeren Agenten führen, die in der Lage sind, in noch komplexeren und dynamischeren Umgebungen effektiv zu agieren.
Bereits heute profitieren unsere Kunden und zahlreiche Endnutzer vom großen Potenzial von Agentic AI:
Diesen Beitrag teilen: