AutoGen Studio von Microsoft: Open-Source-Interface zur Nutzung von KI-Agenten

Veröffentlicht am 18. Juni 202419. Juni 2024 von Matthias Kindt

Autonome Skripte, die im Rahmen von sogenannten Agenten gleich mehrere Aufgaben gleichzeitig durchführen können, um so gemeinsam ein vorab definiertes Ziel durchzuführen, werden wohl in Zukunft vermehrt zum Einsatz kommen. Microsoft hatte schon vor einiger Zeit die Anwendung AutoGen vorgestellt, zu der nun auch ein frei verfügbares Interface veröffentlicht wurde.

“AutoGen Studio” bietet Nutzeroberfläche an

Bislang gab es lediglich die Open-Source-Anwendung AutoGen via GitHub, die User dort kostenlos herunterladen können. Mit einem vorgefertigten Interface, also einer Nutzeroberfläche, sind so schon im Vorfeld Design und Funktionen definiert, wodurch eine Umgebung bereitsteht, die nicht mehr extra entwickelt werden muss. Also Nutzer laden sich das Skript AutoGen und das zugehörige Interface AutoGen Studio herunter und können dieses per Programmierschnittstelle (API) mit einem Top-Sprachmodell wie GPT-4o verbinden. Auf dieser Grundlage würde dann ein KI-Agent arbeiten.

Zum Interface auf GitHub (AutoGen Studio)

Zum autonomen Skript auf GitHub (AutoGen)

Beispiel: 4-seitiges Kinderbuch im PDF-Format mit unterschiedlichen Agenten im Einsatz (Text- & Bilder-KI)

Als Aufgabe (Ziel) für die autonom agierenden Agenten und zu Demonstrationszwecken seitens Microsoft Research soll ein Kinderbuch im PDF-Format mit insgesamt 4 Seiten erstellt werden. In diesem Fall ist direkt klar, dass wir Text und Bilder benötigen, also muss ein Chatbot wie GPT-40 und auch eine Bilder-KI wie DALL-E3 gleichermaßen zum Einsatz kommen, um so simultan die anstehenden Arbeitsprozesse im besten Fall in nur einem einzigen Chatverlauf zu erledigen.

Im unteren Youtube-Embed wird sehr gut gezeigt, wie sich solche Sprachmodelle ganz einfach im Drop & Down-Menü wechseln lassen. Ein KI-Agent kann z.B. als Chatbot-Grundlage das Sprachmodell GPT-40 von OpenAI nutzen oder auch Claude 3 von Anthropic sowie Open-Source-LLMs wie etwa Mistral 8x7B oder Llama 3.

Wir kennen dies seitens der Custom Bots, bei denen User ebenfalls per Switch die Language Models anpassen können und so die KI-Grundlage festlegen. Dies sind i.d.R. zwei Mausklicks und zack fertig! Die Einbindung der einzelnen Language Models erfolgt zumeist über eine API, also Programmierschnittstelle, um Server 24/7 miteinander zu verbinden. Plattformen wie Poe machen dies schon seit Längerem vor.

Im Video BookGen wird gezeigt, wie in nur einem Chatverlauf die Agenten parallel arbeiten und am Ende kommt ein fertiges KI-Storybook mit Bildvorschlägen heraus. User können dann geeignete Images auswählen, die am besten in die Geschichte hineinpassen. Zu Beginn steht immer ein simpler Prompt wie z.B. “Verfasse ein Kinderbuch im PDF-Format auf 4 Seiten mit passenden Bildern“. Nach der Bestätigung mit “Enter” in der Promptleiste fangen dann die Agenten automatisch an zu arbeiten und präsentieren im Anschluss ein fertiges Ergebnis.

Kurz zusammengefasst: KI-Agenten laufen auf der Grundlage (mindestens) eines Sprachmodells und dieses lässt sich je nach Einbindung (API & stationär) jederzeit vom User wechseln. Theoretisch könnten 8 KI-Agenten mit 8 unterschiedlichen Sprachmodellen parallel eine Aufgabe erledigen. Also bearbeiten insgesamt X-Agenten mit X-Sprachmodellen eine Aufgabe, die vom Nutzer im Vorfeld mittels Prompt festgelegt wird.

Aufgabe: (Beispiel Kinderbuch)

Text schreiben mit Chatbot wie GPT-4o (Agent 1)
Bilder generieren mit Bilder-KIs wie DALL-E3 (Agent 2)

Experimentelle Oberfläche für optimale Einstellungsmöglichkeiten der Agenten

Einfacher Einstieg für User dank moderner Umgebung

Das Nutzen von KI-Agenten über frei verfügbare Skripte, die über Plattformen wie GitHub & Co verfügbar sind und eine individuelle Einbindung über eine Programmierumgebung benötigen, stellen selbstverständlich für einen “normalen” User eine große Hürde dar, um in Eigenregie nun Agenten auf der Grundlage von autonom agierenden Codes verwenden zu können. Daher bedarf es einer Webseite mit Login, also einem Cloud-Zugang, der mittlerweile Standard ist und von nahezu jedem Internetnutzer, etwa per Google-Konto eingerichtet werden kann. So lassen sich “AI Agents” auch ohne Programmierkenntnisse verwenden.

Die obere Abbildung von Microsoft Research zeigt schon mal die Einbettung von AutoGen Studio im Rahmen solch einer Internetpräsenz mit vorgefertigten Design und Features, damit Nutzer sich nur noch einloggen müssen und per “Klick & Klack” geht es dann auch schon los. “No Code is needed”