Neues Sprachmodell GPT-4o: Multimodaler Chatbot als multimediale Universallösung?!

Veröffentlicht am 14. Mai 202414. Mai 2024 von Matthias Kindt

Die US-Firma OpenAI hat am Montag ihr bisher bestes Sprachmodell GPT-4o veröffentlicht und es soll allen Usern zumindest in einem bestimmten Umfang kostenfrei zur Verfügung stehen. Das “o” stht hierbei für “omni , was so viel wie “alles” oder “ganz” bedeutet.

newsletter — Für jedes Medium ein passendes Tool vorhanden?

GPT-40: Nun geht alles?

Womöglich wurde die Bezeichnung gewählt, da User mit GPT-4o so gut wie alle Inhalte wie Text, Code, Bilder (PNG/JGP…), Audio (MP3) und auch Videos (MP4) verarbeiten können. Ebenfalls die Smartphonekamera kann nun verwendet werden, um sich z.B. die Umgebung in Echtzeit per Audio-Voice beschreiben zu lassen. Sind multimodale Chatbots fortan eine multimediale Universallösung, die wirklich alle Formate auf irgendeine Weise verarbeiten kann und das in nur einem Chatverlauf, der sich auch noch gemeinsam bearbeiten lässt? Ab wann gilt dieser eigentlich offiziell als “überfrachtet”? 😉

Selbstverständlich können auch Datenanalysen etwa im Rahmen von Excel-Dateien ausgeführt werden, wie dies bislang mit dem internen Tool Data Analysis möglich ist. Es scheint wirklich wenig Grenzen zu geben, um Medien den Wünschen nach bearbeiten zu können. Womöglich lassen sich in nächster Zeit auch mehrere Minuten lange Videos über die Video-KI Sora generieren oder sogar 3D-Objekte und ganze 360-Grad-Welten mit anschließender Exportfunktion, also dem frei verfügbaren Handling im Rahmen weiterer Arbeitsprozesse fernab von ChatGPT einbringen.

Kommunikation zwischen Mensch und Chatbot begeistert

In zahlreichen Videos, die OpenAI via Social Mecdia teilt, steht die Kommunikation zwischen dem neuen Sprachmodell GPT-40 und den Nutzern im Fokus. User können sich mittlerweile in Echtzeit mit nur wenig Latenz (Verzögerung) mit der Künstlichen Intelligenz “unterhalten”, die ebenfalls die Stimmlage, also Emotionen erkennt und sich so anpassen lässt. Das sind wirklich tolle Aussichten, denn eine KI stets nur mit Text zu “füttern” ist ja auch irgendwann eindimensional und dann noch diese ganze Bildschirmzeit. Das geht auch anders. Morgens aufstehen und eine süffisante Stimme auf Grundlage von Künstlicher Intelligenz im Rahmen eines Chatbots wie GPT-40 geht mit Nutzern via Internet-Access die Nachrichtenlage von gestern durch und zwar während ein leckerer Kaffee/Espresso zieht. Der Laptop oder Desktop-PC muss nicht hochgefahren werden und das Smartphone bleibt in der Tasche. Eine kurze Ansprache wie “Hey was liegt an” oder Ähnliches dürfte wohl schon reichen. Aber erstmal “step by step“.

Über das Smartphone und eine zugefügte Funktion lassen sich diverse Stimmen verwenden, die wirklich sehr menschenähnlich kommunizieren, auch auf eine humorvolle Art und Weise, wie wir dies ja bislang von KIs eher weniger kennen. Siehe dazu unteres Video “Majestic Potatoes”.

Neben den ganzen Funktionen bezüglich Audio und Video kommt nun auch die Kamera eines Smartphones im Rahmen des Vision-Features zum Einsatz. Im unteren YouTube-Video von OpenAI ist eine Konversation zwischen der KI und einem Mitarbeiter zu verfolgen und mittendrin scheint der User die Kamera anzumachen, damit kurz den Raum zu sichten und auf dieser Grundlage beschreibt die KI-Stimme im Anschluss diesen und mutmaßt, wo man sich denn hier aufhalten könnte. Man scheint ChatGPT nun wirklich allumfassend verwenden zu können.

Free User profitieren: ChatGPT nun wieder offener zugänglich und GPTs verfügbar

Aus meiner Sicht wurde recht überraschend bekannt gegeben, dass das bislang beste Sprachmodell GPT-4o nun auch Nicht-Plus-Usern zur Verfügung steht. GPT-4 war bis zu dem Zeitpunkt nur für zahlende Kunden nutzbar. Jedoch können Plus-Abonnenten GPT-4 “omni” in einem größeren Umfang verwenden als Free User, sonst würde es schließlich auch irgendwann keinen Sinn machen, extra monatlich 20 $ für ein Abo zu zahlen.

Aber nicht nur GPT-4o ist für alle zugänglich, sondern auch noch die Custom Bots von OpenAI, die sogenannten GPTs mit dem angeschlossenen GPT-Store. Das sind natürlich zwei ganz schwere Argumente, sich mal kurz kostenfrei bei ChatGPT anzumelden. Wir erinnern uns, dass die US-Firma OpenAI einst das Ziel hatte, Künstliche Intelligenz und somit die darauf basierenden Anwendungen möglichst einer breiten Masse, also dem Mainstream, frei zugänglich zu machen. Zwar ist GPT-40 auch weiterhin wie GPT-4 als Large Language Model geschlossen, also der Code nicht einsehbar, aber trotzdem ist dies ein Schritt in Richtung mehr Offenheit und setzt zusätzlich die Konkurrenz wie Anthropic, Google & Co unter Druck.

When using GPT-4o, ChatGPT Free users will now have access to features such as:

Experience GPT-4 level intelligence
Get responses from both the model and the web
Analyze data and create charts
Chat about photos you take
Upload files for assistance summarizing, writing or analyzing
Discover and use GPTs and the GPT Store
Build a more helpful experience with Memory

Quelle: OpenAI

Desktop-App ebenfalls erschien

Ganz beiläufig wurde auch noch eine Desktop-App angekündigt, um ChatGPT auch außerhalb des Browsers verwenden zu können. Die App startet wohl erst auf dem Betriebssystem macOS von Apple und wird dann auf Microsoft ausgeweitet. Dies dürfte wohl die Arbeitsprozesse auf dem eigenen Rechner beschleunigen.