Chatbot-konforme Abbildungen erstellen für eine optimale Upload-Analyse mit GPT-4V 

Mit dem Modell GPT-4V, auch GPT4 Vision genannt, ist es Usern möglich, Dateien wie Bilder hochzuladen und im Anschluss per Eingabe analysieren zu lassen. Auch Grafiken, die zum Beispiel nützliche Anwendungen im Bereich der künstlichen Intelligenz darstellen, können so mit geeignetem Prompt zusammengefasst werden. Aber ist der GPT-Output bei allen Abbildungen stets gleich oder sollten Designer vorab einige Punkte bei ihrer Grafik beachten, damit die KI diese auch bestmöglich erkennen und auf dieser Grundlage dann interpretieren kann? Gibt es überhaupt ein KI-konformes Design?

Die obige Grafik zeigt eine Übersicht von Top-AI-Tools im Bereich des Lesens. Neben dem eigentlichen Inhalt, also der Anwendungen, wurde der Abbildung noch Folgendes hinzugefügt:

  • Überschrift: Was ist das Thema?
  • Zeitstempel: Wann wurde die Grafik erstellt. Insbesondere im Bereich der künstlichen Intelligenz ändern sich “Dinge” aktuell sehr schnell, etwa bezüglich erweiterter Funktionen oder ganz neuer Tools.
  • Autor: Wer hat die Abbildung erstellt?
  • Lizenz: Unter welcher CC-Lizenz darf diese von Externen verwendet werden? Ein sehr wichtiges Detail, was auch sehr häufig v.a. bei Top-Abbildungen vergessen wird. Schade, denn dies verringert die potenzielle Reichweite.

Inhalt der Grafik

Der Inhalt ist wohl das Wichtigste einer Abbildung und sollte neben der Verständlichkeit auch so ausgerichtet sein, dass er optisch gut in das “Gesamtkonstrukt” hineinpasst. Eine übersichtliche Optik ist dabei zu bevorzugen!

  • Name der Anwendung: Wie heißt das Tool ganz offiziell auf der zugehörigen Homepage
  • Beschreibung des Programms bezüglich der wesentlichen Funktionen und Verfügbarkeit. Kostenfrei VS Premium. Es empfiehlt sich eine einfache Sprache zu verwenden!
  • Einfügen der offiziellen Domain (www….) des Tools. So werden Verwechselungen vermieden. Beispiel ChatPDF mit Domainendung .ai und .com. Zusätzlich gibt es noch ein ChatGPT-Plugin, das so ähnlich heißt.
  • Original-Logo der Anwendung mit einfügen. Manche Logos wie von ChatGPT sind vielen Usern bekannt, sodass direkt klar ist, um welches Programm es sich handelt. Außerdem sieht es insgesamt designtechnisch ansprechender aus.
  • Formatierungen: Überschrift, Beschreibung und URL sind jeweils in einer anderen Schriftgröße oder Schriftfarbe gehalten. Die Unterschiede kann eine KI erkennen und ordnet dies dementsprechend auch ein
 
Prompt:
Übertrage den Inhalt der Grafik mit Überschrift, Text und URL eins zu eins
Im obigen Kurz-Video ist zu sehen, wie GPT-4 nach dem Bild-Upload die Abbildung inhaltlich zusammenfasst und zugehörige externe Verlinkungen ausgibt. Alle sechs AI-Tools wurden erfasst und inhaltlich korrekt wiedergegeben. Auch eigene Unterpunkte wie Ursprung oder Sprache wurden eigenständig erstellt. Dies war im Prompt so nicht vorgesehen und zeigt, dass es nicht verkehrt ist, der Künstlichen Intelligenz auch mal ein wenig Spielraum beim potenziellen Output zu geben.

Gesamter Output seitens GPT-4 im Überblick

Die Grafik stellt eine Übersicht über verschiedene AI-Reading-Tools dar:

  1. Explainpaper:

    • Ursprung: USA
    • Beschreibung: Erklärt Textpassagen in einfacher Sprache
    • Kosten: Kostenlose Basisversion, kostenpflichtige Pro-Version mit GPT-4 Integration
    • Sprachen: Mehrere Sprachoptionen
    • URL: www.explainpaper.com
  2. SciSpace:

    • Ursprung: Indien, 2015
    • Beschreibung: Eines der umfangreichsten Tools, stark bei englischen Texten; findet Artikel, fasst Ergebnisse zusammen, paraphrasiert und generiert korrekte Quellenangaben
    • Sprachen: Alle Sprachen
    • URL: www.scispace.com
  3. PaperBrain:

    • Beschreibung: PDFs hochladen oder über Stichworte suchen, meist in Datenbanken wie PubMed oder Semantic Scholar; Fragen zu Artikeln möglich
    • Kosten: Kostenlos
    • Sprachen: Englisch
    • URL: www.paperbrain.study
  4. Humata:

    • Beschreibung: Nach PDF-Upload Fragen formulieren, macht Vorschläge, verarbeitet Texte in vielen Sprachen; Antworten auf Englisch
    • Kosten: Bis zu 60 Seiten kostenlos
    • Sprachen: Viele, Antworten auf Englisch
    • URL: www.humata.ai
  5. ChatPDF:

    • Ursprung: Deutschland
    • Beschreibung: Fragen zum Inhalt eines PDFs stellen; funktioniert in allen Sprachen
    • Kosten: Kostenlos für bis zu 2 PDFs/Tag
    • URL: www.chatpdf.com
  6. ChatDOC:

    • Beschreibung: Basiert auf ChatGPT, chattet oder fasst Texte zusammen
    • Kosten: Kostenlos für bis zu 2 Dateien/Tag
    • Sprachen: Diverse
    • URL: www.chatdoc.com

Unten rechts auf der Grafik befinden sich die Namen “Dr. Andrea Klein & Matthias Kindt” und das Creative Commons Lizenzsymbol “CC BY 4.0 International”.

(OUTPUT ENDE)

 

Einzelne Elemente erstellen und gruppieren

Im Screenshot seht Ihr die User-Oberfläche von PowerPoint. Ja, ich nutze dieses Tool für solche Abbildungen ganz gerne, auch wenn die/der eine oder andere nun meint “Oh das ist doch Old School“. Aus meiner Sicht ist es wichtig, dass man gute Ergebnisse zeiteffizient erstellt und nicht, ob die Anwendung nun voll im Trend ist oder mit einer KI arbeitet. Nutzt das Tool mit dem Ihr am besten das gewünschte Resultat erzielt.

In der oberen Abbildung ist zu erkennen, dass ich alle Elemente, also den Text und Bilder sowie auch den Rahmen einzeln designt und dann mittels der Funktion Gruppieren zusammenführe. Im Anschluss wird die gesamte Grafik als JPG gespeichert und kann etwa via WordPress in die Mediathek hochgeladen werden. Dies ist zu Beginn etwas aufwändiger, hat aber langfristig den Vorteil, dass solch eine Abbildung viel schneller wieder anpassbar ist, etwa im Rahmen eines “Tool-Updates”. Ihr spart so langfristig Zeit!!

 

Fazit

Aus meiner Sicht lohnt es sich, eine Grafik mit unterschiedlichen Designelementen zu versehen, damit eine Künstliche Intelligenz mit Upload-Funktion wie z.B. GPT-4V diese auch optimal analysieren kann und somit auch bestmöglich den Inhalt wiedergibt. Wichtig ist immer eine CC-Lizenz hinzuzufügen, da sich viele User reflexartig fragen “Darf ich diese Grafik denn überhaupt verwenden?” und dies fragen sie dann wohl auch den KI-Chatbot. Zudem ist es ratsam, stets eine URL als eine Art eindeutigen Fingerabdruck zu hinterlassen. So kommt es zu keinerlei Verwechselungen im weiter wachsenden “Tool-Dschungel“. Auch kann der Chatbot auf dieser Grundlage weitere Informationen zur Anwendung einholen, wenn der Nutzer dies wünscht.

Achtet insgesamt auf eine einfache Sprache und einfache Sätze, ohne Verschachtelung mit komplexen Nebensätzen. Das Deutsche muss schließlich immer ins Englische übersetzt werden. Ebenfalls sollten verschiedene Formatierungen zum Einsatz kommen, damit sich die Elemente direkt voneinander abheben.
 
Schaut darauf, Farbtöne wie Grau zu vermeiden, die im schlimmsten Fall noch die gesamte Abbildung zeichnen. Freundliche Farben kommen eigentlich immer gut. Die Abbildung soll ja schließlich eine möglichst hohe Reichweite erzielen. Und ja, um auf die Frage zu Beginn zurückzukommen, ich denke es gibt ein KI-konformes Design 😉

 

Und wer ist nun der Autor?

An dieser Stelle vielen Dank an meine Arbeitskollegin LAILA (24/7)

 

Ähnliche Beiträge