Upskilling mit KI: Englischsprachige Forschungspapiere mit Large Language Model in einfacher Sprache auf Deutsch erklären lassen

Veröffentlicht am 5. Oktober 20246. Oktober 2024 von Matthias Kindt

Mittlerweile bin ich immer häufiger im Open-Access-Archiv der Plattform Arxiv.org unterwegs und schaue gelegentlich nach sinnvollen Publikationen rund um den Bereich Künstliche Intelligenz in Bildung & Wissenschaften. Bin ich fündig geworden, dann stellt sich direkt heraus, dass die Paper auf Englisch veröffentlicht und nicht selten auch so einige Seiten lang sind. Schaffe ich dies nun aus dem Stand heraus, mit korrekter Übersetzung zeiteffizient zu verstehen und das noch in einem naturwissenschaftlichen Themenbereich? Mal schauen!

Komplexe Forschungspapiere mit KI erklären lassen

Arxiv.org wird aktuell von der US-Hochschule Cornell University betrieben und bietet Usern auch ohne Login einen unproblematischen Zugriff auf eine riesige Sammlung an frei verfügbaren Forschungspapieren, die auch heruntergeladen werden dürfen. Generell gilt es, die Lizenz der Publikationen zu beachten, die nicht einheitlich sind. Im oberen Screenshot habe ich die Suche mit dem Schlagwort “Large Langauge Model” begonnen und im Anschluss werden mir über 32.000 Ergebnisse im Rahmen von weltweiten Veröffentlichungen angezeigt. Bin ich an einem Paper interessiert, dann lade ich es herunter und schaue es mir genauer an. Anstatt nun die gesamte Publikation in Eigenregie durchzugehen, und zwar Seite für Seite, denkt man in der heutigen Zeit wohl häufig reflexartig an einen “KI-Buddy” wie einen multimodalen Chatbot, der potenziell beim Verständnis unterstützen könnte.

Aber darf ich überhaupt eine Publikation herunterladen und diese dann etwa über Claude oder ChatGPT wieder hochladen? Aus meiner Sicht ist dies in Ordnung, wenn man noch zusätzlich etwa bei ChatGPT den Chat so einstellt, dass dieser inklusive Upload wie einem PDF nicht für die Trainingszwecke einer Künstlichen Intelligenz wie GPT verwendet wird. Bei ChatGPT geht dies über die Einstellungen und die Datenkontrolle (obere Abbildung). Nun verwendet man also ein frei verfügbares Forschungspapier etwa einer Hochschule, dessen Inhalt nicht für das Training einer kommerziellen KI genutzt wird. Es wird keine Partei geschädigt, also dürfte der Vorgang auch korrekt sein, insbesondere vor dem Hintergrund, dass ich diese Publikation für nicht-kommerzielle Zwecke für den “Eigengebrauch” verwende, und zwar im Rahmen des allgemeinen Verständnisses, somit alles im Zeichen der Wissenschaften.

Was ist LLaMa-SciQ und wie funktioniert es?

LLaMa-SciQ

“LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ“, so lautet der Titel der eingefügten 13-seitigen Publikation, die Forscher der Schweizer Hochschule EPFL Lausanne erstellt haben. Aus dem Titel kann schon entnommen werden, dass es sich um einen spezialisierten “Bildungs-Chatbot” handelt, der auf Multiple Choice Question in den Naturwissenschaften ausgerichtet ist. Für weitere Details wurde nun ChatGPT-4o über einen PDF-Upload befragt.

Prompt: ***Erkläre mir die wesentlichsten Fakten zum PDF in einfacher Sprache und in einem kurzen Absatz und darunter auch mit Aufzählungszeichen.***

Start Output ChatGPT-4o

Die PDF beschreibt ein Projekt namens LLaMa-SciQ, das ein Chatbot-Modell für die Beantwortung von wissenschaftlichen Multiple-Choice-Fragen entwickelt. Es wurde speziell für Studierende in den Bereichen Mathematik, Physik und Informatik entworfen, um ihnen zu helfen, Multiple-Choice-Fragen besser zu verstehen und zu lösen. Das Modell basiert auf großen Sprachmodellen wie LLaMa-3-8B und nutzt Techniken wie “Supervised Fine-Tuning” und “Direct Preference Optimization” (DPO), um die Antworten an menschliche Vorlieben anzupassen. Ein weiteres Ziel des Projekts war es, das Modell durch “Retrieval-Augmented Generation” (RAG) zu verbessern, wobei sich herausstellte, dass diese Technik die Leistung nicht wie erwartet steigerte.

Wichtige Fakten:

Chatbot zur Unterstützung von Studierenden bei wissenschaftlichen Fragen.
Basierend auf dem LLaMa-3-8B-Modell, das für mathematische und wissenschaftliche Aufgaben optimiert wurde.
Verbesserung durch “Supervised Fine-Tuning” und “Direct Preference Optimization” (DPO).
“Retrieval-Augmented Generation” (RAG) brachte keine Leistungssteigerung.
Modell erreicht 74,5 % Genauigkeit bei mathematischen Aufgaben (GSM8K-Datensatz).

Falls du weitere Details oder Erklärungen benötigst, stehe ich gerne zur Verfügung!

Ende Output ChatGPT-4o

Der folgende Output über ChatGPT-4.0 zeigt, wie kurz sich das Forschungspapier auf die wesentlichsten Punkte zusammenfassen lässt und zwar in einem kurzen Absatz und in Form von übersichtlichen Aufzählungen. Die Angaben sind soweit korrekt, jedoch müsste als Grundlage des Chatbots LLaMa-SciQ neben Llama auch das Open-Source-Sprachmodell Mistral-7B ergänzt werden. An diesem Beispiel ist gut zu erkennen, dass User immer den gesamten Output auch hinsichtlich der Vollständigkeit kontrollieren müssen. Die Künstliche Intelligenz erledigt somit nicht alle Arbeiten, sondern man muss definitiv stets mitdenken, da führt kein Weg dran vorbei, auch bezüglich potenziell falschen Outputs seitens der KI. Jedoch ist dies eine tolle Möglichkeit, sehr zeiteffizient auch komplexe Forschungsarbeiten in Kurzform präsentiert zu bekommen, anstatt wirklich jede Seite durchzulesen. Die Aufzählungen sind sehr präzise auf die wichtigsten Fakten reduziert und ließen sich z.B. nun im PDF an den bestimmten Stellen kontrollieren.

Erklärungen zu speziellen Themen einholen. Was ist RAG?

Zusätzlich kann es sehr sinnvoll sein, sich ganz bestimmte Techniken wie in diesem Beispiel die Retrieval-Augmented Generation (RAG) erklären zu lassen. In solchen Publikationen von Forschern werden selten alle wichtigen Begriffe, auch für den Mainstream umfassend erläutert, sodass häufig wichtige Zusammenhänge nicht verstanden werden können. Ist dies so, dann fragt doch einfach im selben Chatverlauf ChatGPT, was es denn mit RAG auf sich hat und ob die KI Euch auch passende Beispiele liefern kann. Auch Code lässt sich für eine gute Veranschaulichung ausgeben, etwa um sich das LaTex-Format anschaulich beibringen zu lassen.

ChatGPT-4o with Canvas

Mit dem neuen Update von OpenAI zu ChatGPT Canvas wurde jetzt eine neue Nutzeroberfläche eingerichtet, die Usern eine komplexere Arbeitsweise ermöglicht. Auch hier ließ sich ein PDF hochladen, das mit Prompt analysiert wird und im Anschluss dann der Bildschirm geteilt in einen linken Screen mit Promptleiste und einen großen Screen mit dem Output. Bleiben wir am Beispiel des fehlenden Sprachmodells Mistral-7B, das beim ersten Output von ChatGPT-4o vergessen wurde. Nutzer könnten nun einfach im Stile eines Texteditor in die Zeile reinklicken und das LLM einfach selber mit Textinput ergänzen bzw. selbstständig reinschreiben. Dies spart Zeit und macht Bearbeitungen insgesamt immer flexibler!

Ebenfalls sind Formatierungen wie Fettungen und Ähnliches nun möglich. Zudem können einzelne Abschnitte markiert und auf dieser Basis neu gepromptet/angepasst werden. Eine neue Funktions-Leiste unten rechts mit dem Stift-Symbol lässt sich verwenden, um den Text per Klick einem neuen Text-Level anzupassen oder Kommentare zu den wesentlichsten Abschnitten einzuholen.

Fazit: Chatten mit Forschungspapieren? Unbedingt!

Das Fazit fällt an dieser Stelle recht kurz aus, da ich in diversen Versuchen mit PDFs und Themen rund um “LLM & Bildung” erfolgreich und vor allem auch recht schnell die Publikationen hinsichtlich der wesentlichsten Merkmale erfassen konnte. Es sollte aber definitiv ein Grundlagenverständnis vorliegen, um auch bestmöglich den Output kontrollieren zu können. Upskilling mit KI im Rahmen eines multimodalen Chatbots? Absolut und es macht Spaß! Übrigens lassen sich PDFs mittlerweile auch gut kostenlos in KI-Podcasts tranformieren.