Studie der TU Augsburg zu den Coding-Fähigkeiten von Large Language Models

Forscher der TU Augsburg und Linnaeus University (Schweden) haben die Coding-Fähigkeiten von Large Language Models wie ChatGPT im Rahmen einer Studie mit denen von menschlichen Entwicklern verglichen. Der nachfolgende Beitrag wurde ausschließlich von ChatGPT-4o über die Upload-Funktion verfasst.

Zur Studie auf Arxiv.org

Prompt:

***verfasse zum PDF einen Blogbeitrag mit Überschriften und aufzählungszeichen. Beginne mit einer Einleitung in der die Ergebnisse der Studie kurz präsentiert werden. Danke***
 
studie
PDF über ChatGPT zur Analyse hochladen

Start ChatGPT-4o Output

In der heutigen Zeit spielen Künstliche Intelligenz (KI) und große Sprachmodelle (Large Language Models, LLMs) eine immer bedeutendere Rolle in der Softwareentwicklung. Tools wie ChatGPT und GitHub Copilot versprechen, den Entwicklungsprozess durch automatisierte Code-Generierung zu revolutionieren. Doch wie leistungsfähig sind diese Modelle wirklich? Eine kürzlich durchgeführte Studie untersuchte die Fähigkeit dieser LLMs, korrekten und qualitativ hochwertigen Code sowie zugehörige Unit-Tests zu generieren. Die Ergebnisse zeigen signifikante Unterschiede zwischen den Modellen und Programmiersprachen, wobei sich herausstellte, dass ChatGPT tendenziell besseren Code generiert, während GitHub Copilot bei der Testgenerierung punktet.

Hauptpunkte der Studie

  1. Untersuchungsziele und Methodik

    • Die Studie konzentrierte sich auf die Bewertung der Korrektheit und Qualität des durch LLMs generierten Codes.
    • Die Tests umfassten zwei Programmiersprachen, Java und Python, und die Leistung von ChatGPT und GitHub Copilot.
    • Zwölf gängige Algorithmen wurden ausgewählt, um die Fähigkeiten der Modelle zu prüfen.
  2. Ergebnisse der Code-Generierung

    • ChatGPT übertrifft GitHub Copilot in der Code-Korrektheit: ChatGPT generierte in Java einen korrekten Code mit einer Rate von 89,33 % und in Python mit 79,17 %. GitHub Copilot erreichte hingegen nur 75,50 % in Java und 62,50 % in Python.
    • Code-Qualität: Beide Modelle erzeugten überwiegend qualitativ hochwertigen Code. ChatGPT und GitHub Copilot erreichten in Java nahezu identische Ergebnisse, während GitHub Copilot in Python leicht bessere Ergebnisse erzielte.
  3. Ergebnisse der Test-Generierung

    • GitHub Copilot führt bei Test-Korrektheit: Obwohl die Korrektheit der generierten Tests insgesamt niedrig blieb (unter 50 %), schnitt GitHub Copilot besser ab als ChatGPT.
    • Testabdeckung: Bei der Testabdeckung zeigte ChatGPT in Python eine überlegene Leistung, während in Java beide Modelle vergleichbare Ergebnisse lieferten.
  4. Unterschiede zwischen Java und Python

    • Die Studie zeigte, dass die Modelle generell bessere Ergebnisse in Java erzielten, insbesondere in Bezug auf die Code-Korrektheit und -Qualität.
    • Python erwies sich jedoch als besser für die Testabdeckung geeignet.
  5. Verbesserungen über die Zeit

    • Ein Vergleich der Ergebnisse mit früheren Studien zeigt, dass sich die Korrektheit des durch ChatGPT generierten Codes verbessert hat, während GitHub Copilot seine Code-Qualität weiter steigern konnte.

Fazit

Die Untersuchung zeigt, dass große Sprachmodelle wie ChatGPT und GitHub Copilot durchaus in der Lage sind, hochwertigen Code zu generieren, wenngleich sie noch nicht perfekt sind. Die Ergebnisse legen nahe, dass ChatGPT tendenziell besser für die Code-Generierung geeignet ist, während GitHub Copilot insbesondere bei der Testgenerierung Stärken zeigt. Beide Modelle sind nützliche Werkzeuge, um den Entwicklungsprozess zu unterstützen, allerdings bleibt noch Raum für Verbesserungen, insbesondere bei der Generierung von Unit-Tests.

Zukünftige Forschung

Zukünftige Arbeiten sollten sich darauf konzentrieren, die Fähigkeiten dieser Modelle weiter zu untersuchen, insbesondere in komplexeren Szenarien und mit einer breiteren Palette an Programmiersprachen und Algorithmen. Ein weiteres interessantes Forschungsfeld wäre die Untersuchung der Langzeitverbesserungen dieser Modelle und die Entwicklung von Strategien zur Verbesserung der Testgenerierung.

Ende ChatGPT-4o Output

 

Der “Verfasser” des Beitrags

Ähnliche Beiträge