Seit einiger Zeit preisen Unternehmen wie OpenAI und Google erweiterte „Reasoning“-Fähigkeiten als nächsten großen Schritt in ihren neuesten Modellen der künstlichen Intelligenz an. Nun zeigt jedoch eine neue Studie von sechs Apple-Ingenieuren, dass die mathematische „Begründung“, die große, fortgeschrittene Sprachmodelle zeigen, angesichts scheinbar unbedeutender Änderungen bei gängigen Benchmark-Problemen äußerst fragil und unzuverlässig sein kann.

Die in diesen neuen Erkenntnissen hervorgehobene Fragilität unterstützt frühere Forschungsergebnisse, die darauf hindeuten, dass der Einsatz des probabilistischen Mustervergleichs in LLMs das formale Verständnis der zugrunde liegenden Konzepte fehlt, das für wirklich zuverlässige mathematische Denkfähigkeiten erforderlich ist. „Aktuelle LLMs sind nicht in der Lage, echte logische Überlegungen anzustellen“, vermuten die Forscher auf Grundlage dieser Ergebnisse. „Stattdessen versuchen sie, die in ihren Trainingsdaten beobachteten Argumentationsschritte zu reproduzieren.“

Mischen Sie es

In „GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models“ – derzeit als Preprint erhältlich – beginnen die sechs Apple-Forscher mit dem standardisierten Satz von GSM8K mit mehr als 8.000 mathematischen Wortaufgaben auf Klassenniveau, der häufig als verwendet wird ein Maßstab für komplexe Denkfähigkeiten in modernen LLMs. Anschließend verfolgen sie einen neuen Ansatz, indem sie einen Teil dieses Testsatzes modifizieren, um einige Namen und Nummern dynamisch durch neue Werte zu ersetzen. Aus der Frage, ob Sophie in GSM8K 31 Bausteine ​​für ihren Neffen bekommen hat, könnte also eine Frage werden, ob Bill in der neuen GSM-Symbolic-Bewertung 19 Bausteine ​​für seinen Bruder bekommen hat.

Dieser Ansatz trägt dazu bei, potenzielle „Datenkontaminationen“ zu vermeiden, die durch die direkte Einführung statischer GSM8K-Fragen in die Trainingsdaten eines KI-Modells entstehen können. Gleichzeitig ändern diese zufälligen Änderungen nichts an der tatsächlichen Schwierigkeit der inhärenten mathematischen Argumentation, was bedeutet, dass die Modelle theoretisch beim Test auf GSM-Symbolic genauso gut funktionieren sollten wie auf GSM8K.

Als Forscher stattdessen mehr als 20 hochmoderne LLMs auf GSM-Symbolic testeten, stellten sie im Vergleich zu GSM8K insgesamt eine geringere durchschnittliche Genauigkeit fest, wobei die Leistungseinbußen je nach Modell zwischen 0,3 % und 9,2 % lagen. Die Ergebnisse zeigten auch eine große Varianz zwischen 50 separaten Durchläufen von GSM-Symbolic mit unterschiedlichen Namen und Werten. Genauigkeitsunterschiede von bis zu 15 % zwischen den besten und schlechtesten Läufen waren innerhalb desselben Modells üblich, und aus irgendeinem Grund führte eine Änderung der Zahlen tendenziell zu einer schlechteren Genauigkeit als eine Änderung der Namen.

Diese Art von Varianz, sowohl innerhalb der verschiedenen GSM-Symbolic-Analysen als auch in Bezug auf die GSM8K-Ergebnisse, ist mehr als überraschend, da, wie die Forscher betonen, „die gesamten Argumentationsschritte, die zur Lösung einer Frage erforderlich sind, gleich bleiben“. Die Tatsache, dass so kleine Änderungen zu solch variablen Ergebnissen führen, legt den Forschern nahe, dass es sich bei diesen Modellen nicht um „formale“ Überlegungen, sondern eher um „Versuche“ handelt.[ing] um eine Art Mustervergleich innerhalb der Verteilung durchzuführen und gegebene Fragen und Lösungsschritte mit ähnlichen Fragen und Lösungsschritten in den Trainingsdaten abzugleichen.

Lass dich nicht ablenken

Dennoch war die angezeigte Gesamtvarianz bei den GSM-Symbolic-Tests insgesamt oft relativ gering. ChatGPT-4o von OpenAI beispielsweise steigerte die Genauigkeit von 95,2 % bei GSM8K auf immer noch beeindruckende 94,9 % bei GSM-Symbolic. Dies ist bei beiden Kriterien eine ziemlich hohe Erfolgsquote, unabhängig davon, ob das Modell selbst „formale“ Überlegungen hinter den Kulissen verwendet (obwohl die Gesamtgenauigkeit vieler Modelle drastisch abgenommen hat, als Forscher den Problemen nur ein oder zwei zusätzliche logische Schritte hinzugefügt haben). ). ).

Die getesteten LLMs schnitten jedoch deutlich schlechter ab, als Apple-Forscher den GSM-Symbolic-Benchmark modifizierten, indem sie den Fragen „scheinbar relevante, aber letztendlich belanglose Aussagen“ hinzufügten. Für diesen „GSM-NoOp“-Referenzsatz (kurz für „no operation“) könnte die Frage, wie viele Kiwis eine Person über mehrere Tage hinweg pflückt, so geändert werden, dass sie die beiläufige Angabe „fünf davon“ enthält [the kiwis] waren etwas kleiner als der Durchschnitt.

Die Hinzufügung dieser falschen Hinweise führte zu etwas, was die Forscher als „katastrophale Leistungseinbußen“ bei der Genauigkeit im Vergleich zu GSM8K bezeichneten, die je nach getestetem Modell zwischen 17,5 % und 65,7 % lagen. Diese massiven Genauigkeitseinbußen verdeutlichen die Einschränkungen, die mit der Verwendung eines einfachen „Mustervergleichs“ verbunden sind, um „Anweisungen in Operationen umzuwandeln, ohne ihre Bedeutung wirklich zu verstehen“, schreiben die Forscher.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *