In der Theorie der Geistestests schlägt die KI den Menschen

Die Theorie des Geistes – die Fähigkeit, die mentalen Zustände anderer zu verstehen – ist das, was die soziale Welt der Menschen bestimmt. Es hilft Ihnen zu entscheiden, was Sie in einer angespannten Situation sagen sollen, zu erraten, was die Fahrer anderer Autos tun werden, und sich in eine Figur in einem Film hineinzuversetzen. Und laut einer neuen Studie sind die großen Sprachmodelle (LLMs), die ChatGPT und anderen zugrunde liegen, überraschend effektiv bei der Nachahmung dieser einzigartigen menschlichen Eigenschaft.

„Bevor wir die Studie durchführten, waren wir alle davon überzeugt, dass große Sprachmodelle diese Tests nicht bestehen würden, insbesondere Tests, die subtile Fähigkeiten zur Beurteilung mentaler Zustände bewerten“, sagt Cristina Becchio, Co-Autorin der Studie und Professorin für kognitive Neurowissenschaften das Universitätsklinikum Hamburg. Eppendorf in Deutschland. Die Ergebnisse, die sie als „unerwartet und überraschend“ beschreibt, wurden ironischerweise heute in der Zeitschrift veröffentlicht Menschliches Verhalten.

Allerdings überzeugen die Ergebnisse nicht alle davon, dass wir in eine neue Ära von Maschinen eingetreten sind, die so denken wie wir. Zwei Experten, die die Ergebnisse überprüften, empfahlen, sie „mit Vorsicht zu genießen“ und warnten davor, Schlussfolgerungen zu einem Thema zu ziehen, das „Hype und öffentliche Panik“ hervorrufen könne. Ein anderer externer Experte warnte vor den Gefahren der Vermenschlichung von Software.

Die Forscher achten darauf, nicht zu sagen, dass ihre Ergebnisse zeigen, dass LLMs tatsächlich über eine Theorie des Geistes verfügen.

Becchio und seine Kollegen sind nicht die ersten, die behaupten, dass LLM-Antworten diese Art von Argumentation widerspiegeln. In einem im letzten Jahr veröffentlichten Vorabdruck berichtete der Psychologe Michal Kosinski von der Stanford University, dass er mehrere Modelle anhand einer gängigen Theorie von Geistestests getestet habe. Er fand heraus, dass das beste von ihnen, GPT-4 von OpenAI, 75 Prozent der Aufgaben richtig löste, was seiner Meinung nach mit der Leistung von Sechsjährigen übereinstimmte, die in früheren Studien beobachtet wurde. Die Methoden dieser Studie wurden jedoch von anderen Forschern kritisiert, die Folgeexperimente durchführten und zu dem Schluss kamen, dass LLMs die richtigen Antworten oft auf der Grundlage „oberflächlicher Heuristiken“ und Abkürzungen und nicht auf der Grundlage einer fundierten Argumentation auf der Grundlage der Theorie des Geistes erhielten.

Die Autoren der aktuellen Studie waren sich der Debatte durchaus bewusst. “Unser Ziel in dieser Arbeit war es, die Herausforderung einer systematischeren Bewertung der Maschinentheorie des Geistes mithilfe einer breiten Palette psychologischer Tests anzugehen“, erklärt der Co-Autor der Studie, James Strachan, Kognitionspsychologe und derzeit Gastforscher am University Medical Center Hamburg. Eppendorf. Er weist darauf hin, dass die Durchführung einer strengen Studie auch das Testen von Menschen bei denselben Aufgaben beinhaltete, die LLMs zugewiesen wurden: Die Studie verglich die Fähigkeiten von 1.907 Menschen mit denen mehrerer beliebter LLMs, darunter das GPT-4-Modell von OpenAI und das Open-Source-Llama 2. Metamodell -70b.

So testen Sie LLMs auf Theory of Mind

Sowohl LLMs als auch Menschen erledigten fünf typische Arten von Theory of Mind-Aufgaben, von denen die ersten drei das Verstehen von Hinweisen, Ironie und Fehltritten waren. Sie beantworteten auch Fragen zu „falschen Überzeugungen“, die oft verwendet werden, um festzustellen, ob kleine Kinder eine Theorie des Geistes entwickelt haben, und lauteten etwa so: Wenn Alice etwas bewegt, während Bob nicht im Zimmer ist, wo wird Bob wann nach ihm suchen? er kehrt zurück? ? Schließlich beantworteten sie recht komplexe Fragen zu „seltsamen Geschichten“, in denen Menschen lügen, manipulieren und sich gegenseitig missverstehen.

Insgesamt hat GPT-4 die Nase vorn. Seine Werte entsprachen denen von Menschen beim Test auf falsche Überzeugungen und waren höher als die Gesamtwerte von Menschen bei Ironie, Anspielungen und seltsamen Geschichten; Lediglich beim Fauxpas-Test schnitt er schlechter ab als Menschen. Interessanterweise waren die Ergebnisse von Llama-2 das Gegenteil von denen von GPT-4: Es war mit Menschen vergleichbar, wenn es um falsche Überzeugungen ging, schnitt aber bei Ironie, Anspielungen und seltsamen Geschichten schlechter ab als Menschen und schnitt bei Fehltritten besser ab.

„Wir haben derzeit weder eine Methode noch eine Idee, wie wir das testen können Existenz der Theorie des Geistes. —James Strachan, Universitätsklinikum Hamburg-Eppendorf

Um zu verstehen, was mit den Fehltritt-Ergebnissen passierte, unterzogen die Forscher die Modelle einer Reihe von Folgetests, die mehrere Hypothesen prüften. Sie kamen zu dem Schluss, dass GPT-4 in der Lage sei, die richtige Antwort auf eine Frage zu einem Fehltritt zu geben, dies jedoch durch eine „hyperkonservative“ Programmierung in Bezug auf Meinungsäußerungen verhindert werde. Strachan weist darauf hin, dass OpenAI zahlreiche Leitplanken um seine Modelle gelegt hat, die „darauf ausgelegt sind, das Modell sachlich, ehrlich und auf dem richtigen Weg zu halten“, und er geht davon aus, dass Strategien, die verhindern sollen, dass GPT-4 halluziniert (also Dinge erfindet), dies können Außerdem fragte er sich, ob eine Figur in der Geschichte versehentlich einen ehemaligen Highschool-Klassenkameraden bei einem Klassentreffen beleidigt hatte.

In der Zwischenzeit deuteten die Folgetests von Llama-2 durch Forscher darauf hin, dass seine hervorragende Leistung bei Fehltritttests wahrscheinlich ein Artefakt des ursprünglichen Frage-und-Antwort-Formats war, in dem die richtige Antwort auf eine Variation der Frage „Alice“ war „Wissen Sie, dass sie Bob beleidigt hat“? war immer „nein“.

Die Forscher achten darauf, nicht zu sagen, dass ihre Ergebnisse zeigen, dass LLMs tatsächlich über eine Theory of Mind verfügen, sondern behaupten stattdessen, dass sie „ein Verhalten zeigen, das bei Theory of Mind-Aufgaben nicht von menschlichem Verhalten zu unterscheiden ist“. Da stellt sich die Frage: Wenn eine Nachahmung genauso gut ist wie das Original, woher wissen Sie dann, dass es nicht das Original ist? Es ist eine Frage, die Sozialwissenschaftler noch nie zuvor zu beantworten versucht haben, sagt Strachan, denn menschliche Tests gehen davon aus, dass Qualität in mehr oder weniger großem Maße vorhanden ist. „Wir haben derzeit weder eine Methode noch eine Idee, wie wir das testen können Existenz der Theorie des Geistes, der phänomenologischen Qualität“, sagt er.

Kritikpunkte an der Studie

Die Forscher versuchten eindeutig, die methodischen Probleme zu vermeiden, die Kosinskis Artikel über LLMs und die Theorie des Geistes aus dem Jahr 2023 kritisierten. Sie führten die Tests beispielsweise über mehrere Sitzungen hinweg durch, sodass LLMs die richtigen Antworten während des Tests nicht „erlernen“ konnten, und variierten die Struktur der Fragen. Aber Yoav Goldberg und Natalie Shapira, zwei der KI-Forscher, die die Kritik an Kosinskis Artikel veröffentlicht haben, sagen, dass sie auch von dieser Studie nicht überzeugt sind.

„Warum ist es wichtig, dass Textmanipulationssysteme für diese Aufgaben Ergebnisse liefern können, die den Antworten ähneln, die Menschen geben, wenn ihnen dieselben Fragen gestellt werden?“ » —Emily Bender, University of Washington

Goldberg bemerkte, dass die Ergebnisse mit Vorsicht zu genießen seien, und fügte hinzu, dass „Modelle keine Menschen sind“ und dass „man leicht falsche Schlussfolgerungen ziehen kann“, wenn man die beiden vergleicht. Shapira sprach über die Gefahren des Medienrummels und hinterfragt auch die Methoden der Zeitung. Sie stellt die Frage, ob die Modelle die Testfragen in ihren Trainingsdaten gesehen und sich einfach die richtigen Antworten gemerkt haben könnten, und weist außerdem auf ein potenzielles Problem bei Tests hin, bei denen bezahlte menschliche Teilnehmer zum Einsatz kommen (in diesem Fall über die Prolific-Plattform rekrutiert). „Es ist ein bekanntes Problem: Arbeitnehmer erledigen ihre Aufgaben nicht immer optimal“, erklärt sie. IEEE-Spektrum. Sie hält die Ergebnisse für begrenzt und eher anekdotisch und sagt, dass dies „zu beweisen“ sei [theory of mind] Kapazität, viel Arbeit und ein umfassenderes Benchmarking sind erforderlich.

Emily Bender, Professorin für Computerlinguistik an der University of Washington, ist auf ihrem Gebiet legendär geworden, weil sie hartnäckig den Hype anprangert, der die KI-Branche aufbläht (und oft auch die Berichterstattung der Medien über die Branche). Es stellt die Forschungsfrage in Frage, die die Forscher motiviert hat. „Warum ist es wichtig, dass Textmanipulationssysteme für diese Aufgaben Ergebnisse liefern können, die den Antworten ähneln, die Menschen geben, wenn ihnen dieselben Fragen gestellt werden?“ ” Sie fragt. „Was sagt uns das über das Innenleben von LLMs, wozu sie nützlich sein könnten oder welche Gefahren sie mit sich bringen könnten?“ » Es ist nicht klar, sagt Bender, was es für einen LLM bedeuten würde, ein Geistesmodell zu haben, und daher ist auch nicht klar, ob diese Tests es gemessen haben.

Bender ist auch besorgt über den Anthropomorphismus, den sie in dem Artikel entdeckt, wobei Forscher argumentieren, dass LLMs in der Lage sind, zu erkennen, zu argumentieren und Entscheidungen zu treffen. Sie sagt, die Formulierung der Autoren „fairer artübergreifender Vergleich zwischen LLMs und menschlichen Teilnehmern“ sei „in Bezug auf Software völlig unangemessen“. Bender und mehrere Kollegen haben kürzlich eine vorläufige Arbeit veröffentlicht, in der untersucht wird, wie sich die Vermenschlichung von KI-Systemen auf das Vertrauen der Benutzer auswirkt.

Die Ergebnisse deuten möglicherweise nicht darauf hin, dass K.I. bekommt uns, aber es lohnt sich, über die Implikationen von LLMs nachzudenken, die die Theorie des mentalen Denkens überzeugend nachahmen. Sie werden besser in der Lage sein, mit ihren menschlichen Nutzern zu interagieren und deren Bedürfnisse zu antizipieren, könnten aber auch besser für die Zwecke der Täuschung oder Manipulation ihrer Nutzer genutzt werden. Und sie werden zu mehr Anthropomorphismus führen und menschliche Benutzer davon überzeugen, dass es auf der anderen Seite der Benutzeroberfläche einen Geist gibt.

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

In der Theorie der Geistestests schlägt die KI den Menschen

Byrb8jg

So testen Sie LLMs auf Theory of Mind

Kritikpunkte an der Studie

By rb8jg

Related Post

Entwicklung einer Nanobehandlung, um Mangroven vor einer tödlichen Krankheit zu schützen

Eine neue Doctor Who-Spin-off-Serie kommt zu Disney Plus

Drew Afualo wird nie aufhören, sich über frauenfeindliche Männer lustig zu machen

Leave a Reply Cancel reply

You missed

Entwicklung einer Nanobehandlung, um Mangroven vor einer tödlichen Krankheit zu schützen

Eine neue Doctor Who-Spin-off-Serie kommt zu Disney Plus

Drew Afualo wird nie aufhören, sich über frauenfeindliche Männer lustig zu machen

Der Rauch von Waldbränden in Kanada und der Westküste breitet sich über ganz Nordamerika aus