97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 In der Theorie der Geistestests schlägt die KI den Menschen – MJRBJC

Die Theorie des Geistes – die Fähigkeit, die mentalen Zustände anderer zu verstehen – ist das, was die soziale Welt der Menschen bestimmt. Es hilft Ihnen zu entscheiden, was Sie in einer angespannten Situation sagen sollen, zu erraten, was die Fahrer anderer Autos tun werden, und sich in eine Figur in einem Film hineinzuversetzen. Und laut einer neuen Studie sind die großen Sprachmodelle (LLMs), die ChatGPT und anderen zugrunde liegen, überraschend effektiv bei der Nachahmung dieser einzigartigen menschlichen Eigenschaft.

„Bevor wir die Studie durchführten, waren wir alle davon überzeugt, dass große Sprachmodelle diese Tests nicht bestehen würden, insbesondere Tests, die subtile Fähigkeiten zur Beurteilung mentaler Zustände bewerten“, sagt Cristina Becchio, Co-Autorin der Studie und Professorin für kognitive Neurowissenschaften das Universitätsklinikum Hamburg. Eppendorf in Deutschland. Die Ergebnisse, die sie als „unerwartet und überraschend“ beschreibt, wurden ironischerweise heute in der Zeitschrift veröffentlicht Menschliches Verhalten.

Allerdings überzeugen die Ergebnisse nicht alle davon, dass wir in eine neue Ära von Maschinen eingetreten sind, die so denken wie wir. Zwei Experten, die die Ergebnisse überprüften, empfahlen, sie „mit Vorsicht zu genießen“ und warnten davor, Schlussfolgerungen zu einem Thema zu ziehen, das „Hype und öffentliche Panik“ hervorrufen könne. Ein anderer externer Experte warnte vor den Gefahren der Vermenschlichung von Software.

Die Forscher achten darauf, nicht zu sagen, dass ihre Ergebnisse zeigen, dass LLMs tatsächlich über eine Theorie des Geistes verfügen.

Becchio und seine Kollegen sind nicht die ersten, die behaupten, dass LLM-Antworten diese Art von Argumentation widerspiegeln. In einem im letzten Jahr veröffentlichten Vorabdruck berichtete der Psychologe Michal Kosinski von der Stanford University, dass er mehrere Modelle anhand einer gängigen Theorie von Geistestests getestet habe. Er fand heraus, dass das beste von ihnen, GPT-4 von OpenAI, 75 Prozent der Aufgaben richtig löste, was seiner Meinung nach mit der Leistung von Sechsjährigen übereinstimmte, die in früheren Studien beobachtet wurde. Die Methoden dieser Studie wurden jedoch von anderen Forschern kritisiert, die Folgeexperimente durchführten und zu dem Schluss kamen, dass LLMs die richtigen Antworten oft auf der Grundlage „oberflächlicher Heuristiken“ und Abkürzungen und nicht auf der Grundlage einer fundierten Argumentation auf der Grundlage der Theorie des Geistes erhielten.

Die Autoren der aktuellen Studie waren sich der Debatte durchaus bewusst. Unser Ziel in dieser Arbeit war es, die Herausforderung einer systematischeren Bewertung der Maschinentheorie des Geistes mithilfe einer breiten Palette psychologischer Tests anzugehen“, erklärt der Co-Autor der Studie, James Strachan, Kognitionspsychologe und derzeit Gastforscher am University Medical Center Hamburg. Eppendorf. Er weist darauf hin, dass die Durchführung einer strengen Studie auch das Testen von Menschen bei denselben Aufgaben beinhaltete, die LLMs zugewiesen wurden: Die Studie verglich die Fähigkeiten von 1.907 Menschen mit denen mehrerer beliebter LLMs, darunter das GPT-4-Modell von OpenAI und das Open-Source-Llama 2. Metamodell -70b.

So testen Sie LLMs auf Theory of Mind

Sowohl LLMs als auch Menschen erledigten fünf typische Arten von Theory of Mind-Aufgaben, von denen die ersten drei das Verstehen von Hinweisen, Ironie und Fehltritten waren. Sie beantworteten auch Fragen zu „falschen Überzeugungen“, die oft verwendet werden, um festzustellen, ob kleine Kinder eine Theorie des Geistes entwickelt haben, und lauteten etwa so: Wenn Alice etwas bewegt, während Bob nicht im Zimmer ist, wo wird Bob wann nach ihm suchen? er kehrt zurück? ? Schließlich beantworteten sie recht komplexe Fragen zu „seltsamen Geschichten“, in denen Menschen lügen, manipulieren und sich gegenseitig missverstehen.

Insgesamt hat GPT-4 die Nase vorn. Seine Werte entsprachen denen von Menschen beim Test auf falsche Überzeugungen und waren höher als die Gesamtwerte von Menschen bei Ironie, Anspielungen und seltsamen Geschichten; Lediglich beim Fauxpas-Test schnitt er schlechter ab als Menschen. Interessanterweise waren die Ergebnisse von Llama-2 das Gegenteil von denen von GPT-4: Es war mit Menschen vergleichbar, wenn es um falsche Überzeugungen ging, schnitt aber bei Ironie, Anspielungen und seltsamen Geschichten schlechter ab als Menschen und schnitt bei Fehltritten besser ab.

„Wir haben derzeit weder eine Methode noch eine Idee, wie wir das testen können Existenz der Theorie des Geistes. —James Strachan, Universitätsklinikum Hamburg-Eppendorf

Um zu verstehen, was mit den Fehltritt-Ergebnissen passierte, unterzogen die Forscher die Modelle einer Reihe von Folgetests, die mehrere Hypothesen prüften. Sie kamen zu dem Schluss, dass GPT-4 in der Lage sei, die richtige Antwort auf eine Frage zu einem Fehltritt zu geben, dies jedoch durch eine „hyperkonservative“ Programmierung in Bezug auf Meinungsäußerungen verhindert werde. Strachan weist darauf hin, dass OpenAI zahlreiche Leitplanken um seine Modelle gelegt hat, die „darauf ausgelegt sind, das Modell sachlich, ehrlich und auf dem richtigen Weg zu halten“, und er geht davon aus, dass Strategien, die verhindern sollen, dass GPT-4 halluziniert (also Dinge erfindet), dies können Außerdem fragte er sich, ob eine Figur in der Geschichte versehentlich einen ehemaligen Highschool-Klassenkameraden bei einem Klassentreffen beleidigt hatte.

In der Zwischenzeit deuteten die Folgetests von Llama-2 durch Forscher darauf hin, dass seine hervorragende Leistung bei Fehltritttests wahrscheinlich ein Artefakt des ursprünglichen Frage-und-Antwort-Formats war, in dem die richtige Antwort auf eine Variation der Frage „Alice“ war „Wissen Sie, dass sie Bob beleidigt hat“? war immer „nein“.

Die Forscher achten darauf, nicht zu sagen, dass ihre Ergebnisse zeigen, dass LLMs tatsächlich über eine Theory of Mind verfügen, sondern behaupten stattdessen, dass sie „ein Verhalten zeigen, das bei Theory of Mind-Aufgaben nicht von menschlichem Verhalten zu unterscheiden ist“. Da stellt sich die Frage: Wenn eine Nachahmung genauso gut ist wie das Original, woher wissen Sie dann, dass es nicht das Original ist? Es ist eine Frage, die Sozialwissenschaftler noch nie zuvor zu beantworten versucht haben, sagt Strachan, denn menschliche Tests gehen davon aus, dass Qualität in mehr oder weniger großem Maße vorhanden ist. „Wir haben derzeit weder eine Methode noch eine Idee, wie wir das testen können Existenz der Theorie des Geistes, der phänomenologischen Qualität“, sagt er.

Kritikpunkte an der Studie

Die Forscher versuchten eindeutig, die methodischen Probleme zu vermeiden, die Kosinskis Artikel über LLMs und die Theorie des Geistes aus dem Jahr 2023 kritisierten. Sie führten die Tests beispielsweise über mehrere Sitzungen hinweg durch, sodass LLMs die richtigen Antworten während des Tests nicht „erlernen“ konnten, und variierten die Struktur der Fragen. Aber Yoav Goldberg und Natalie Shapira, zwei der KI-Forscher, die die Kritik an Kosinskis Artikel veröffentlicht haben, sagen, dass sie auch von dieser Studie nicht überzeugt sind.

„Warum ist es wichtig, dass Textmanipulationssysteme für diese Aufgaben Ergebnisse liefern können, die den Antworten ähneln, die Menschen geben, wenn ihnen dieselben Fragen gestellt werden?“ » —Emily Bender, University of Washington

Goldberg bemerkte, dass die Ergebnisse mit Vorsicht zu genießen seien, und fügte hinzu, dass „Modelle keine Menschen sind“ und dass „man leicht falsche Schlussfolgerungen ziehen kann“, wenn man die beiden vergleicht. Shapira sprach über die Gefahren des Medienrummels und hinterfragt auch die Methoden der Zeitung. Sie stellt die Frage, ob die Modelle die Testfragen in ihren Trainingsdaten gesehen und sich einfach die richtigen Antworten gemerkt haben könnten, und weist außerdem auf ein potenzielles Problem bei Tests hin, bei denen bezahlte menschliche Teilnehmer zum Einsatz kommen (in diesem Fall über die Prolific-Plattform rekrutiert). „Es ist ein bekanntes Problem: Arbeitnehmer erledigen ihre Aufgaben nicht immer optimal“, erklärt sie. IEEE-Spektrum. Sie hält die Ergebnisse für begrenzt und eher anekdotisch und sagt, dass dies „zu beweisen“ sei [theory of mind] Kapazität, viel Arbeit und ein umfassenderes Benchmarking sind erforderlich.

Emily Bender, Professorin für Computerlinguistik an der University of Washington, ist auf ihrem Gebiet legendär geworden, weil sie hartnäckig den Hype anprangert, der die KI-Branche aufbläht (und oft auch die Berichterstattung der Medien über die Branche). Es stellt die Forschungsfrage in Frage, die die Forscher motiviert hat. „Warum ist es wichtig, dass Textmanipulationssysteme für diese Aufgaben Ergebnisse liefern können, die den Antworten ähneln, die Menschen geben, wenn ihnen dieselben Fragen gestellt werden?“ ” Sie fragt. „Was sagt uns das über das Innenleben von LLMs, wozu sie nützlich sein könnten oder welche Gefahren sie mit sich bringen könnten?“ » Es ist nicht klar, sagt Bender, was es für einen LLM bedeuten würde, ein Geistesmodell zu haben, und daher ist auch nicht klar, ob diese Tests es gemessen haben.

Bender ist auch besorgt über den Anthropomorphismus, den sie in dem Artikel entdeckt, wobei Forscher argumentieren, dass LLMs in der Lage sind, zu erkennen, zu argumentieren und Entscheidungen zu treffen. Sie sagt, die Formulierung der Autoren „fairer artübergreifender Vergleich zwischen LLMs und menschlichen Teilnehmern“ sei „in Bezug auf Software völlig unangemessen“. Bender und mehrere Kollegen haben kürzlich eine vorläufige Arbeit veröffentlicht, in der untersucht wird, wie sich die Vermenschlichung von KI-Systemen auf das Vertrauen der Benutzer auswirkt.

Die Ergebnisse deuten möglicherweise nicht darauf hin, dass K.I. bekommt uns, aber es lohnt sich, über die Implikationen von LLMs nachzudenken, die die Theorie des mentalen Denkens überzeugend nachahmen. Sie werden besser in der Lage sein, mit ihren menschlichen Nutzern zu interagieren und deren Bedürfnisse zu antizipieren, könnten aber auch besser für die Zwecke der Täuschung oder Manipulation ihrer Nutzer genutzt werden. Und sie werden zu mehr Anthropomorphismus führen und menschliche Benutzer davon überzeugen, dass es auf der anderen Seite der Benutzeroberfläche einen Geist gibt.

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

Failed to fetch data from the URL.