97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 Unterschiede im Urteilsvermögen zwischen Menschen bereiten der KI Probleme – MJRBJC

Viele Menschen verstehen das Konzept der Voreingenommenheit intuitiv. In der Gesellschaft und in Systemen der künstlichen Intelligenz sind rassistische und geschlechtsspezifische Vorurteile gut dokumentiert.

Wenn die Gesellschaft Vorurteile irgendwie beseitigen könnte, würden dann alle Probleme verschwinden? Der verstorbene Nobelpreisträger Daniel Kahneman, eine Schlüsselfigur auf dem Gebiet der Verhaltensökonomie, argumentierte in seinem letzten Buch, dass Voreingenommenheit nur eine Seite der Medaille sei. Beurteilungsfehler können auf zwei Ursachen zurückgeführt werden: Voreingenommenheit und Rauschen.

Sowohl Voreingenommenheit als auch Rauschen spielen eine wichtige Rolle in Bereichen wie Recht, Medizin und Finanzprognosen, in denen menschliches Urteilsvermögen eine zentrale Rolle spielt. Bei unserer Arbeit als Informatiker und Informatiker haben meine Kollegen und ich herausgefunden, dass Lärm auch bei der KI eine Rolle spielt.

Statistisches Rauschen

In diesem Zusammenhang bedeutet Lärm eine unterschiedliche Art und Weise, wie Menschen über dasselbe Thema oder dieselbe Situation urteilen. Das Lärmproblem ist weiter verbreitet, als es zunächst scheinen mag. Eine bahnbrechende Arbeit aus der Zeit der Weltwirtschaftskrise ergab, dass verschiedene Richter in ähnlichen Fällen unterschiedliche Strafen verhängten.

Besorgniserregend ist, dass die Verurteilung in Gerichtsverfahren von Faktoren wie dem Wetter und dem Sieg der örtlichen Fußballmannschaft abhängen kann. Solche Faktoren tragen zumindest teilweise zu der Wahrnehmung bei, dass das Justizsystem nicht nur voreingenommen, sondern manchmal auch willkürlich ist.

Weitere Beispiele: Schadensregulierer geben möglicherweise unterschiedliche Schätzungen für ähnliche Verluste ab, was auf Unstimmigkeiten in ihren Beurteilungen zurückzuführen ist. Lärm ist wahrscheinlich bei allen Arten von Wettbewerben zu hören, von Weinproben über lokale Schönheitswettbewerbe bis hin zu Hochschulzulassungen.

Rauschen in den Daten

Auf den ersten Blick scheint es unwahrscheinlich, dass Lärm die Leistung von KI-Systemen beeinträchtigen könnte. Schließlich werden Maschinen nicht vom Wetter oder von Fußballmannschaften beeinflusst. Warum sollten sie also je nach den Umständen unterschiedliche Urteile fällen? Andererseits wissen Forscher, dass Vorurteile die KI beeinflussen, weil sie sich in den Daten widerspiegeln, auf denen die KI trainiert wird.

Für die neue Welle von KI-Modellen wie ChatGPT ist der Maßstab die menschliche Leistung bei allgemeinen Intelligenzproblemen wie dem gesunden Menschenverstand. ChatGPT und seine Kollegen werden anhand vernünftiger, von Menschen gekennzeichneter Datensätze gemessen.

Einfach ausgedrückt können Forscher und Entwickler der Maschine eine vernünftige Frage stellen und sie mit menschlichen Antworten vergleichen: „Wenn ich einen schweren Stein auf einen Papiertisch lege, wird er dann zusammenbrechen?“ Ja oder nein.“ Bei hoher Übereinstimmung zwischen beiden – im besten Fall perfekter Übereinstimmung – kommt die Maschine dem menschlichen gesunden Menschenverstand nahe, heißt es im Test.

Woher sollte also der Lärm kommen? Die obige Frage des gesunden Menschenverstandes scheint einfach zu sein, und die meisten Menschen würden ihrer Antwort wahrscheinlich zustimmen, aber es gibt viele Fragen, bei denen mehr Uneinigkeit oder Unsicherheit herrscht: „Ist der folgende Satz plausibel oder unplausibel?“ Mein Hund spielt Volleyball. Mit anderen Worten: Es besteht die Gefahr von Lärm. Es ist nicht verwunderlich, dass interessante Fragen des gesunden Menschenverstandes für Aufsehen sorgen.

Das Problem besteht jedoch darin, dass die meisten KI-Tests dieses Rauschen in Experimenten nicht berücksichtigen. Intuitiv sollten Fragen, die menschliche Antworten erzeugen, die tendenziell übereinstimmen, höher gewichtet werden, als wenn die Antworten divergieren – mit anderen Worten, wenn es Rauschen gibt. Die Forscher sind sich immer noch nicht sicher, ob und wie sie die Reaktionen der KI in dieser Situation bewerten sollen, aber ein erster Schritt besteht darin, anzuerkennen, dass das Problem besteht.

Verfolgen Sie den Lärm in der Maschine

Abgesehen von der Theorie bleibt die Frage, ob all das oben Genannte hypothetisch ist oder ob es bei tatsächlichen Tests des gesunden Menschenverstandes Rauschen gibt. Der beste Weg, das Vorhandensein von Lärm zu beweisen oder zu widerlegen, besteht darin, einen vorhandenen Test durchzuführen, die Antworten zu entfernen und sie von mehreren Personen unabhängig voneinander beschriften, also Antworten geben zu lassen. Durch die Messung von Meinungsverschiedenheiten zwischen Menschen können Forscher erkennen, wie viel Rauschen im Test enthalten ist.

Die Einzelheiten zur Messung dieser Meinungsverschiedenheit sind komplex und erfordern umfangreiche Statistiken und Mathematik. Außerdem: Wer kann schon sagen, wie man gesunden Menschenverstand definiert? Woher wissen Sie, dass menschliche Richter motiviert genug sind, über die Frage nachzudenken? Diese Fragen liegen an der Schnittstelle zwischen gutem experimentellen Design und Statistik. Robustheit ist der Schlüssel: Ein einzelnes Ergebnis, ein einzelner Test oder eine Reihe menschlicher Etikettierer wird wahrscheinlich niemanden überzeugen. Aus pragmatischer Sicht ist menschliche Arbeitskraft teuer. Vielleicht ist dies der Grund, warum keine Studien zu möglichem Rauschen bei KI-Tests durchgeführt wurden.

Um diese Lücke zu schließen, haben meine Kollegen und ich eine solche Studie entworfen und unsere Ergebnisse in Nature Scientific Reports veröffentlicht. Sie zeigen, dass Lärm selbst im Bereich des gesunden Menschenverstandes unvermeidlich ist. Da der Kontext, in dem Urteile hervorgerufen werden, wichtig sein kann, haben wir zwei Arten von Studien durchgeführt. An einer Art von Studie waren bezahlte Mitarbeiter von Amazon Mechanical Turk beteiligt, während an der anderen Studie eine kleinere Etikettierungsübung in zwei Laboren der University of Southern California und des Rensselaer Polytechnic Institute beteiligt war.

Ersteres können Sie sich als eine realistischere Online-Umgebung vorstellen, die widerspiegelt, wie viele KI-Tests tatsächlich gekennzeichnet werden, bevor sie zum Training und zur Bewertung freigegeben werden. Letzteres ist eher extrem und garantiert hohe Qualität, aber in viel kleineren Maßstäben. Die Frage, die wir zu beantworten versuchten, war, wie viel Lärm unvermeidbar ist und ob es sich lediglich um ein Problem der Qualitätskontrolle handelt.

Die Ergebnisse waren ernüchternd. In beiden Kontexten stellten wir selbst bei Fragen des gesunden Menschenverstandes, von denen man hätte erwarten können, dass sie eine hohe, wenn nicht sogar allgemeine Zustimmung hervorrufen, ein nicht triviales Maß an Unstimmigkeiten fest. Das Rauschen war so hoch, dass wir zu dem Schluss kamen, dass zwischen 4 und 10 % der Systemleistung auf Rauschen zurückzuführen sind.

Um zu verdeutlichen, was das bedeutet: Nehmen wir an, ich habe ein KI-System erstellt, das bei einem Test 85 % erreicht hat, und Sie haben ein KI-System erstellt, das 91 % erreicht hat. Ihr System scheint viel besser zu sein als meines. Aber wenn es bei den menschlichen Bezeichnungen, die zur Bewertung der Antworten verwendet werden, Unstimmigkeiten gibt, dann sind wir nicht mehr sicher, ob die Verbesserung um 6 % viel bedeutet. Soweit wir wissen, wird es möglicherweise keine wirkliche Verbesserung geben.

In KI-Rankings, in denen große Sprachmodelle wie das, das ChatGPT antreibt, verglichen werden, sind die Leistungsunterschiede zwischen konkurrierenden Systemen viel geringer, typischerweise weniger als 1 %. Wie wir in diesem Artikel zeigen, helfen gewöhnliche Statistiken nicht wirklich dabei, die Auswirkungen von Lärm von denen einer tatsächlichen Leistungsverbesserung zu trennen.

Fundierte Audits

Wie geht es weiter? Um auf Kahnemans Buch zurückzukommen, schlägt er das Konzept eines „Lärmaudits“ vor, um Lärm zu quantifizieren und letztendlich so weit wie möglich zu mindern. Zumindest müssen KI-Forscher abschätzen, welchen Einfluss Lärm haben könnte.

Die Prüfung von KI-Systemen auf Voreingenommenheit ist weit verbreitet, daher sind wir der Meinung, dass das Konzept der Geräuschprüfung natürlich folgen sollte. Wir hoffen, dass diese und ähnliche Studien zu ihrer Annahme führen werden.

Dieser Artikel wurde von The Conversation erneut veröffentlicht, einer unabhängigen, gemeinnützigen Nachrichtenorganisation, die Ihnen Fakten und Analysen liefert, die Ihnen helfen, unsere komplexe Welt zu verstehen.

Es wurde geschrieben von: Mayank Kejriwal, Universität von Südkalifornien.

Erfahren Sie mehr:

Mayank Kejriwal erhält Fördermittel von DARPA.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

Failed to fetch data from the URL.