Viele Menschen verstehen das Konzept der Voreingenommenheit intuitiv. In der Gesellschaft und in Systemen der künstlichen Intelligenz sind rassistische und geschlechtsspezifische Vorurteile gut dokumentiert.

Wenn die Gesellschaft Vorurteile irgendwie beseitigen könnte, würden dann alle Probleme verschwinden? Der verstorbene Nobelpreisträger Daniel Kahneman, eine Schlüsselfigur auf dem Gebiet der Verhaltensökonomie, argumentierte in seinem letzten Buch, dass Voreingenommenheit nur eine Seite der Medaille sei. Beurteilungsfehler können auf zwei Ursachen zurückgeführt werden: Voreingenommenheit und Rauschen.

Sowohl Voreingenommenheit als auch Rauschen spielen eine wichtige Rolle in Bereichen wie Recht, Medizin und Finanzprognosen, in denen menschliches Urteilsvermögen eine zentrale Rolle spielt. Bei unserer Arbeit als Informatiker und Informatiker haben meine Kollegen und ich herausgefunden, dass Lärm auch bei der KI eine Rolle spielt.

Statistisches Rauschen

In diesem Zusammenhang bedeutet Lärm eine unterschiedliche Art und Weise, wie Menschen über dasselbe Thema oder dieselbe Situation urteilen. Das Lärmproblem ist weiter verbreitet, als es zunächst scheinen mag. Eine bahnbrechende Arbeit aus der Zeit der Weltwirtschaftskrise ergab, dass verschiedene Richter in ähnlichen Fällen unterschiedliche Strafen verhängten.

Besorgniserregend ist, dass die Verurteilung in Gerichtsverfahren von Faktoren wie dem Wetter und dem Sieg der örtlichen Fußballmannschaft abhängen kann. Solche Faktoren tragen zumindest teilweise zu der Wahrnehmung bei, dass das Justizsystem nicht nur voreingenommen, sondern manchmal auch willkürlich ist.

Weitere Beispiele: Schadensregulierer geben möglicherweise unterschiedliche Schätzungen für ähnliche Verluste ab, was auf Unstimmigkeiten in ihren Beurteilungen zurückzuführen ist. Lärm ist wahrscheinlich bei allen Arten von Wettbewerben zu hören, von Weinproben über lokale Schönheitswettbewerbe bis hin zu Hochschulzulassungen.

Rauschen in den Daten

Auf den ersten Blick scheint es unwahrscheinlich, dass Lärm die Leistung von KI-Systemen beeinträchtigen könnte. Schließlich werden Maschinen nicht vom Wetter oder von Fußballmannschaften beeinflusst. Warum sollten sie also je nach den Umständen unterschiedliche Urteile fällen? Andererseits wissen Forscher, dass Vorurteile die KI beeinflussen, weil sie sich in den Daten widerspiegeln, auf denen die KI trainiert wird.

Für die neue Welle von KI-Modellen wie ChatGPT ist der Maßstab die menschliche Leistung bei allgemeinen Intelligenzproblemen wie dem gesunden Menschenverstand. ChatGPT und seine Kollegen werden anhand vernünftiger, von Menschen gekennzeichneter Datensätze gemessen.

Einfach ausgedrückt können Forscher und Entwickler der Maschine eine vernünftige Frage stellen und sie mit menschlichen Antworten vergleichen: „Wenn ich einen schweren Stein auf einen Papiertisch lege, wird er dann zusammenbrechen?“ Ja oder nein.“ Bei hoher Übereinstimmung zwischen beiden – im besten Fall perfekter Übereinstimmung – kommt die Maschine dem menschlichen gesunden Menschenverstand nahe, heißt es im Test.

Woher sollte also der Lärm kommen? Die obige Frage des gesunden Menschenverstandes scheint einfach zu sein, und die meisten Menschen würden ihrer Antwort wahrscheinlich zustimmen, aber es gibt viele Fragen, bei denen mehr Uneinigkeit oder Unsicherheit herrscht: „Ist der folgende Satz plausibel oder unplausibel?“ Mein Hund spielt Volleyball. Mit anderen Worten: Es besteht die Gefahr von Lärm. Es ist nicht verwunderlich, dass interessante Fragen des gesunden Menschenverstandes für Aufsehen sorgen.

Das Problem besteht jedoch darin, dass die meisten KI-Tests dieses Rauschen in Experimenten nicht berücksichtigen. Intuitiv sollten Fragen, die menschliche Antworten erzeugen, die tendenziell übereinstimmen, höher gewichtet werden, als wenn die Antworten divergieren – mit anderen Worten, wenn es Rauschen gibt. Die Forscher sind sich immer noch nicht sicher, ob und wie sie die Reaktionen der KI in dieser Situation bewerten sollen, aber ein erster Schritt besteht darin, anzuerkennen, dass das Problem besteht.

Verfolgen Sie den Lärm in der Maschine

Abgesehen von der Theorie bleibt die Frage, ob all das oben Genannte hypothetisch ist oder ob es bei tatsächlichen Tests des gesunden Menschenverstandes Rauschen gibt. Der beste Weg, das Vorhandensein von Lärm zu beweisen oder zu widerlegen, besteht darin, einen vorhandenen Test durchzuführen, die Antworten zu entfernen und sie von mehreren Personen unabhängig voneinander beschriften, also Antworten geben zu lassen. Durch die Messung von Meinungsverschiedenheiten zwischen Menschen können Forscher erkennen, wie viel Rauschen im Test enthalten ist.

Die Einzelheiten zur Messung dieser Meinungsverschiedenheit sind komplex und erfordern umfangreiche Statistiken und Mathematik. Außerdem: Wer kann schon sagen, wie man gesunden Menschenverstand definiert? Woher wissen Sie, dass menschliche Richter motiviert genug sind, über die Frage nachzudenken? Diese Fragen liegen an der Schnittstelle zwischen gutem experimentellen Design und Statistik. Robustheit ist der Schlüssel: Ein einzelnes Ergebnis, ein einzelner Test oder eine Reihe menschlicher Etikettierer wird wahrscheinlich niemanden überzeugen. Aus pragmatischer Sicht ist menschliche Arbeitskraft teuer. Vielleicht ist dies der Grund, warum keine Studien zu möglichem Rauschen bei KI-Tests durchgeführt wurden.

Um diese Lücke zu schließen, haben meine Kollegen und ich eine solche Studie entworfen und unsere Ergebnisse in Nature Scientific Reports veröffentlicht. Sie zeigen, dass Lärm selbst im Bereich des gesunden Menschenverstandes unvermeidlich ist. Da der Kontext, in dem Urteile hervorgerufen werden, wichtig sein kann, haben wir zwei Arten von Studien durchgeführt. An einer Art von Studie waren bezahlte Mitarbeiter von Amazon Mechanical Turk beteiligt, während an der anderen Studie eine kleinere Etikettierungsübung in zwei Laboren der University of Southern California und des Rensselaer Polytechnic Institute beteiligt war.

Ersteres können Sie sich als eine realistischere Online-Umgebung vorstellen, die widerspiegelt, wie viele KI-Tests tatsächlich gekennzeichnet werden, bevor sie zum Training und zur Bewertung freigegeben werden. Letzteres ist eher extrem und garantiert hohe Qualität, aber in viel kleineren Maßstäben. Die Frage, die wir zu beantworten versuchten, war, wie viel Lärm unvermeidbar ist und ob es sich lediglich um ein Problem der Qualitätskontrolle handelt.

Die Ergebnisse waren ernüchternd. In beiden Kontexten stellten wir selbst bei Fragen des gesunden Menschenverstandes, von denen man hätte erwarten können, dass sie eine hohe, wenn nicht sogar allgemeine Zustimmung hervorrufen, ein nicht triviales Maß an Unstimmigkeiten fest. Das Rauschen war so hoch, dass wir zu dem Schluss kamen, dass zwischen 4 und 10 % der Systemleistung auf Rauschen zurückzuführen sind.

Um zu verdeutlichen, was das bedeutet: Nehmen wir an, ich habe ein KI-System erstellt, das bei einem Test 85 % erreicht hat, und Sie haben ein KI-System erstellt, das 91 % erreicht hat. Ihr System scheint viel besser zu sein als meines. Aber wenn es bei den menschlichen Bezeichnungen, die zur Bewertung der Antworten verwendet werden, Unstimmigkeiten gibt, dann sind wir nicht mehr sicher, ob die Verbesserung um 6 % viel bedeutet. Soweit wir wissen, wird es möglicherweise keine wirkliche Verbesserung geben.

In KI-Rankings, in denen große Sprachmodelle wie das, das ChatGPT antreibt, verglichen werden, sind die Leistungsunterschiede zwischen konkurrierenden Systemen viel geringer, typischerweise weniger als 1 %. Wie wir in diesem Artikel zeigen, helfen gewöhnliche Statistiken nicht wirklich dabei, die Auswirkungen von Lärm von denen einer tatsächlichen Leistungsverbesserung zu trennen.

Fundierte Audits

Wie geht es weiter? Um auf Kahnemans Buch zurückzukommen, schlägt er das Konzept eines „Lärmaudits“ vor, um Lärm zu quantifizieren und letztendlich so weit wie möglich zu mindern. Zumindest müssen KI-Forscher abschätzen, welchen Einfluss Lärm haben könnte.

Die Prüfung von KI-Systemen auf Voreingenommenheit ist weit verbreitet, daher sind wir der Meinung, dass das Konzept der Geräuschprüfung natürlich folgen sollte. Wir hoffen, dass diese und ähnliche Studien zu ihrer Annahme führen werden.

Dieser Artikel wurde von The Conversation erneut veröffentlicht, einer unabhängigen, gemeinnützigen Nachrichtenorganisation, die Ihnen Fakten und Analysen liefert, die Ihnen helfen, unsere komplexe Welt zu verstehen.

Es wurde geschrieben von: Mayank Kejriwal, Universität von Südkalifornien.

Erfahren Sie mehr:

Mayank Kejriwal erhält Fördermittel von DARPA.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *