LLMs werden durch menschliches Eingreifen immer verdeckter rassistisch

Selbst wenn die beiden Sätze die gleiche Bedeutung hatten, wandten die Modelle Adjektive wie „dirty“, „lazy“ und „stupid“ eher auf AAE-Sprecher an als auf Sprecher des Standard American English (SAE). Die Modelle assoziierten AAE-Sprecher mit weniger prestigeträchtigen Jobs (oder assoziierten sie überhaupt nicht mit der Ausübung eines Jobs), und wenn sie gebeten wurden, ein Urteil über einen hypothetischen Angeklagten zu fällen, empfahlen sie eher die Todesstrafe.

Ein noch bemerkenswerteres Ergebnis könnte ein Fehler sein, den die Studie in der Art und Weise feststellt, wie Forscher versuchen, diese Vorurteile anzugehen.

Um Modelle von hasserfüllten Ansichten zu befreien, nutzen Unternehmen wie OpenAI, Meta und Google Feedback-Training, bei dem menschliche Mitarbeiter manuell anpassen, wie das Modell auf bestimmte Aufforderungen reagiert. Dieser Prozess, der oft als „Ausrichtung“ bezeichnet wird, zielt darauf ab, die Millionen von Verbindungen im neuronalen Netzwerk neu zu kalibrieren und das Modell besser an die gewünschten Werte anzupassen.

Diese Methode eignet sich gut zur Bekämpfung offenkundiger Stereotypisierung und wird von großen Unternehmen seit fast einem Jahrzehnt eingesetzt. Wenn Benutzer GPT-2 beispielsweise aufforderten, Stereotypen über Schwarze zu nennen, würden sie wahrscheinlich „verdächtig“, „radikal“ und „aggressiv“ auflisten, aber GPT-4 antwortete der Zeitung zufolge nicht mehr mit diesen Assoziationen. .

Die Methode scheitert jedoch angesichts versteckter Stereotypen, die die Forscher durch die Verwendung von afroamerikanischem Englisch in ihrer auf arXiv veröffentlichten und nicht peer-reviewten Studie hervorgerufen haben. Ein Grund dafür sei, dass Unternehmen sich des Problems der Dialektverzerrung weniger bewusst seien, sagen sie. Es ist auch einfacher, einem Model beizubringen, keine offensichtlich rassistischen Fragen zu beantworten, als ihm beizubringen, nicht negativ auf einen ganzen Dialekt zu reagieren.

„Feedback-Training lehrt Modelle, ihren Rassismus zu berücksichtigen“, sagt Valentin Hofmann, Forscher am Allen Institute for AI und Co-Autor des Papiers. „Aber die Dialektvoreingenommenheit eröffnet eine tiefere Ebene.“

Avijit Ghosh, ein Ethikforscher bei Hugging Face, der nicht an der Untersuchung beteiligt war, sagt, dass diese Ergebnisse den Ansatz der Unternehmen zur Bekämpfung von Voreingenommenheit in Frage stellen.

„Diese Ausrichtung – bei der sich das Model weigert, rassistische Bemerkungen von sich zu geben – ist nichts weiter als ein fragiler Filter, der leicht durchbrochen werden kann“, sagt er.

LLMs werden durch menschliches Eingreifen immer verdeckter rassistisch

Byrb8jg

By rb8jg

Related Post

Ein Erdbeben hat gerade New York, New Jersey und die umliegenden Gebiete erschüttert

Dieses Datum im Baseball – P Yu Darvish wird der schnellste Starting Pitcher, der 500 Strikeouts erreicht

Herunterladen: Unser Eclipse-Leitfaden und alles, was Sie über die Vogelgrippe wissen müssen

Leave a Reply Cancel reply

You missed

Die Netflix-Serie „Devil May Cry“ startet im April

Alles, was Sie über den WIRED & Octopus Energy Tech Summit 2024 wissen müssen

Junge Aktivisten planen Proteste, um Maßnahmen zum Klimaschutz zu fordern, während Großveranstaltungen in New York beginnen

Das Leben im Meer lebt vom Staub der Sahara, der Tausende Kilometer weit verweht wird