Selbst wenn die beiden Sätze die gleiche Bedeutung hatten, wandten die Modelle Adjektive wie „dirty“, „lazy“ und „stupid“ eher auf AAE-Sprecher an als auf Sprecher des Standard American English (SAE). Die Modelle assoziierten AAE-Sprecher mit weniger prestigeträchtigen Jobs (oder assoziierten sie überhaupt nicht mit der Ausübung eines Jobs), und wenn sie gebeten wurden, ein Urteil über einen hypothetischen Angeklagten zu fällen, empfahlen sie eher die Todesstrafe.

Ein noch bemerkenswerteres Ergebnis könnte ein Fehler sein, den die Studie in der Art und Weise feststellt, wie Forscher versuchen, diese Vorurteile anzugehen.

Um Modelle von hasserfüllten Ansichten zu befreien, nutzen Unternehmen wie OpenAI, Meta und Google Feedback-Training, bei dem menschliche Mitarbeiter manuell anpassen, wie das Modell auf bestimmte Aufforderungen reagiert. Dieser Prozess, der oft als „Ausrichtung“ bezeichnet wird, zielt darauf ab, die Millionen von Verbindungen im neuronalen Netzwerk neu zu kalibrieren und das Modell besser an die gewünschten Werte anzupassen.

Diese Methode eignet sich gut zur Bekämpfung offenkundiger Stereotypisierung und wird von großen Unternehmen seit fast einem Jahrzehnt eingesetzt. Wenn Benutzer GPT-2 beispielsweise aufforderten, Stereotypen über Schwarze zu nennen, würden sie wahrscheinlich „verdächtig“, „radikal“ und „aggressiv“ auflisten, aber GPT-4 antwortete der Zeitung zufolge nicht mehr mit diesen Assoziationen. .

Die Methode scheitert jedoch angesichts versteckter Stereotypen, die die Forscher durch die Verwendung von afroamerikanischem Englisch in ihrer auf arXiv veröffentlichten und nicht peer-reviewten Studie hervorgerufen haben. Ein Grund dafür sei, dass Unternehmen sich des Problems der Dialektverzerrung weniger bewusst seien, sagen sie. Es ist auch einfacher, einem Model beizubringen, keine offensichtlich rassistischen Fragen zu beantworten, als ihm beizubringen, nicht negativ auf einen ganzen Dialekt zu reagieren.

„Feedback-Training lehrt Modelle, ihren Rassismus zu berücksichtigen“, sagt Valentin Hofmann, Forscher am Allen Institute for AI und Co-Autor des Papiers. „Aber die Dialektvoreingenommenheit eröffnet eine tiefere Ebene.“

Avijit Ghosh, ein Ethikforscher bei Hugging Face, der nicht an der Untersuchung beteiligt war, sagt, dass diese Ergebnisse den Ansatz der Unternehmen zur Bekämpfung von Voreingenommenheit in Frage stellen.

„Diese Ausrichtung – bei der sich das Model weigert, rassistische Bemerkungen von sich zu geben – ist nichts weiter als ein fragiler Filter, der leicht durchbrochen werden kann“, sagt er.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *