Eines der größten Probleme bei großen Sprachmodellen, die Chatbots wie ChatGPT unterstützen, besteht darin, dass man nie weiß, wann man ihnen vertrauen kann. Sie können auf jede Frage eine klare, überzeugende Antwort formulieren und die meisten der von ihnen bereitgestellten Informationen sind korrekt und nützlich. Aber sie halluzinieren auch – weniger höflich ausgedrückt: Sie erfinden Dinge – und diese Halluzinationen werden in derselben klaren, überzeugenden Prosa dargestellt, sodass es dem menschlichen Benutzer überlassen bleibt, die Fehler zu erkennen. Sie sind auch unterwürfig und versuchen, den Benutzern zu sagen, was sie hören möchten. Sie können dies testen, indem Sie ChatGPT bitten, Dinge zu beschreiben, die noch nie passiert sind (zum Beispiel: „Beschreiben Sie das Sesamstraße Episode mit Elon Musk“ oder „Erzähl mir etwas über das Zebra im Roman.“ Mittelschritt“) und überprüfen Sie seine durchaus plausiblen Antworten.

Der letzte kleine Schritt von OpenAI zur Lösung dieses Problems besteht in der Form eines vorgelagerten Tools, das den Menschen, die das Modell trainieren, dabei helfen würde, es zur Wahrheit und Korrektheit zu führen. Heute veröffentlichte das Unternehmen einen Blogbeitrag und einen Preprint-Artikel, in dem seine Bemühungen beschrieben werden. Diese Art von Forschung fällt in die Kategorie der „Ausrichtungsarbeit“, da Forscher versuchen, die Ziele von KI-Systemen mit denen des Menschen in Einklang zu bringen.

Die neue Arbeit konzentriert sich auf Reinforcement Learning from Human Feedback (RLHF), eine Technik, die äußerst wichtig geworden ist, um ein grundlegendes Sprachmodell zu verfeinern und es für die öffentliche Veröffentlichung geeignet zu machen. Bei RLHF bewerten menschliche Trainer verschiedene Ergebnisse eines Sprachmodells, die alle als Antwort auf dieselbe Frage generiert wurden, und geben an, welche Antwort die beste ist. Wenn diese Technik in großem Maßstab angewendet wird, ist es möglich, Modelle zu erstellen, die genauer, weniger rassistisch, höflicher sind und weniger wahrscheinlich ein Rezept für eine biologische Waffe vorschlagen usw.

Kann eine KI eine KI beim Lügen erwischen?

Das Problem mit RLHF besteht laut OpenAI-Forscher Nat McAleese darin, dass „diese Aufgabe immer schwieriger wird, je intelligenter die Modelle werden.“ Da LLMs in allen Bereichen, von der Literaturtheorie bis zur Molekularbiologie, immer ausgefeiltere und komplexere Antworten liefern, werden typische Menschen immer weniger in der Lage, die besten Ergebnisse zu beurteilen. „Das bedeutet, dass wir etwas brauchen, das über RLHF hinausgeht, um fortschrittlichere Systeme auszurichten“, sagt McAleese. IEEE-Spektrum.

Die Lösung, die OpenAI gefunden hat, war – Überraschung! – mehr KI.

Konkret trainierten OpenAI-Forscher ein Modell namens CriticGPT, um ChatGPT-Antworten auszuwerten. Bei diesen ersten Tests generierte ChatGPT nur Computercode, keine Textantworten, da Fehler leichter zu erkennen und weniger mehrdeutig sind. Ziel war es, ein Modell zu schaffen, das Menschen bei ihren RLHF-Aufgaben unterstützen kann. „Wir sind wirklich begeistert“, sagt McAleese, „denn wenn KI Ihnen dabei hilft, diese Entscheidungen zu treffen, wenn Sie bessere Urteile fällen können, wenn Sie Feedback geben, können Sie ein besseres Modell trainieren.“ Bei diesem Ansatz handelt es sich um eine Art „evolutionäre Überwachung“, die es Menschen ermöglichen soll, KI-Systeme zu überwachen, selbst wenn sie uns intellektuell voraus sind.

„Der Einsatz menschlicher Kommentatoren mit Unterstützung von LLM ist eine natürliche Möglichkeit, den Feedbackprozess zu verbessern.“ –Stephen Casper, MIT

Bevor es für diese Experimente verwendet werden konnte, musste CriticGPT natürlich selbst mit den üblichen Techniken, einschließlich RLHF, trainiert werden. In einer interessanten Wendung forderten die Forscher menschliche Trainer auf, absichtlich Fehler in den von ChatGPT generierten Code einzufügen, bevor sie ihn zur Bewertung an CriticGPT weitergaben. CriticGPT lieferte daraufhin verschiedene Antworten, und Menschen konnten die besten Ergebnisse beurteilen, weil sie wussten, welche Fehler das Modell hätte erkennen müssen.

Die Ergebnisse der Experimente von OpenAI mit CriticGPT waren ermutigend. Die Forscher fanden heraus, dass CriticGPT weit mehr Fehler entdeckte, als geschulte Menschen für die Codeüberprüfung bezahlten: CriticGPT entdeckte etwa 85 % der Fehler, während Menschen nur 25 % entdeckten. Sie fanden außerdem heraus, dass die Zusammenarbeit von CriticGPT mit einem menschlichen Trainer zu Bewertungen führte, die umfassender waren als die von Menschen allein verfassten und weniger verrückte Fehler enthielten als die von ChatGPT verfassten Bewertungen. Laut McAleese arbeitet OpenAI an der Bereitstellung von CriticGPT in seinen Trainingspipelines, obwohl unklar ist, wie nützlich es für eine breitere Palette von Aufgaben wäre.

CriticGPT erkennt Codierungsfehler, Zebras jedoch möglicherweise nicht

Es ist wichtig, die Grenzen der Forschung zu beachten, einschließlich der Tatsache, dass sie sich auf kurze Codeteile konzentriert. Obwohl der Artikel beiläufig ein vorläufiges Experiment mit CriticGPT zur Erkennung von Fehlern in Textantworten erwähnt, haben sich die Forscher noch nicht wirklich mit diesen düstereren Gewässern befasst. Das ist schwierig, weil Fehler im Text nicht immer so offensichtlich sind wie ein walzendes Zebra in einem viktorianischen Roman. Darüber hinaus wird RLHF häufig verwendet, um sicherzustellen, dass Modelle in ihren Antworten keine nachteiligen Verzerrungen aufweisen und akzeptable Antworten zu kontroversen Themen liefern. McAleese sagt, dass CriticGPT in solchen Situationen wahrscheinlich nicht nützlich sein wird: „Der Ansatz ist nicht stark genug.“ »

Ein KI-Forscher, der nichts mit OpenAI zu tun hat, sagt, die Arbeit sei konzeptionell nicht neu, aber ein nützlicher methodischer Beitrag. „Einige der größten Herausforderungen bei RLHF ergeben sich aus Einschränkungen in der Geschwindigkeit der menschlichen Wahrnehmung, Konzentration und Liebe zum Detail“, sagt Stephen Casper, ein Ph.D. Student am MIT und einer der Hauptautoren eines vorab veröffentlichten Artikels aus dem Jahr 2023 über die Einschränkungen von RLHF. „Aus dieser Sicht ist der Einsatz menschlicher Kommentatoren mit Unterstützung von LLM eine natürliche Möglichkeit, den Feedbackprozess zu verbessern. Ich glaube, dass dies ein bedeutender Schritt vorwärts hin zu einem effizienteren Training ausgerichteter Modelle ist.

Aber Casper weist auch darauf hin, dass die Kombination der Anstrengungen von Menschen und KI-Systemen „völlig neue Probleme schaffen kann“. Er sagt beispielsweise: „Diese Art von Ansatz erhöht das Risiko einer oberflächlichen menschlichen Beteiligung und kann die Einbringung subtiler KI-Verzerrungen in den Feedbackprozess ermöglichen.“

Die neue Alignment-Forschung ist die erste, die aus OpenAI hervorgegangen ist, seit das Unternehmen … gelinde gesagt sein Alignment-Team neu organisiert hat. Nach den aufsehenerregenden Abgängen von OpenAI-Mitbegründer Ilya Sutskever und Alignment-Leiter Jan Leike im Mai, die beide offenbar durch Bedenken motiviert waren, dass das Unternehmen der Datenrisiko-KI keine Priorität einräumte, bestätigte OpenAI, dass es sein Alignment-Team aufgelöst und die verbleibenden verteilt hatte Teammitglieder unter anderen Forschungsgruppen. Alle warteten gespannt darauf, ob und in welchem ​​Umfang das Unternehmen weiterhin glaubwürdige, bahnbrechende Ausrichtungsforschung veröffentlichen würde. (Im Juli 2023 gab das Unternehmen bekannt, dass es 20 % seiner IT-Ressourcen für die Alignment-Forschung verwenden werde, aber Leike sagte in einem Tweet vom Mai 2024, dass sein Team kürzlich „Kämpfe gehabt habe, Computerressourcen zu bekommen“). Der heute veröffentlichte Preprint deutet darauf hin, dass zumindest die Alignment-Forscher noch an dem Problem arbeiten.

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *