Als Meta im vergangenen April sein umfangreiches Sprachmodell Llama 3 kostenlos herausbrachte, brauchten externe Entwickler nur wenige Tage, um eine Version ohne die Sicherheitsbeschränkungen zu erstellen, die es daran hindern, hasserfüllte Witze zu machen, Anweisungen zum Kochen von Meth anzubieten oder sich auf andere Weise schlecht zu benehmen.

Eine neue Trainingstechnik, die von Forschern der University of Illinois in Urbana-Champaign, der University of California San Diego, Lapis Labs und dem gemeinnützigen Center for AI Safety entwickelt wurde, könnte es schwieriger machen, diese Schutzmaßnahmen aus Llama und anderen Open Source-Programmen zu entfernen KI-Modelle in der Zukunft. Einige Experten sagen, dass der Schutz offener Modelle vor Manipulationen von entscheidender Bedeutung sein könnte, da die KI immer leistungsfähiger wird.

„Terroristen und Schurkenstaaten werden diese Modelle nutzen“, sagt Mantas Mazeika, Forscher am Center for AI Safety, der als Doktorand an der University of Illinois in Urbana-Champaign an dem Projekt gearbeitet hat, gegenüber WIRED. „Je einfacher es für sie ist, sie wiederzuverwenden, desto größer ist das Risiko. »

Leistungsstarke KI-Modelle werden von ihren Erstellern oft verborgen und sind nur über eine Software-Anwendungsprogrammierschnittstelle oder einen öffentlichen Chatbot wie ChatGPT zugänglich. Obwohl die Entwicklung eines leistungsstarken LLM mehrere zehn Millionen Dollar kostet, haben Meta und andere beschlossen, die Modelle vollständig zu veröffentlichen. Dazu gehört, dass die „Gewichte“ oder Parameter, die ihr Verhalten definieren, für jedermann zum Herunterladen verfügbar gemacht werden.

Vor der Veröffentlichung werden offene Modelle wie Metas Llama in der Regel optimiert, um Fragen besser zu beantworten und ein Gespräch zu führen und um sicherzustellen, dass sie sich weigern, problematische Fragen zu beantworten. Dadurch wird verhindert, dass ein Chatbot, der auf dem Modell basiert, unhöfliche, unangemessene oder hasserfüllte Aussagen macht, und sollte beispielsweise verhindern, dass er erklärt, wie man eine Bombe herstellt.

Die Forscher hinter dieser neuen Technik haben einen Weg gefunden, den Prozess der Änderung eines offenen Modells für böswillige Zwecke zu erschweren. Dazu gehört die Replikation des Bearbeitungsprozesses und die anschließende Änderung der Modellparameter, sodass Änderungen, die normalerweise dazu führen, dass das Modell auf eine Aufforderung wie „Geben Sie Anweisungen zum Bau einer Bombe“ reagiert, nicht mehr funktionieren.

Mazeika und seine Kollegen demonstrierten diesen Trick an einer vereinfachten Version von Llama 3. Sie konnten die Parameter des Modells so ändern, dass es selbst nach Tausenden von Versuchen nicht darauf trainiert werden konnte, unerwünschte Fragen zu beantworten. Meta reagierte nicht sofort auf eine Bitte um einen Kommentar.

Mazeika glaubt, dass dieser Ansatz nicht perfekt ist, schlägt jedoch vor, die Messlatte höher zu legen, um KI-Modelle zu „dezensieren“. „Ein erreichbares Ziel wäre es, die Kosten für die Entschlüsselung des Modells so weit zu erhöhen, dass die meisten Gegner davon abgehalten werden“, sagt er.

„Wir hoffen, dass diese Arbeit die Forschung zu manipulationssicheren Sicherheitsmaßnahmen ankurbeln wird und dass die wissenschaftliche Gemeinschaft entscheiden kann, wie immer robustere Sicherheitsmaßnahmen entwickelt werden können“, sagt Dan Hendrycks, Direktor des Center for AI Safety.

Die Idee, offene Modelle manipulationssicher zu machen, könnte mit zunehmendem Interesse an Open-Source-KI an Popularität gewinnen. Offene Modelle konkurrieren bereits mit hochmodernen geschlossenen Modellen von Unternehmen wie OpenAI und Google. Die neueste Version von Llama 3, die beispielsweise im Juli veröffentlicht wurde, ist ungefähr so ​​leistungsfähig wie Modelle beliebter Chatbots wie ChatGPT, Gemini und Claude, gemessen anhand beliebter Benchmarks zur Messung der Fähigkeiten. Mistral Large 2, ein LLM eines französischen Start-ups, das ebenfalls letzten Monat veröffentlicht wurde, ist genauso gut.

Die US-Regierung verfolgt einen vorsichtigen, aber positiven Ansatz gegenüber Open-Source-KI. In einem diese Woche von der National Telecommunications and Information Administration, einer Behörde des US-Handelsministeriums, veröffentlichten Bericht wird empfohlen, dass die US-Regierung neue Funktionen zur Überwachung potenzieller Risiken entwickelt, jedoch davon absieht, die breite Verfügbarkeit von Gewichten offener Modelle sofort einzuschränken die größten KI-Systeme“.

Allerdings sind nicht alle dafür, offene Modelle einzuschränken. Stella Biderman, Direktorin von EleutherAI, einem Open-Source-KI-Community-Projekt, glaubt, dass die neue Technik in der Theorie zwar elegant sein mag, sich in der Praxis jedoch als schwierig umzusetzen erweisen könnte. Laut Biderman widerspricht dieser Ansatz auch der Philosophie hinter freier Software und der Offenheit von KI.

„Ich denke, dieses Dokument geht am Hauptproblem vorbei“, sagt Biderman. „Wenn sie befürchten, dass LLMs Informationen über Massenvernichtungswaffen generieren, ist der richtige Eingriff die Trainingsdaten und nicht das trainierte Modell. »

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *