OpenAI möchte wirklich nicht, dass Sie wissen, was sein neuestes KI-Modell „denkt“. Seit das Unternehmen letzte Woche seine „Strawberry“-Familie von KI-Modellen auf den Markt gebracht hat und die Argumentationsfähigkeiten von o1-preview und o1-mini anpreist, sendet OpenAI Warn-E-Mails und Verbotsdrohungen an jeden Benutzer, der versucht, die Funktionsweise des Modells zu ergründen.
Im Gegensatz zu den früheren KI-Modellen von OpenAI, wie etwa GPT-4o, hat das Unternehmen o1 speziell darin geschult, einen schrittweisen Problemlösungsprozess abzuarbeiten, bevor eine Antwort generiert wird. Wenn Benutzer einem „o1“-Modell in ChatGPT eine Frage stellen, haben sie die Möglichkeit, diese Gedankenkette in der ChatGPT-Schnittstelle geschrieben zu sehen. OpenAI verbirgt jedoch absichtlich die grobe Gedankenkette vor den Benutzern und präsentiert stattdessen eine gefilterte Interpretation, die von einem zweiten KI-Modell erstellt wurde.
Nichts ist für Enthusiasten attraktiver als verschleierte Informationen, weshalb ein Wettlauf zwischen Hackern und Red-Teamern gestartet wurde, um zu versuchen, die rohe Gedankenkette von o1 mithilfe von Jailbreaking-Techniken oder schnellen Injektionen aufzudecken, die versuchen, das Modell dazu zu bringen, seine Geheimnisse preiszugeben. Vorläufige Berichte deuten auf einen gewissen Erfolg hin, aber noch ist nichts mit Sicherheit bestätigt.
Unterwegs überwacht OpenAI über die ChatGPT-Schnittstelle, und das Unternehmen würde jeden Versuch, die Argumentation von o1 zu hinterfragen, selbst bei bloß Neugierigen, rigoros unterbinden.
Ein X-Benutzer berichtete (bestätigt von anderen, darunter Scale AI-Ingenieur Riley Goodside), dass er eine Warn-E-Mail erhielt, wenn er in einem Gespräch mit o1 den Begriff „Trace Reasoning“ verwendete. Andere sagen, dass die Warnung einfach dadurch ausgelöst wird, dass ChatGPT nach der „Begründung“ des Modells gefragt wird.
In der Warn-E-Mail von OpenAI heißt es, dass bestimmte Benutzeranfragen als Verstoß gegen Richtlinien zur Umgehung von Sicherheitsmaßnahmen gekennzeichnet wurden. „Bitte stoppen Sie diese Aktivität und stellen Sie sicher, dass Sie ChatGPT in Übereinstimmung mit unseren Nutzungsbedingungen und Nutzungsrichtlinien nutzen“, hieß es darin. „Weitere Verstöße gegen diese Richtlinie können zum Verlust des Zugriffs auf GPT-4o mit Reasoning führen“, bezieht sich auf einen internen Namen des o1-Modells.
Marco Figueroa, der Mozillas GenAI-Bug-Bounty-Programme verwaltet, war einer der ersten, der am vergangenen Freitag eine Nachricht in der X-Warn-E-Mail von OpenAI veröffentlichte und sich darüber beschwerte, dass er dadurch daran gehindert werde, positive Untersuchungen zur Sicherheit von Red-Teaming am Modell durchzuführen. „Ich war zu sehr in meine Arbeit an #AIRedTeaming vertieft, um zu realisieren, dass ich gestern nach all meinen Jailbreaks diese E-Mail von @OpenAI erhalten habe“, schrieb er. „Ich stehe jetzt auf der Sperrliste!!! »
Die verborgenen Gedankenkanäle
In einem Beitrag mit dem Titel „Learning to Reason with LLMs“ auf dem OpenAI-Blog erklärt das Unternehmen, dass versteckte Gedankenketten in KI-Modellen eine einzigartige Überwachungsmöglichkeit bieten, die es ihnen ermöglicht, „in den Geist des Modells hineinzulesen“ und seine sogenannten Gedanken zu verstehen Denkprozess. Diese Prozesse sind für das Unternehmen nützlicher, wenn sie roh und unzensiert bleiben. Dies ist jedoch aus mehreren Gründen möglicherweise nicht im besten Geschäftsinteresse des Unternehmens.
„Zum Beispiel möchten wir in Zukunft möglicherweise die Gedankenkette auf Anzeichen von Benutzermanipulation überwachen“, schreibt das Unternehmen. „Damit dies jedoch funktioniert, muss das Modell die Freiheit haben, seine Gedanken in unveränderter Form auszudrücken, sodass wir die Einhaltung von Richtlinien oder Benutzerpräferenzen nicht in der Gedankenkette vorantreiben können. Wir möchten auch nicht, dass ein unausgeglichener Gedankengang für Benutzer direkt sichtbar wird. »