KI-Sprachmodelle funktionieren, indem sie das wahrscheinlich nächste Wort in einem Satz vorhersagen und auf der Grundlage dieser Vorhersagen jeweils ein Wort generieren. Wasserzeichen-Algorithmen für Text unterteilen den Wortschatz des Sprachmodells in Wörter auf einer „grünen Liste“ und einer „roten Liste“ und zwingen das KI-Modell dann, Wörter aus der grünen Liste auszuwählen. Je mehr Wörter ein Satz aus der zulässigen Liste enthält, desto wahrscheinlicher ist es, dass der Text von einem Computer generiert wurde. Menschen neigen dazu, Sätze mit einer eher zufälligen Wortmischung zu schreiben.

Die Forscher haben fünf verschiedene Wasserzeichen gefälscht, die auf diese Weise funktionierten. Sie konnten die Wasserzeichen rückentwickeln, indem sie über eine API auf das KI-Modell mit dem angewendeten Wasserzeichen zugegriffen und wiederholt danach gefragt haben, sagt Staab. Die Antworten ermöglichen es dem Angreifer, das Wasserzeichen zu „stehlen“, indem er ein grobes Modell der Wasserzeichenregeln erstellt. Dazu analysieren sie die KI-Ergebnisse und vergleichen sie mit normalem Text.

Sobald sie eine ungefähre Vorstellung davon haben, was die mit Wasserzeichen versehenen Wörter sein könnten, können Forscher zwei Arten von Angriffen ausführen. Der erste, sogenannte Spoofing-Angriff, ermöglicht es Angreifern, die durch den Diebstahl des Wasserzeichens gewonnenen Informationen zu nutzen, um Text zu erstellen, der als Wasserzeichen ausgegeben werden kann. Der zweite Angriff ermöglicht es Hackern, KI-generierten Text aus seinem Wasserzeichen zu entfernen, sodass der Text als von einem Menschen geschrieben ausgegeben werden kann.

Das Team erreichte eine Erfolgsquote von etwa 80 % beim Wasserzeichen-Spoofing und eine Erfolgsquote von 85 % beim Entfernen von KI-generiertem Text aus seinem Wasserzeichen.

Forscher, die nicht mit dem Team der ETH Zürich in Verbindung stehen, wie Soheil Feizi, außerordentlicher Professor und Direktor des Reliable AI Lab an der University of Maryland, stellten ebenfalls fest, dass Wasserzeichen nicht vertrauenswürdig und anfällig für Hackerangriffe seien. Identitätsdiebstahl.

Die Ergebnisse der ETH Zürich bestätigen, dass diese Wasserzeichenprobleme weiterhin bestehen und sich auf die fortschrittlichsten Arten von Chatbots und großen Sprachmodellen erstrecken, die heute verwendet werden, sagt Feizi.

Die Forschung „unterstreicht, wie wichtig es ist, beim Einsatz solcher Erkennungsmechanismen in großem Maßstab Vorsicht walten zu lassen“, sagt er.

Trotz dieser Ergebnisse bleiben Wasserzeichen die vielversprechendste Methode zur Erkennung von KI-generierten Inhalten, sagt Nikola Jovanović, ein Doktorand an der ETH Zürich, der an der Forschung gearbeitet hat.

Allerdings sei noch mehr Forschung nötig, bevor Wasserzeichen für den großflächigen Einsatz bereit seien, fügt er hinzu. Bis dahin müssen wir unsere Erwartungen an die Zuverlässigkeit und Nützlichkeit dieser Tools im Auge behalten. „Wenn es besser als nichts ist, ist es immer noch nützlich“, sagt er.

Update: Diese Forschung wird auf der International Conference on Learning Representations vorgestellt. Die Geschichte wurde aktualisiert, um dies widerzuspiegeln.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *