Dieser gesponserte Artikel wird Ihnen von der NYU Tandon School of Engineering präsentiert.

Deepfakes, hyperrealistische Videos und Audiodateien, die mit künstlicher Intelligenz erstellt wurden, stellen in der heutigen digitalen Welt eine wachsende Bedrohung dar. Durch die Manipulation oder Fälschung von Inhalten, um diese authentisch erscheinen zu lassen, können Deepfakes dazu genutzt werden, Zuschauer zu täuschen, Fehlinformationen zu verbreiten und den Ruf zu schädigen. Ihr Missbrauch erstreckt sich auf politische Propaganda, soziale Manipulation, Identitätsdiebstahl und Cyberkriminalität.

Da die Deepfake-Technologie immer fortschrittlicher und allgemein zugänglicher wird, steigt das Risiko gesellschaftlicher Schäden. Die Untersuchung von Deepfakes ist von entscheidender Bedeutung für die Entwicklung von Erkennungsmethoden, die Sensibilisierung und die Schaffung rechtlicher Rahmenbedingungen zur Minderung des Schadens, den sie im persönlichen, beruflichen und globalen Bereich verursachen können. Um das Vertrauen in Medien und digitale Kommunikation aufrechtzuerhalten, ist es notwendig, die mit Deepfakes verbundenen Risiken und ihre potenziellen Auswirkungen zu verstehen.

Hier kommt Chinmay Hegde ins Spiel, außerordentliche Professorin für Informatik und Ingenieurwesen sowie Elektro- und Computertechnik an der NYU Tandon.

Ein Foto eines lächelnden Mannes mit Brille.Chinmay Hegde, außerordentliche Professorin für Informatik und Ingenieurwesen sowie Elektro- und Computertechnik an der NYU Tandon, entwickelt Challenge-Response-Systeme zur Erkennung von Audio- und Video-Deepfakes.NYU Tandon

„Generell interessiere ich mich für KI-Sicherheit in all ihren Formen. Und wenn sich eine Technologie wie KI so schnell entwickelt und so schnell leistungsfähig wird, ist das ein Bereich, der reif für die Ausbeutung durch Menschen ist, die Schaden anrichten können“, sagte Hegde.

Hegde stammt ursprünglich aus Indien und hat auf der ganzen Welt gelebt, unter anderem in Houston, Texas, wo er mehrere Jahre als Student an der Rice University verbrachte; Cambridge, Massachusetts, wo er als Postdoktorand in der Theory of Computation (TOC)-Gruppe am MIT arbeitete; und Ames, Iowa, wo er eine Fakultätsposition in der Abteilung für Elektrotechnik und Informationstechnik der Iowa State University innehatte.

Hegde, dessen Fachgebiet Datenverarbeitung und maschinelles Lernen ist, konzentriert seine Forschung auf die Entwicklung schneller, robuster und zertifizierbarer Algorithmen für verschiedene Datenverarbeitungsprobleme, die in Anwendungen in den Bereichen Bildgebung und Computer Vision, Transport und Materialdesign auftreten. Bei Tandon arbeitete er mit dem Informatik- und Ingenieurprofessor Nasir Memon zusammen, der sein Interesse an Deepfakes weckte.

„Noch vor sechs Jahren war die generative KI-Technologie sehr rudimentär. Eines Tages kam einer meiner Schüler und demonstrierte, wie das Modell einen weißen Kreis auf dunklem Hintergrund erzeugen konnte, und wir waren damals alle sehr beeindruckt. Jetzt haben Sie hochauflösende Kopien von Taylor Swift, Barack Obama und dem Papst – es ist erstaunlich, wie weit diese Technologie fortgeschritten ist. Meiner Ansicht nach könnte sich die Situation von jetzt an weiter verbessern“, sagte er.

Hegde half bei der Leitung eines Forschungsteams der NYU Tandon School of Engineering, das einen neuen Ansatz zur Bekämpfung der wachsenden Bedrohung durch Echtzeit-Deepfakes (RTDF) entwickelte – hochentwickelte gefälschte Audio- und Videodateien, die durch künstliche Intelligenz generiert wurden und echte Menschen in Echtzeit überzeugend nachahmen können . Video- und Sprachanrufzeiten.

Es kommt bereits zu aufsehenerregenden Vorfällen von Deepfake-Betrug, darunter kürzlich ein 25-Millionen-Dollar-Betrug mit gefälschten Videos, und die Notwendigkeit wirksamer Gegenmaßnahmen ist klar.

In zwei separaten Arbeiten zeigen die Forschungsteams, wie „Challenge-Response“-Techniken die inhärenten Einschränkungen aktueller RTDF-Generierungspipelines ausnutzen können, was zu einer Verschlechterung der Qualität von Imitationen führt, die ihre Täuschung offenbaren.

In einem Artikel mit dem Titel „GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response“ entwickelten Forscher eine Reihe von acht visuellen Herausforderungen, die den Benutzern signalisieren sollen, wenn sie nicht mit einer realen Person interagieren.

„Die meisten Menschen kennen CAPTCHA, das Online-Challenge-and-Response-System, das überprüft, ob sie ein Mensch sind. Unser Ansatz spiegelt diese Technologie wider und stellt im Wesentlichen Fragen oder Anfragen, die RTDF nicht angemessen beantworten kann“, sagte Hegde, der die Forschung zu beiden Papieren leitete.

Eine Reihe von Bildern mit aufgereihten Gesichtern von Menschen.Herausforderungsrahmen aus Original- und Deepfake-Videos. Jede Zeile ordnet die Ausgaben derselben Challenge-Instanz zu, während jede Spalte dieselbe Deepfake-Methode ausrichtet. Die grünen Balken sind eine Metapher für den Loyalitätswert, wobei höhere Balken auf eine höhere Loyalität hinweisen. Die fehlenden Balken deuten darauf hin, dass der konkrete Deepfake diese konkrete Herausforderung nicht bestanden hat.NYU Tandon

Das Videoforschungsteam erstellte einen Datensatz von 56.247 Videos von 47 Teilnehmern und bewertete dabei Herausforderungen wie Kopfbewegungen und das absichtliche Verdecken oder Verdecken von Gesichtsteilen. Menschliche Prüfer erreichten bei der Erkennung von Deepfakes einen Flächenwert unter der Kurve (AUC) von etwa 89 % (über 80 % gelten als sehr gut), während maschinelle Lernmodelle etwa 73 % erreichten.

„Herausforderungen wie das schnelle Bewegen einer Hand vor dem Gesicht, das Erzeugen dramatischer Gesichtsausdrücke oder das plötzliche Ändern der Beleuchtung sind für echte Menschen einfach zu bewältigen, aber für die heutigen Deepfake-Systeme ist es sehr schwierig, sie überzeugend nachzubilden, wenn man sie dazu auffordert Zeit. “sagte Hegde.

Audio-Herausforderungen für die Deepfake-Erkennung

In einem anderen Artikel mit dem Titel „AI-Assisted Tagging of Deepfake Audio Calls Using Challenge-Response“ erstellten Forscher eine Taxonomie von 22 Audio-Challenges in verschiedenen Kategorien. Zu den effektivsten Methoden gehörten Flüstern, das Sprechen mit einer Hand vor dem Mund, lautes Sprechen, das Aussprechen von Fremdwörtern und das Sprechen zu musikalischen oder stimmlichen Hintergründen.

„Selbst die modernsten Voice-Cloning-Systeme haben Schwierigkeiten, die Qualität aufrechtzuerhalten, wenn sie aufgefordert werden, diese ungewöhnlichen Sprachaufgaben im Handumdrehen auszuführen“, sagte Hegde. „Zum Beispiel kann das Flüstern oder Sprechen in ungewöhnlich hoher Tonlage die Qualität von Audio-Deepfakes erheblich beeinträchtigen.“

Die Audiostudie umfasste 100 Teilnehmer und über 1,6 Millionen Deepfake-Audioproben. Es wurden drei Erkennungsszenarien verwendet: Menschen allein, KI allein und ein kollaborativer Mensch-KI-Ansatz. Menschliche Prüfer erreichten eine Genauigkeit von etwa 72 % bei der Erkennung von Fälschungen, während die KI allein mit einer Genauigkeit von 85 % besser abschnitt.

Der kollaborative Ansatz, bei dem Menschen erste Urteile fällen und ihre Entscheidungen revidieren konnten, nachdem sie die Vorhersagen der KI gesehen hatten, erreichte eine Genauigkeit von etwa 83 %. Dieses kollaborative System ermöglichte es der KI auch, in Fällen, in denen Menschen unsicher waren, die endgültige Entscheidung zu treffen.

„Der Schlüssel liegt darin, dass diese Aufgaben für echte Menschen einfach und schnell sind, für die KI jedoch schwierig in Echtzeit zu simulieren. » – Chinmay Hegde, NYU Tandon

Die Forscher betonen, dass ihre Techniken so konzipiert sind, dass sie für den realen Einsatz praktisch sind, wobei die meisten Herausforderungen nur wenige Sekunden dauern. Eine typische Video-Challenge könnte eine schnelle Handbewegung oder einen Gesichtsausdruck beinhalten, während eine Audio-Challenge so einfach sein kann wie das Flüstern eines kurzen Satzes.

„Der Schlüssel liegt darin, dass diese Aufgaben für echte Menschen einfach und schnell sind, für die KI jedoch schwierig in Echtzeit zu simulieren“, sagte Hegde. „Wir können Herausforderungen auch zufällig anordnen und mehrere Aufgaben kombinieren, um die Sicherheit zu erhöhen.“

Während die Deepfake-Technologie weiter voranschreitet, planen Forscher, ihre Herausforderungen zu verfeinern und nach Wegen zu suchen, um die Erkennung noch robuster zu gestalten. Ihr besonderes Interesse gilt der Entwicklung „zusammengesetzter“ Herausforderungen, die mehrere Aufgaben gleichzeitig kombinieren.

„Unser Ziel ist es, Benutzern zuverlässige Tools zur Verfügung zu stellen, mit denen sie überprüfen können, mit wem sie tatsächlich online sprechen, ohne normale Gespräche zu stören“, sagte Hegde. „Da die KI bei der Erstellung von Fälschungen immer besser wird, müssen wir auch bei der Erkennung dieser Fälschungen besser werden. Diese Challenge-Response-Systeme sind ein vielversprechender Schritt in diese Richtung.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *