OpenAI hat über eine Million Stunden YouTube-Videos transkribiert, um GPT-4 zu trainieren

Früher diese Woche, Wall Street Zeitung berichtete, dass KI-Unternehmen beim Sammeln hochwertiger Trainingsdaten an ihre Grenzen stoßen. Heute, Die New York Times detailliert einige Möglichkeiten, wie Unternehmen mit diesem Problem umgegangen sind. Es überrascht nicht, dass dabei Dinge getan werden, die in die unscharfe Grauzone des KI-Urheberrechts fallen.

Die Geschichte beginnt mit OpenAI, das, verzweifelt auf der Suche nach Trainingsdaten, Berichten zufolge sein Whisper-Audiotranskriptionsmodell entwickelt hat, um das Hindernis zu überwinden, und über eine Million Stunden YouTube-Videos transkribiert hat, um GPT-4, sein fortschrittlichstes großes Sprachmodell, zu trainieren. Es kommt darauf an Die New York Times, die berichtet, dass das Unternehmen wusste, dass dies rechtlich fragwürdig war, es jedoch für eine faire Verwendung hielt. OpenAI-Präsident Greg Brockman war persönlich an der Sammlung der verwendeten Videos beteiligt, Mal Schreiben.

Lindsay Held, Sprecherin von OpenAI, sagte Die Kante In einer E-Mail heißt es, dass das Unternehmen „einzigartige“ Datensätze für jedes seiner Modelle kuratiert, um „ihnen zu helfen, die Welt zu verstehen“ und seine globale Wettbewerbsfähigkeit in der Forschung aufrechtzuerhalten. Held fügte hinzu, dass das Unternehmen „viele Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“, und erwägt die Generierung eigener synthetischer Daten.

DER Mal In dem Artikel heißt es, dass das Unternehmen im Jahr 2021 nützliche Datenreserven erschöpft habe und nach dem Durchsuchen anderer Ressourcen über die Transkription von YouTube-Videos, Podcasts und Hörbüchern gesprochen habe. Bis dahin hatte er seine Modelle anhand von Daten trainiert, darunter Computercode von Github, Schachzugdatenbanken und akademische Inhalte von Quizlet.

sagte Google-Sprecher Matt Bryant Die Kante In einer E-Mail hat das Unternehmen „unbestätigte Berichte“ über OpenAI-Aktivitäten gesehen und hinzugefügt, dass „unsere robots.txt-Dateien und Nutzungsbedingungen das unbefugte Entfernen oder Hochladen von YouTube-Inhalten verbieten“, was die Nutzungsbedingungen des Unternehmens widerspiegelt. Neal Mohan, CEO von YouTube, sagte diese Woche ähnliches über die Möglichkeit, dass OpenAI YouTube verwendet hat, um sein Sora-Videogenerierungsmodell zu trainieren. Bryant sagte, Google ergreife „technische und rechtliche Schritte“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.

Demnach sammelte Google auch Transkripte von YouTube Mal’ Quellen. Bryant sagte, das Unternehmen habe seine Modelle „an bestimmten YouTube-Inhalten geschult, im Einklang mit unseren Vereinbarungen mit YouTube-Erstellern“.

DER Mal schreibt, dass die Rechtsabteilung von Google das Datenschutzteam des Unternehmens gebeten hat, die Formulierung seiner Richtlinien zu ändern, um die Nutzung von Verbraucherdaten zu erweitern, beispielsweise durch Office-Tools wie Google Docs. Berichten zufolge wurde die neue Richtlinie absichtlich am 1. Juli veröffentlicht, um die Ablenkung durch das Feiertagswochenende zum Unabhängigkeitstag auszunutzen.

Meta stieß auch auf die Einschränkungen einer guten Verfügbarkeit von Trainingsdaten und bei Aufzeichnungen Mal Heard, sein KI-Team diskutierte die unbefugte Nutzung urheberrechtlich geschützter Werke, während es daran arbeitete, mit OpenAI gleichzuziehen. Nachdem das Unternehmen „Bücher, Essays, Gedichte und Nachrichtenartikel in englischer Sprache, die fast im Internet verfügbar sind“, durchstöbert hatte, erwog es offenbar Schritte wie die Bezahlung von Buchlizenzen oder sogar den vollständigen Kauf eines großen Verlags. Die Nutzung von Verbraucherdaten wurde offenbar auch durch Datenschutzänderungen nach dem Cambridge-Analytica-Skandal eingeschränkt.

Google, OpenAI und die gesamte Welt des KI-Trainings kämpfen mit der schnell verschwindenden Menge an Trainingsdaten für ihre Modelle, die sich verbessern, je mehr Daten sie aufnehmen. DER Zeitung schrieb diese Woche, dass Unternehmen bis 2028 die Zahl der neuen Inhalte übertreffen könnten.

Mögliche Lösungen für dieses von der genannten Problematik Zeitung Am Montag umfassen sie das Training von Modellen anhand „synthetischer“ Daten, die von ihren eigenen Modellen erstellt wurden, oder das sogenannte „Programmlernen“, bei dem die Modelle in geordneter Weise mit hochwertigen Daten gefüttert werden, in der Hoffnung, dass sie damit „intelligentere Verbindungen zwischen Konzepten“ herstellen können viel weniger Informationen, aber keiner der beiden Ansätze ist bisher bewiesen. Aber die andere Möglichkeit für Unternehmen besteht darin, alles zu verwenden, was sie finden können, unabhängig davon, ob sie eine Genehmigung haben oder nicht, und angesichts der zahlreichen Klagen, die im letzten Jahr eingereicht wurden, ist diese Methode, sagen wir mal, mehr als nur ein wenig schwerfällig.

OpenAI hat über eine Million Stunden YouTube-Videos transkribiert, um GPT-4 zu trainieren

Byrb8jg

By rb8jg

Related Post

Open-Source-Künstliche Intelligenz sorgt bei ihren Gründern und der FTC für Aufsehen

Der Perseverance-Rover entdeckt Hinweise darauf, dass auf dem Mars möglicherweise uraltes mikrobielles Leben existiert hat

Erforschung Cadmium-induzierter Veränderungen im microRNA-Expressionsprofil

Leave a Reply Cancel reply

You missed

Open-Source-Künstliche Intelligenz sorgt bei ihren Gründern und der FTC für Aufsehen

Der Perseverance-Rover entdeckt Hinweise darauf, dass auf dem Mars möglicherweise uraltes mikrobielles Leben existiert hat

Erforschung Cadmium-induzierter Veränderungen im microRNA-Expressionsprofil

Junji Itos schreckliches Uzumaki kommt im September zum Erwachsenenschwimmen