97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 OpenAI hat über eine Million Stunden YouTube-Videos transkribiert, um GPT-4 zu trainieren – MJRBJC

Früher diese Woche, Wall Street Zeitung berichtete, dass KI-Unternehmen beim Sammeln hochwertiger Trainingsdaten an ihre Grenzen stoßen. Heute, Die New York Times detailliert einige Möglichkeiten, wie Unternehmen mit diesem Problem umgegangen sind. Es überrascht nicht, dass dabei Dinge getan werden, die in die unscharfe Grauzone des KI-Urheberrechts fallen.

Die Geschichte beginnt mit OpenAI, das, verzweifelt auf der Suche nach Trainingsdaten, Berichten zufolge sein Whisper-Audiotranskriptionsmodell entwickelt hat, um das Hindernis zu überwinden, und über eine Million Stunden YouTube-Videos transkribiert hat, um GPT-4, sein fortschrittlichstes großes Sprachmodell, zu trainieren. Es kommt darauf an Die New York Times, die berichtet, dass das Unternehmen wusste, dass dies rechtlich fragwürdig war, es jedoch für eine faire Verwendung hielt. OpenAI-Präsident Greg Brockman war persönlich an der Sammlung der verwendeten Videos beteiligt, Mal Schreiben.

Lindsay Held, Sprecherin von OpenAI, sagte Die Kante In einer E-Mail heißt es, dass das Unternehmen „einzigartige“ Datensätze für jedes seiner Modelle kuratiert, um „ihnen zu helfen, die Welt zu verstehen“ und seine globale Wettbewerbsfähigkeit in der Forschung aufrechtzuerhalten. Held fügte hinzu, dass das Unternehmen „viele Quellen nutzt, darunter öffentlich verfügbare Daten und Partnerschaften für nicht öffentliche Daten“, und erwägt die Generierung eigener synthetischer Daten.

DER Mal In dem Artikel heißt es, dass das Unternehmen im Jahr 2021 nützliche Datenreserven erschöpft habe und nach dem Durchsuchen anderer Ressourcen über die Transkription von YouTube-Videos, Podcasts und Hörbüchern gesprochen habe. Bis dahin hatte er seine Modelle anhand von Daten trainiert, darunter Computercode von Github, Schachzugdatenbanken und akademische Inhalte von Quizlet.

sagte Google-Sprecher Matt Bryant Die Kante In einer E-Mail hat das Unternehmen „unbestätigte Berichte“ über OpenAI-Aktivitäten gesehen und hinzugefügt, dass „unsere robots.txt-Dateien und Nutzungsbedingungen das unbefugte Entfernen oder Hochladen von YouTube-Inhalten verbieten“, was die Nutzungsbedingungen des Unternehmens widerspiegelt. Neal Mohan, CEO von YouTube, sagte diese Woche ähnliches über die Möglichkeit, dass OpenAI YouTube verwendet hat, um sein Sora-Videogenerierungsmodell zu trainieren. Bryant sagte, Google ergreife „technische und rechtliche Schritte“, um eine solche unbefugte Nutzung zu verhindern, „wenn wir eine klare rechtliche oder technische Grundlage dafür haben“.

Demnach sammelte Google auch Transkripte von YouTube Mal’ Quellen. Bryant sagte, das Unternehmen habe seine Modelle „an bestimmten YouTube-Inhalten geschult, im Einklang mit unseren Vereinbarungen mit YouTube-Erstellern“.

DER Mal schreibt, dass die Rechtsabteilung von Google das Datenschutzteam des Unternehmens gebeten hat, die Formulierung seiner Richtlinien zu ändern, um die Nutzung von Verbraucherdaten zu erweitern, beispielsweise durch Office-Tools wie Google Docs. Berichten zufolge wurde die neue Richtlinie absichtlich am 1. Juli veröffentlicht, um die Ablenkung durch das Feiertagswochenende zum Unabhängigkeitstag auszunutzen.

Meta stieß auch auf die Einschränkungen einer guten Verfügbarkeit von Trainingsdaten und bei Aufzeichnungen Mal Heard, sein KI-Team diskutierte die unbefugte Nutzung urheberrechtlich geschützter Werke, während es daran arbeitete, mit OpenAI gleichzuziehen. Nachdem das Unternehmen „Bücher, Essays, Gedichte und Nachrichtenartikel in englischer Sprache, die fast im Internet verfügbar sind“, durchstöbert hatte, erwog es offenbar Schritte wie die Bezahlung von Buchlizenzen oder sogar den vollständigen Kauf eines großen Verlags. Die Nutzung von Verbraucherdaten wurde offenbar auch durch Datenschutzänderungen nach dem Cambridge-Analytica-Skandal eingeschränkt.

Google, OpenAI und die gesamte Welt des KI-Trainings kämpfen mit der schnell verschwindenden Menge an Trainingsdaten für ihre Modelle, die sich verbessern, je mehr Daten sie aufnehmen. DER Zeitung schrieb diese Woche, dass Unternehmen bis 2028 die Zahl der neuen Inhalte übertreffen könnten.

Mögliche Lösungen für dieses von der genannten Problematik Zeitung Am Montag umfassen sie das Training von Modellen anhand „synthetischer“ Daten, die von ihren eigenen Modellen erstellt wurden, oder das sogenannte „Programmlernen“, bei dem die Modelle in geordneter Weise mit hochwertigen Daten gefüttert werden, in der Hoffnung, dass sie damit „intelligentere Verbindungen zwischen Konzepten“ herstellen können viel weniger Informationen, aber keiner der beiden Ansätze ist bisher bewiesen. Aber die andere Möglichkeit für Unternehmen besteht darin, alles zu verwenden, was sie finden können, unabhängig davon, ob sie eine Genehmigung haben oder nicht, und angesichts der zahlreichen Klagen, die im letzten Jahr eingereicht wurden, ist diese Methode, sagen wir mal, mehr als nur ein wenig schwerfällig.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

302 Found

302

Found

The document has been temporarily moved.