Künstliche Intelligenzsysteme wie ChatGPT könnten bald nicht mehr haben, was sie intelligenter macht: die zig Milliarden Wörter, die Menschen online geschrieben und geteilt haben.

Eine am Donnerstag von der Forschungsgruppe Epoch AI veröffentlichte neue Studie prognostiziert, dass Technologieunternehmen bis zum Ende des Jahrzehnts, zwischen 2026 und 2032, den Vorrat an öffentlich verfügbaren Trainingsdaten für KI-Sprachmodelle erschöpfen werden.

Tamay Besiroglu, der Autor der Studie, verglich dies mit einem „echten Goldrausch“, der die begrenzten natürlichen Ressourcen erschöpft, und sagte, dass der KI-Bereich möglicherweise Schwierigkeiten haben werde, sein aktuelles Fortschrittstempo beizubehalten, sobald die Reserven des von Menschen geschaffenen Schreibens erschöpft seien.

Kurzfristig kämpfen Technologieunternehmen wie OpenAI, der Erfinder von ChatGPT, und Google darum, sich hochwertige Datenquellen zu sichern und manchmal auch dafür zu bezahlen, um ihre großen KI-Sprachmodelle zu trainieren – zum Beispiel durch die Unterzeichnung von Vereinbarungen zur Ausnutzung des ständigen Flusses von Sätzen kommen. in Reddit-Foren und Nachrichtenmedien.

Längerfristig wird es nicht genügend neue Blogs, Nachrichtenartikel und Social-Media-Kommentare geben, um den aktuellen Verlauf der KI-Entwicklung zu unterstützen, was Druck auf Unternehmen ausübt, sensible Daten auszunutzen, die jetzt als privat gelten – wie E-Mails oder SMS – oder sich darauf verlassen auf weniger zuverlässigen „synthetischen Daten“, die von den Chatbots selbst ausgespuckt werden.

„Hier gibt es einen ernsthaften Engpass“, sagte Besiroglu. „Wenn Sie auf diese Einschränkungen hinsichtlich der Datenmenge stoßen, die Sie haben, werden Sie Ihre Modelle nicht wirklich effektiv skalieren können. Und die Skalierung von Modellen war wahrscheinlich die wichtigste Möglichkeit, ihre Fähigkeiten zu erweitern und ihre Produktionsqualität zu verbessern.

Die Forscher machten ihre Prognosen erstmals vor zwei Jahren – kurz vor dem Debüt von ChatGPT – in einem Arbeitspapier, das einen baldigen Abbruch hochwertiger Textdaten für 2026 vorhersagte. Seitdem hat sich viel verändert, darunter auch neue Techniken, die es KI-Forschern ermöglichen, die bereits vorhandenen Daten besser zu nutzen und manchmal die gleichen Quellen mehrmals zu „übertrainieren“.

Aber es gibt Grenzen, und nach weiteren Untersuchungen geht Epoch nun davon aus, dass in den nächsten zwei bis acht Jahren keine öffentlichen Textdaten mehr vorhanden sein werden.

Die neueste Studie des Teams wurde einem Peer-Review unterzogen und wird voraussichtlich diesen Sommer auf der International Conference on Machine Learning in Wien, Österreich, vorgestellt. Epoch ist ein gemeinnütziges Institut, das von Rethink Priorities mit Sitz in San Francisco betrieben wird und von Proponents of Effective Altruism finanziert wird – einer philanthropischen Bewegung, die Geld investiert hat, um die schlimmsten Risiken der KI zu mindern.

Besiroglu sagte, KI-Forscher hätten vor mehr als einem Jahrzehnt erkannt, dass eine aggressive Erweiterung zweier Schlüsselfaktoren – Rechenleistung und riesige Internetdatenbestände – die Leistung von KI-Systemen erheblich verbessern könnte.

Laut der Epoch-Studie wächst die Menge der Textdaten, die in KI-Sprachmodelle eingespeist werden, etwa um das Zweieinhalbfache pro Jahr, während die Datenmenge im Computerbereich etwa um das Vierfache pro Jahr zunimmt. Die Facebook-Muttergesellschaft Meta Platforms behauptete kürzlich, dass die größte Version ihres kommenden Llama-3-Modells – die noch nicht veröffentlicht wurde – auf bis zu 15 Billionen Tokens basiert, von denen jeder einen Teil eines Wortes darstellen kann.

Aber es ist fraglich, wie sehr es sich lohnt, sich über den Datenengpass Sorgen zu machen.

„Ich denke, es ist wichtig zu bedenken, dass wir nicht unbedingt immer größere Modelle trainieren müssen“, sagte Nicolas Papernot, Assistenzprofessor für Computertechnik an der University of Toronto und Forscher am Vector Institute for Artificial Intelligence gemeinnützige Organisation.

Papernot, der nicht an der Epoch-Studie beteiligt war, sagte, der Aufbau leistungsfähigerer KI-Systeme könne auch durch spezialisiertere Trainingsmodelle für bestimmte Aufgaben erfolgen. Er befürchtet jedoch, generative KI-Systeme auf der Grundlage derselben Ergebnisse zu trainieren, die sie liefern, was zu einem Leistungsabfall führen würde, der als „Modellkollaps“ bekannt ist.

Das Training mit KI-generierten Daten sei „wie das, was passiert, wenn man ein Blatt Papier fotokopiert und dann die Fotokopie fotokopiert“. Sie verlieren einige Informationen“, sagte Papernot. Darüber hinaus hat die Forschung von Papernot auch gezeigt, dass es die Fehler, Vorurteile und Ungerechtigkeiten, die bereits im Informationsökosystem verankert sind, weiter verschlüsseln kann.

Während echte, von Menschen erstellte Sätze nach wie vor eine wichtige Datenquelle für die KI darstellen, sind diejenigen, die die begehrtesten Schätze hüten – Websites wie Reddit und Wikipedia sowie Nachrichten- und Buchverlage –, gezwungen, ernsthaft darüber nachzudenken, wie sie funktionieren entstehen. gebraucht.

„Vielleicht schneidet man nicht jeden Berggipfel ab“, scherzt Selena Deckelmann, Produkt- und Technologiedirektorin bei der Wikimedia Foundation, die Wikipedia betreibt. „Es ist im Moment ein interessantes Thema, dass wir über natürliche Ressourcen statt über künstliche Daten sprechen. Ich sollte darüber nicht lachen, aber ich finde es irgendwie erstaunlich.“

Während einige versucht haben, ihre Daten vom KI-Training auszuschließen – oft nachdem sie bereits entschädigungslos übernommen wurden –, hat Wikipedia der Verwendung der von Freiwilligen verfassten Einträge durch KI-Unternehmen nur wenige Einschränkungen auferlegt. Deckelmann sagte jedoch, sie hoffe, dass es weiterhin Anreize für Menschen gebe, weiterhin Beiträge zu leisten, insbesondere da eine Flut billiger, automatisch generierter „Müllinhalte“ das Internet zu verschmutzen beginne.

KI-Unternehmen sollten „sich darum kümmern, wie von Menschen erstellte Inhalte weiterhin existieren und zugänglich bleiben“, sagte sie.

Aus der Sicht von KI-Entwicklern heißt es in der Epoch-Studie, dass es „unwahrscheinlich ist, dass es eine kostengünstige Möglichkeit ist“, Millionen von Menschen für die Generierung des Textes zu bezahlen, den KI-Modelle benötigen, um bessere technische Ergebnisse zu erzielen.

Während OpenAI damit beginnt, die nächste Generation seiner großen GPT-Sprachmodelle zu trainieren, erklärte CEO Sam Altman dem Publikum bei einer Veranstaltung der Vereinten Nationen im vergangenen Monat, dass das Unternehmen bereits damit experimentiert habe, „viele synthetische Daten für das Training zu generieren“.

„Ich denke, was Sie brauchen, sind qualitativ hochwertige Daten. Es liegen synthetische Daten von schlechter Qualität vor. Es gibt menschliche Daten von schlechter Qualität“, sagte Altman. Er äußerte jedoch auch Vorbehalte gegen eine übermäßige Abhängigkeit von synthetischen Daten anstelle anderer technischer Methoden zur Verbesserung von KI-Modellen.

„Es wäre etwas sehr Seltsames, wenn der beste Weg, ein Modell zu trainieren, einfach darin bestünde, beispielsweise eine Billiarde synthetische Datentokens zu generieren und diese zurückzumelden“, sagte Altman. „Irgendwie scheint es wirkungslos zu sein.“

——————

Associated Press und OpenAI haben eine Lizenz- und Technologievereinbarung, die OpenAI den Zugriff auf einen Teil der Textarchive von AP ermöglicht.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *