„Wir leben in aufregenden Zeiten“, sagt Boaz Barak, ein Informatiker an der Harvard University, der für ein Jahr zum Superalignment-Team von OpenAI abgeordnet ist. „Viele Fachleute vergleichen es oft mit der Physik des frühen 20. Jahrhunderts. Wir haben viele experimentelle Ergebnisse, die wir nicht vollständig verstehen, und oft überrascht es einen, wenn man ein Experiment durchführt.
Alter Code, neue Tricks
Die meisten Überraschungen betreffen die Art und Weise, wie Modelle lernen können, Dinge zu tun, die ihnen nicht gezeigt wurden. Dies wird als Generalisierung bezeichnet und ist eine der grundlegendsten Ideen und das größte Rätsel des maschinellen Lernens. Modelle lernen, eine Aufgabe zu erledigen (Gesichter erkennen, Sätze übersetzen, Fußgänger meiden), indem sie anhand einer Reihe spezifischer Beispiele trainieren. Dennoch können sie verallgemeinern und lernen, diese Aufgabe anhand von Beispielen zu lösen, die sie noch nie zuvor gesehen haben. Irgendwie merken sich Modelle nicht nur die Muster, die sie beobachtet haben, sondern entwickeln auch Regeln, die es ihnen ermöglichen, diese Muster auf neue Fälle anzuwenden. Und manchmal, wie beim Grokken, kommt es zu einer Verallgemeinerung, wenn wir sie nicht erwarten.
Insbesondere große Sprachmodelle wie GPT-4 von OpenAI und Gemini von Google DeepMind verfügen über eine erstaunliche Verallgemeinerungsfähigkeit. „Die Magie besteht nicht darin, dass das Modell englische Mathematikprobleme lernen und sie dann auf neue englische Mathematikprobleme verallgemeinern kann“, sagt Barak, „sondern dass das Modell englische Mathematikprobleme lernen kann“, dann französische Literatur konsultieren und von dort aus verallgemeinern kann . um mathematische Probleme auf Französisch zu lösen. Dies geht über das hinaus, was Statistiken Ihnen sagen können.
Als Zhou vor ein paar Jahren anfing, KI zu studieren, war sie beeindruckt, wie sich ihre Professoren auf das Wie, aber nicht auf das Warum konzentrierten. „Man wusste, wie man diese Modelle trainiert, und dann ist das Ergebnis“, sagt sie. „Aber es war nicht klar, warum dieser Prozess zu Modellen führte, die in der Lage waren, diese erstaunlichen Dinge zu tun.“ Sie wollte mehr wissen, aber man sagte ihr, es gäbe keine guten Antworten: „Ich ging davon aus, dass Wissenschaftler wissen, was sie tun. Sie würden zum Beispiel die Theorien besorgen und dann die Modelle erstellen. Dies war überhaupt nicht der Fall.
Der rasante Fortschritt beim Deep Learning im letzten Jahrzehnt war eher das Ergebnis von Versuch und Irrtum als von Verständnis. Forscher kopierten, was bei anderen funktionierte, und fügten eigene Innovationen hinzu. Mittlerweile gibt es viele verschiedene Zutaten, die den Modellen hinzugefügt werden können, und ein ständig wachsendes Kochbuch voller Rezepte für deren Verwendung. „Die Leute probieren dieses Ding, jenes Ding, all diese Tricks aus“, sagt Belkin. „Manche sind wichtig. Einige sind es wahrscheinlich nicht.
„Es funktioniert, was erstaunlich ist. Wir sind überwältigt von der Kraft dieser Dinge“, sagt er. Und doch sind die Rezepte trotz ihres Erfolgs eher Alchemie als Chemie: „Bestimmte Beschwörungsformeln fanden wir um Mitternacht, nachdem wir bestimmte Zutaten gemischt hatten“, sagt er.
Überanpassung
Das Problem besteht darin, dass KI im Zeitalter großer Sprachmodelle scheinbar den Lehrbuchstatistiken zu trotzen scheint. Die leistungsstärksten Modelle sind heute groß und verfügen über bis zu einer Billion Parameter (die Werte eines Modells, die während des Trainings angepasst werden). Statistiken zeigen jedoch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann verschlechtern sollte. Dies liegt an einer sogenannten Überanpassung.
Wenn ein Modell anhand eines Datensatzes trainiert wird, versucht es, diese Daten in ein Modell einzupassen. Stellen Sie sich eine Reihe von Datenpunkten vor, die in einem Diagramm dargestellt sind. Ein Muster, das zu den Daten passt, kann in diesem Diagramm als Linie durch die Punkte dargestellt werden. Man kann sich den Prozess des Trainierens eines Modells so vorstellen, dass es ihm ermöglicht, eine Linie zu finden, die mit den Trainingsdaten (den Punkten, die sich bereits im Diagramm befinden), aber auch mit neuen Daten (neuen Punkten) übereinstimmt.