Im Google DeepMind-Hauptquartier, einem Labor für künstliche Intelligenz in London, haben Forscher ein seit langem bestehendes Ritual, um wichtige Ergebnisse bekannt zu geben: Sie schlagen einen großen zeremoniellen Gong an.
Im Jahr 2016 ertönte der Gong für AlphaGo, ein künstliches Intelligenzsystem, das sich im Go-Spiel hervorgetan hat. Im Jahr 2017 ertönte der Gong, als AlphaZero das Schach eroberte. Jedes Mal schlug der Algorithmus menschliche Weltmeister.
Letzte Woche demonstrierten DeepMind-Forscher erneut ihre Macht, um das zu feiern, was Alex Davies, Leiter der Mathematikinitiative DeepMind von Google, als „großen Durchbruch“ im mathematischen Denken durch ein System von … „KI“ bezeichnete. Zwei Google DeepMind-Modelle versuchten, das Problem bei der Internationalen Mathematikolympiade (IMO) 2024 anzugehen, die vom 11. bis 22. Juli etwa 100 Meilen westlich von London an der University of Bath stattfand. Laut einem Werbebeitrag in den sozialen Medien gilt die Veranstaltung als der wichtigste Mathematikwettbewerb für die „klügsten Mathematiker“ der Welt.
Abonnieren Sie den Newsletter „The Morning“ der New York Times
Die menschlichen Problemlöser – 609 Oberstufenschüler aus 108 Ländern – gewannen 58 Gold-, 123 Silber- und 145 Bronzemedaillen. Die KI erreichte eine Silbermedaillenleistung und löste 4 von 6 Problemen mit insgesamt 28 Punkten. Dies war das erste Mal, dass AI bei Olympia-Problemen eine medaillenwürdige Leistung erzielte.
„Es ist nicht perfekt, wir haben nicht alles gelöst“, sagte Pushmeet Kohli, Vizepräsident für Forschung bei Google DeepMind, in einem Interview. „Wir wollen perfekt sein. »
Dennoch beschrieb Kohli das Ergebnis als einen „Phasenübergang“ – eine transformative Veränderung – „in der Verwendung von KI in der Mathematik und der Fähigkeit von KI-Systemen, Mathematik zu betreiben“.
Das Labor hat zwei unabhängige Experten gebeten, die Leistung von KI zu bewerten: Timothy Gowers, Mathematiker an der Universität Cambridge in England und Fields-Medaillengewinner, der sich seit 25 Jahren für die Interaktion zwischen Mathematik und KI interessiert; und Joseph Myers, ein Softwareentwickler aus Cambridge. Beide gewannen in ihrer Zeit die IMO-Goldmedaille. Myers war dieses Jahr Vorsitzender des Problemauswahlausschusses und fungierte bei früheren Olympiaden als Koordinator, der humane Lösungen beurteilte. „Ich habe mich bemüht, die KI-Versuche auf die gleiche Weise zu bewerten, wie in diesem Jahr menschliche Versuche beurteilt wurden“, sagte er.
Gowers fügte in einer E-Mail hinzu: „Ich war wirklich beeindruckt. Das Labor hatte seine Ambitionen für die Olympiade einige Wochen zuvor mit ihm besprochen, daher „waren meine Erwartungen ziemlich hoch“, sagte er. „Aber das Programm hat sie zufrieden gestellt und in ein oder zwei Fällen weit übertroffen. Das Programm habe die „magischen Schlüssel“ gefunden, die die Probleme lösten, sagte er.
Schlagen Sie den Gong
Nach Monaten intensiven Trainings legten die Studenten zwei Prüfungen und drei Aufgaben pro Tag ab – in Algebra, Kombinatorik, Geometrie und Zahlentheorie.
Die KI-Forscher arbeiteten im Londoner Labor zusammen. (Den Studenten war nicht bewusst, dass Google DeepMind im Wettbewerb stand, auch weil die Forscher nicht ins Rampenlicht stehlen wollten.) Die Forscher bewegten den Gong in den Raum, in dem sie sich versammelt hatten, um die Arbeit des Systems zu beobachten. „Jedes Mal, wenn das System ein Problem löste, drückten wir zum Feiern den Gong“, sagte David Silver, ein Forscher.
Haojia Shi, ein Student aus China, belegte den ersten Platz und war der einzige Teilnehmer, der eine perfekte Punktzahl erreichte – 42 Punkte für sechs Aufgaben; Jedes Problem ist für eine vollständige Lösung sieben Punkte wert. Das amerikanische Team belegte mit 192 Punkten den ersten Platz; China belegte mit 190 den zweiten Platz.
Das Google-System erhielt seine 28 Punkte für die Lösung von vier Problemen: zwei Algebra-, ein Geometrie- und ein Zahlentheorieproblem. (Er scheiterte an zwei kombinatorischen Aufgaben.) Dem System wurde unbegrenzte Zeit gegeben; Bei einigen Problemen dauerte es bis zu drei Tage. Den Studierenden standen pro Prüfung nur 4,5 Stunden zur Verfügung.
Für das Google DeepMind-Team ist Geschwindigkeit zweitrangig gegenüber dem Gesamterfolg, denn „es kommt wirklich nur darauf an, wie viel Rechenleistung man bereit ist, in diese Dinge zu stecken“, sagte Silver.
„Die Tatsache, dass wir diese Schwelle erreicht haben, an der es überhaupt möglich ist, diese Probleme zu lösen, stellt einen radikalen Wandel in der Geschichte der Mathematik dar“, fügte er hinzu. „Und ich hoffe, dass dies meiner Meinung nach nicht nur eine grundlegende Veränderung ist, sondern auch der Punkt, an dem wir von Computern, die sehr, sehr einfache Dinge beweisen können, zu Computern übergegangen sind, die Dinge beweisen können, die Menschen nicht beweisen können.“ »
Algorithmische Zutaten
Die Anwendung von KI in der Mathematik ist seit mehreren Jahren Teil der Mission von DeepMind, oft in Zusammenarbeit mit weltbekannten Forschungsmathematikern.
„Mathematik erfordert eine interessante Kombination aus abstraktem, präzisem und kreativem Denken“, sagte Davies. Er bemerkte, dass es zum Teil dieses Repertoire an Fähigkeiten sei, das die Mathematik zu einem guten Lackmustest für das ultimative Ziel mache: das Erreichen dessen, was als künstliche allgemeine Intelligenz oder AGI bekannt ist, ein System, dessen Fähigkeiten von Emergenz über Kompetenz und Virtuosität bis hin zu Übermenschlichkeit reichen. Unternehmen wie OpenAI, Meta AI und xAI verfolgen ähnliche Ziele.
Mathematische Probleme der Olympiaden gelten mittlerweile als Maßstab.
Im Januar löste ein Google DeepMind-System namens AlphaGeometry eine Auswahl von Olympiade-Geometrieproblemen auf einem Niveau, das dem eines menschlichen Goldmedaillengewinners nahekam. „AlphaGeometry 2 hat jetzt die Goldmedaillengewinner bei der Lösung von IMO-Problemen übertroffen“, sagte Thang Luong, der leitende Forscher, in einer E-Mail.
Aufbauend auf dieser Dynamik hat Google DeepMind seine multidisziplinären Bemühungen zur Organisation der Olympiade mit zwei Teams verstärkt: eines unter der Leitung von Thomas Hubert, einem Forschungsingenieur in London, und das andere unter der Leitung von Luong und Quoc Le in Mountain View, die jeweils aus etwa 50 Mitgliedern bestehen zwanzig Forscher. Für sein „übermenschliches Denkteam“ rekrutierte Luong ein Dutzend IMO-Medaillengewinner – „bei Google die mit Abstand höchste Konzentration an IMO-Medaillengewinnern!“ »
Während des Laborstreiks bei der diesjährigen Olympiade wurde die erweiterte Version von AlphaGeometry eingesetzt. Wenig überraschend schnitt das Modell beim Geometrieproblem recht gut ab und löste es in 19 Sekunden.
Huberts Team entwickelte ein neues vergleichbares, aber allgemeineres Modell. Es heißt AlphaProof und soll ein breites Spektrum mathematischer Themen abdecken. Insgesamt nutzten AlphaGeometry und AlphaProof eine Reihe unterschiedlicher KI-Technologien.
Ein Ansatz war ein informelles Argumentationssystem, ausgedrückt in natürlicher Sprache. Dieses System basierte auf Gemini, dem wichtigsten Sprachmodell von Google. Als Trainingsdaten wurde der englische Korpus veröffentlichter Probleme und Beweise usw. verwendet.
Das informelle System zeichnet sich dadurch aus, dass es Muster erkennt und vorschlägt, was als nächstes kommt; Er ist kreativ und spricht verständlich über Ideen. Natürlich neigen große Sprachmodelle dazu, Dinge zu erfinden – die als Poesie durchgehen können (oder auch nicht) und schon gar nicht als Mathematik. Doch in diesem Zusammenhang scheint das LLM Zurückhaltung an den Tag gelegt zu haben; er war nicht immun gegen Halluzinationen, aber die Häufigkeit war verringert.
Ein anderer Ansatz bestand darin, ein formales, logikbasiertes Argumentationssystem zu verwenden, das in Code ausgedrückt wird. Er nutzte eine Theorembeweis- und Beweishilfesoftware namens Lean, die sicherstellt, dass, wenn das System sagt, dass ein Beweis korrekt ist, dies auch der Fall ist. „Wir können genau überprüfen, ob die Demonstration korrekt ist oder nicht“, sagte Hubert. „Jeder Schritt ist garantiert logisch korrekt. »
Ein weiteres entscheidendes Element war ein Reinforcement-Learning-Algorithmus aus der AlphaGo- und AlphaZero-Linie. Diese Art von KI lernt selbstständig und kann sich unbegrenzt weiterentwickeln, sagte Silver, Vizepräsident für Reinforcement Learning bei Google DeepMind. Da der Algorithmus keinen menschlichen Lehrer benötigt, kann er „lernen und so lange lernen, bis er die schwierigsten Probleme lösen kann, die Menschen lösen können“, sagte er. „Und dann vielleicht eines Tages sogar über diese Probleme hinausgehen. »
Hubert fügte hinzu: „Das System kann Wissen selbstständig wiederentdecken. Das ist bei AlphaZero passiert: Er begann mit keinerlei Kenntnissen, sagte Hubert, „und indem er einfach Spiele spielte und sah, wer gewinnt und wer verliert, konnte er sein gesamtes Wissen über Schach wiederentdecken.“ Wir brauchten weniger als einen Tag, um das gesamte Wissen über Schach wiederzuentdecken, und etwa eine Woche, um das gesamte Wissen über Go wiederzuentdecken. Deshalb dachten wir, wir sollten dies auf die Mathematik anwenden. »
Gowers macht sich keine allzu großen Sorgen über die langfristigen Folgen. „Man kann sich eine Situation vorstellen, in der Mathematiker praktisch nichts mehr zu tun hätten“, sagte er. „Dies wäre der Fall, wenn Computer in allem, was Mathematiker jetzt tun, besser und viel schneller werden würden. »
„Es scheint, dass es noch ein langer Weg ist, bis Computer in der Lage sind, Mathematik auf Forschungsniveau zu betreiben“, fügte er hinzu. „Wenn Google DeepMind meiner Meinung nach zumindest ein paar schwierige Probleme lösen kann, ist ein nützliches Recherchetool nicht mehr so weit entfernt.“ »
Ein wirklich leistungsfähiges Werkzeug könnte die Mathematik einer größeren Zahl von Menschen zugänglich machen, den Forschungsprozess beschleunigen und Mathematiker dazu ermutigen, über den Tellerrand hinaus zu denken. Langfristig könnte er sogar innovative Ideen vorschlagen, die Anklang finden.
ca. 2024 The New York Times Company