Letzten Monat, Google Das KI-Modell von GameNGen zeigte, dass verallgemeinerte Bild-Streaming-Techniken verwendet werden können, um eine passable und spielbare Version von zu generieren Verlust. Heute verwenden Forscher ähnliche Techniken mit einem Modell namens MarioVGG, um zu sehen, ob KI ein plausibles Video davon erzeugen kann Super Mario Bros. als Reaktion auf Benutzereingaben.
Die Ergebnisse des MarioVGG-Modells, die als vorab veröffentlichtes Papier des Kryptowährungs-KI-Unternehmens Virtuals Protocol verfügbar sind, weisen immer noch viele offensichtliche Probleme auf und sind derzeit zu langsam, um das Gameplay in Echtzeit abzubilden. Die Ergebnisse zeigen jedoch, dass selbst ein begrenztes Modell allein durch das Studium einiger Video- und Eingabedaten auf beeindruckende Physik und Spieldynamik schließen kann.
Die Forscher hoffen, dass dies einen ersten Schritt zur „Herstellung und Demonstration eines zuverlässigen und kontrollierbaren Videospielgenerators“ darstellt oder vielleicht sogar „die Spieleentwicklung und Spiele-Engines in Zukunft vollständig durch „Videogenerationsmodelle“ ersetzt“.
Sehen Sie sich 737.000 Bilder von Mario an
Um ihr Modell zu trainieren, begannen die MarioVGG-Forscher (die GitHub-Benutzer erniechew und Brian Lim sind als Mitwirkende aufgeführt) mit einem öffentlichen Datensatz von Super Mario Bros. Ein Spiel mit 280 „Stufen“ von Eingabe- und Bilddaten, die für maschinelle Lernzwecke organisiert sind (Stufe 1-1 wurde aus den Trainingsdaten entfernt, damit die Bilder zur Auswertung verwendet werden konnten). Die mehr als 737.000 Einzelbilder in diesem Datensatz wurden in Blöcke von 35 Bildern „vorverarbeitet“, damit das Modell beginnen konnte zu lernen, wie die unmittelbaren Ergebnisse verschiedener Eingaben im Allgemeinen aussahen.
Um „die Spielsituation zu vereinfachen“, beschlossen die Forscher, sich nur auf zwei mögliche Einträge im Datensatz zu konzentrieren: „nach rechts laufen“ und „nach rechts laufen und springen“. Selbst dieser begrenzte Satz an Bewegungen stellte das maschinelle Lernsystem vor einige Schwierigkeiten, da der Präprozessor vor einem Sprung einige Frames zurückblicken musste, um festzustellen, ob und wann der „Lauf“ begonnen hatte. Alle Sprünge, die Anpassungen während des Fluges beinhalteten (d. h. die „Links“-Taste), mussten ebenfalls eliminiert werden, weil „dies zu Rauschen im Trainingsdatensatz führen würde“, schreiben die Forscher.
Nach der Vorverarbeitung (und etwa 48 Stunden Training auf einer einzelnen RTX 4090-Grafikkarte) verwendeten die Forscher einen standardmäßigen Faltungs- und Rauschunterdrückungsprozess, um neue Videobilder aus einem statischen Game-Seed-Frame und einem Texteintrag (entweder „run“ oder „ Sprung“ in diesem begrenzten Fall). Obwohl diese generierten Sequenzen nur wenige Bilder dauern, kann das letzte Bild einer Sequenz als erstes einer neuen Sequenz verwendet werden, wodurch Gameplay-Videos beliebiger Länge erstellt werden, die laut den Forschern immer noch „konsistentes Gameplay und Konsistenz“ zeigen.
Super Mario 0.5
Trotz alledem erzeugt MarioVGG nicht gerade ein seidenweiches Video, das von einem echten NES-Spiel nicht zu unterscheiden ist. Um die Effizienz zu steigern, reduzierten die Forscher die Auflösung der 256×240-Ausgabebilder des NES auf viel unschärfere 64×48. Außerdem haben sie 35 Frames der Videozeit in nur sieben generierte Frames verdichtet, die „in gleichmäßigen Abständen“ verteilt sind, wodurch ein viel raueres „Gameplay“-Video entsteht als die eigentliche Spielausgabe.
Trotz dieser Einschränkungen hat das MarioVGG-Modell zu diesem Zeitpunkt immer noch Schwierigkeiten, annähernd Echtzeitvideos zu erzeugen. Der von den Forschern verwendete einzelne RTX 4090 benötigte volle sechs Sekunden, um eine Videosequenz mit sechs Bildern zu erzeugen, was selbst bei einer extrem begrenzten Bildrate etwas mehr als einer halben Sekunde Video entspricht. Die Forscher geben zu, dass dies „für interaktive Videospiele weder praktisch noch benutzerfreundlich“ ist, hoffen jedoch, dass zukünftige Optimierungen bei der Gewichtsquantifizierung (und möglicherweise der Einsatz weiterer Rechenressourcen) diese Rate verbessern könnten.
Unter Berücksichtigung dieser Einschränkungen kann MarioVGG jedoch einigermaßen glaubwürdige Videos von Mario erstellen, wie er von einem statischen Startbild aus rennt und springt, ähnlich wie Googles Genie-Spielemacher. Das Modell war sogar in der Lage, „die Spielphysik ausschließlich aus Videobildern in den Trainingsdaten zu lernen, ohne explizite fest codierte Regeln“, schreiben die Forscher. Dazu gehört die Schlussfolgerung auf Verhaltensweisen wie Marios Sturz, wenn er vom Rand einer Klippe rennt (mit glaubwürdiger Schwerkraft), und (normalerweise) das Stoppen von Marios Vorwärtsbewegung, wenn er an ein Hindernis stößt, schreiben die Forscher.
Während sich MarioVGG auf die Simulation von Marios Bewegungen konzentrierte, fanden Forscher heraus, dass das System tatsächlich neue Hindernisse für Mario halluzinieren konnte, während das Video durch ein imaginäres Level scrollt. Diese Hindernisse „stimmen mit der grafischen Sprache des Spiels überein“, schreiben die Forscher, können jedoch derzeit nicht durch Benutzeraufforderungen beeinflusst werden (z. B. ein Loch vor Mario platzieren und ihn darüber springen lassen).
Erfinde es einfach
Wie alle probabilistischen KI-Modelle hat MarioVGG die frustrierende Tendenz, manchmal völlig nutzlose Ergebnisse zu liefern. Manchmal bedeutet dies einfach, Benutzereingabeaufforderungen zu ignorieren („Wir stellen fest, dass der Eingabeaktionstext nicht immer beachtet wird“, schreiben die Forscher). In anderen Fällen bedeutet dies offensichtliche visuelle Halluzinationen: Mario landet manchmal in Hindernissen, rennt durch Hindernisse und Feinde hindurch, blinkt in verschiedenen Farben, schrumpft/wächst von Bild zu Bild oder verschwindet für mehrere Bilder vollständig, bevor er wieder auftaucht.
Ein besonders absurdes Video, das von Forschern geteilt wurde, zeigt, wie Mario durch die Brücke fällt, sich in Cheep-Cheep verwandelt, dann wieder durch die Brücken klettert und sich wieder in Mario verwandelt. So etwas würde man von Wonder Flower erwarten, nicht von einem KI-Video des Originals Super Mario Bros.
Die Forscher spekulieren, dass ein längeres Training mit „vielfältigeren Spieldaten“ dazu beitragen könnte, diese wichtigen Probleme anzugehen und ihrem Modell dabei zu helfen, mehr als nur unaufhaltsames Laufen und Springen nach rechts zu simulieren. Dennoch ist MarioVGG ein unterhaltsamer Proof of Concept, der zeigt, dass selbst begrenzte Trainingsdaten und Algorithmen anständige Startmodelle für Basisspiele erstellen können.
Diese Geschichte wurde ursprünglich auf veröffentlicht Ars Technica.