Trotz der erstaunlichen Fortschritte in der KI in den letzten Jahren bleiben Roboter hartnäckig dumm und begrenzt. Menschen in Fabriken und Lagerhäusern folgen in der Regel präzise choreografierten Abläufen, ohne dass sie ihre Umgebung gut wahrnehmen oder sich spontan anpassen können. Die wenigen Industrieroboter, die Objekte sehen und greifen können, können mangels allgemeiner körperlicher Intelligenz nur eine begrenzte Anzahl von Dingen mit minimaler Geschicklichkeit erledigen.

Roboter mit allgemeineren Fähigkeiten könnten möglicherweise nach minimalen Demonstrationen ein viel breiteres Spektrum industrieller Aufgaben übernehmen. Roboter werden auch allgemeinere Fähigkeiten benötigen, um mit der enormen Variabilität und Unordnung in menschlichen Häusern zurechtzukommen.

Die allgemeine Begeisterung für Fortschritte in der KI hat sich bereits in Optimismus hinsichtlich großer neuer Fortschritte in der Robotik niedergeschlagen. Elon Musks Autohersteller Tesla entwickelt einen humanoiden Roboter namens Optimus, und Musk hat kürzlich vorgeschlagen, dass er für 20.000 bis 25.000 US-Dollar weit verbreitet sein und die meisten Aufgaben hier im Jahr 2040 ausführen kann.

Mit freundlicher Genehmigung von Physical Intelligence

Frühere Bemühungen, Robotern das Ausführen schwieriger Aufgaben beizubringen, konzentrierten sich darauf, eine einzelne Maschine für eine einzelne Aufgabe zu trainieren, da das Lernen nicht übertragbar schien. Einige aktuelle wissenschaftliche Arbeiten haben gezeigt, dass bei ausreichender Skalierung und Abstimmung das Lernen zwischen verschiedenen Aufgaben und Robotern übertragen werden kann. Ein Google-Projekt namens Open X-Embodiment aus dem Jahr 2023 beinhaltete den Austausch von Robotiklernen zwischen 22 verschiedenen Robotern in 21 verschiedenen Forschungslabors.

Eine der größten Herausforderungen der von der physischen Intelligenz verfolgten Strategie besteht darin, dass für das Training nicht der gleiche Umfang an Roboterdaten zur Verfügung steht wie für große Sprachmodelle in Textform. Das Unternehmen muss daher seine eigenen Daten generieren und Techniken entwickeln, um das Lernen aus einem begrenzteren Datensatz zu verbessern. Um π0 zu entwickeln, kombinierte das Unternehmen visuelle Sprachmodelle, die sowohl auf Bildern als auch auf Text trainiert wurden, mit Diffusionsmodellierung, einer Technik, die der KI-Bildgenerierung entlehnt ist, um ein allgemeineres Lernen zu ermöglichen.

Damit Roboter jede Roboteraufgabe ausführen können, die ein Mensch von ihnen verlangt, muss dieses Lernen deutlich intensiviert werden. „Es liegt noch ein langer Weg vor uns, aber wir haben etwas, das man sich als Gerüst vorstellen kann, das die Zukunft veranschaulicht“, sagt Levine.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *