Wann IEEE-SpektrumCovariant schrieb erstmals im Jahr 2020 über Covariant. Dabei handelte es sich um ein neues Robotik-Startup, das Robotik durch die Magie eines einzigartigen neuronalen End-to-End-Netzwerks auf die Lagerkommissionierung in großem Maßstab anwenden wollte. Damals konzentrierte sich Covariant auf diesen Anwendungsfall der Kommissionierung, da es sich um eine Anwendung handelte, die einen unmittelbaren Mehrwert bieten konnte: Lagerunternehmen bezahlen Covariant dafür, dass seine Roboter Artikel aus ihren Lagern kommissionieren. Aber für Covariant war das Interessanteste, dass die Lagerartikelauswahl in den letzten vier Jahren eine riesige Menge an realen Handhabungsdaten generiert hat – und Sie können sich wahrscheinlich vorstellen, wohin das führt.

Heute kündigt Covariant RFM-1 an, das das Unternehmen als grundlegendes Modell der Robotik beschreibt, das Robotern die „Fähigkeit zu menschenähnlichem Denken“ verleiht. Dies ist aus der Pressemitteilung, und obwohl ich nicht unbedingt zu viel in „Mensch“ oder „Vernunft“ hineininterpretieren würde, ist das, was hier von Covariant vor sich geht, ziemlich cool.

Das „Basismodell“ bedeutet, dass RFM-1 auf mehr Daten trainiert werden kann, um mehr Aufgaben zu erledigen. Im Moment handelt es sich lediglich um Lagermanipulationen, denn darin wurde er geschult, aber seine Fähigkeiten können erweitert werden, indem man ihm mehr Daten zuführt. „Unser bestehendes System ist bereits gut genug für eine sehr schnelle und hochvariable Bestückung“, sagt Pieter Abbeel, Mitbegründer von Covariant. „Aber wir gehen jetzt noch ein bisschen weiter. Jede Aufgabe, jede Inkarnation, das ist die langfristige Vision. Kernmodelle der Robotik, die Milliarden von Robotern auf der ganzen Welt antreiben. Auf den ersten Blick war der Einsatz einer großen Flotte von Lagerautomatisierungsrobotern für Covariant die schnellste Möglichkeit, die zig Millionen Trajektorien (wie sich ein Roboter während einer Aufgabe bewegt) zu erfassen, die zum Trainieren der 8 Milliarden RFM-Parameter erforderlich waren. -1 Modell.

Kovariante

„Die einzige Möglichkeit, das zu tun, was wir tun, besteht darin, Roboter auf der ganzen Welt einzusetzen, um eine Menge Daten zu sammeln“, sagt Abbeel. „Das ermöglicht es uns, ein grundlegendes Robotermodell mit einzigartigen Fähigkeiten zu trainieren.“

Es gab andere Versuche dieser Art: Das RTX-Projekt ist ein aktuelles Beispiel. Aber während RT-X darauf angewiesen ist, die verfügbaren Daten an Forschungslabore weiterzugeben, um einen Datensatz zu erstellen, der groß genug ist, um nützlich zu sein, erledigt Covariant dies allein mit seiner Flotte von Lagerrobotern. „RT-X umfasst etwa eine Million Flugbahnen an Daten“, sagt Abbeel, „aber wir können das übertreffen, weil wir alle paar Wochen eine Million Flugbahnen erhalten.“

„Durch den Bau eines wertvollen Kommissionierroboters, der in 15 Ländern bei Dutzenden von Kunden eingesetzt wird, verfügen wir im Wesentlichen über eine Datenerfassungsmaschine. » —Pieter Abbeel, Kovariante

Sie können sich die aktuelle Laufzeit von RFM-1 als Vorhersage-Engine für die Handhabung von Vakuumobjekten in Lagerumgebungen vorstellen. Das Modell umfasst Standbilder, Videos, Gelenkwinkel, Kraftmesswerte, Saugnapfkraft und alles, was mit der von Covariant durchgeführten Robotermanipulation zu tun hat. Alle diese Elemente sind in RFM-1 miteinander verbunden, was bedeutet, dass Sie jedes dieser Elemente an einem Ende von RFM-1 platzieren können und am anderen Ende des Modells eine Vorhersage entsteht. Diese Vorhersage kann in Form eines Bildes, eines Videos oder einer Reihe von Befehlen an einen Roboter erfolgen.

Bei all dem ist es wichtig zu verstehen, dass RFM-1 sich nicht darauf beschränkt, nur zuvor gesehene Gegenstände auszuwählen oder nur an Robotern zu arbeiten, mit denen es direkte Erfahrung hat. Das ist das Tolle an Basismodellen: Sie können innerhalb des Bereichs ihrer Trainingsdaten verallgemeinern, und so konnte Covariant sein Geschäft genauso erfolgreich skalieren, da es nicht für jeden neuen Kommissionierroboter oder jeden neuen Artikel neu trainieren musste . . Das Widersprüchliche an diesen großen Modellen ist, dass sie tatsächlich besser mit neuen Situationen umgehen können als trainierte Modelle. speziell für diese Situationen.

Angenommen, Sie möchten einem Modell beibringen, ein Auto auf einer Autobahn zu fahren. Die Frage sei, sagt Abbeel, ob es sich lohnen würde, andere Arten des Fahrens zu trainieren. Die Antwort ist ja, denn das Fahren auf der Autobahn ist manchmal so nicht Autobahnfahren. Während der Hauptverkehrszeit kann es zu Unfällen oder Staus kommen, die Sie zu einer anderen Fahrweise zwingen. Wenn Sie außerdem eine Schulung zum Fahren auf Stadtstraßen absolviert haben, können Sie Nebenfälle auf der Autobahn effektiv üben, was sich irgendwann als nützlich erweisen und die Gesamtleistung verbessern wird. Bei RFM-1 ist es die gleiche Idee: Das Training vieler verschiedener Arten von Manipulationen (verschiedene Roboter, verschiedene Objekte usw.) bedeutet, dass jede Art von Manipulation viel besser abschneidet.

Im Kontext der Verallgemeinerung spricht Covariant von der Fähigkeit von RFM-1, seine Umgebung zu „verstehen“. Das kann bei KI ein kniffliges Wort sein, aber wichtig ist, die Bedeutung von „verstehen“ auf den Fähigkeiten von RFM-1 zu basieren. Zum Beispiel brauchen Sie nicht verstehen körperlich, um einen Baseball fangen zu können, muss man nur viel Erfahrung im Baseballfangen haben, und genau da ist der RFM-1. Sie könnten Auch Grund dafür, wie man einen Baseball fängt, ohne Erfahrung, aber ein Verständnis der Physik, und RFM-1 ist es nicht Deshalb zögere ich, in diesem Zusammenhang das Wort „verstehen“ zu verwenden.

Aber das bringt uns zu einer weiteren interessanten Fähigkeit von RFM-1: Es fungiert als sehr effektives, wenn auch eingeschränktes Simulationstool. Als Vorhersage-Engine, die ein Video produziert, können Sie sie bitten, zu generieren, wie die nächsten paar Sekunden einer Action-Sequenz aussehen werden, und sie wird Ihnen auf der Grundlage aller Daten ein sowohl realistisches als auch genaues Ergebnis liefern. Der Schlüssel dazu liegt darin, dass RFM-1 Objekte effektiv simulieren kann, die auf herkömmliche Weise schwer zu simulieren sind, wie etwa Disketten.

Abbeel von Covariant erklärt, dass das „Weltmodell“, auf dem RFM-1 seine Vorhersagen basiert, tatsächlich eine erlernte Physik-Engine ist. „Der Bau von Physik-Engines erweist sich als eine sehr gewaltige Aufgabe, um tatsächlich alles abzudecken, was auf der Welt passieren kann“, sagt Abbeel. „Sobald man komplizierte Szenarien erhält, wird es sehr schnell sehr ungenau, weil die Leute alle möglichen Näherungen vornehmen müssen, damit die Physik-Engine auf einem Computer funktioniert. Wir machen einfach die groß angelegte Datenversion davon mit einem globalen Modell und es zeigt sehr gute Ergebnisse.

Abbeel gibt ein Beispiel, indem er einen Roboter auffordert, zu simulieren (oder vorherzusagen), was passieren würde, wenn ein Zylinder vertikal auf einem Laufband platziert würde. Die Vorhersage zeigt genau, dass der Zylinder fällt und rollt, wenn sich das Band zu bewegen beginnt, nicht weil der Zylinder simuliert ist, sondern weil RFM-1 viele Dinge gesehen hat, die auf vielen Förderbändern platziert wurden.

„Es ist nicht unwahrscheinlich, dass das, was wir hier bauen, in fünf Jahren der einzige Simulatortyp sein wird, der verwendet werden kann. » —Pieter Abbeel, Kovariante

Dies funktioniert nur, wenn der richtige Datentyp für das RFM-1-Training vorhanden ist. Anders als die meisten Simulationsumgebungen kann es daher derzeit nicht auf völlig neue Objekte oder Situationen übertragen werden. Aber Abbeel glaubt, dass mit genügend Daten eine nützliche globale Simulation möglich sein wird. „Es ist nicht unwahrscheinlich, dass das, was wir hier bauen, in fünf Jahren der einzige Simulatortyp sein wird, der verwendet werden kann. Es ist ein besserer Simulator als einer, der von Grund auf mit Kollisionsprüfung, finiten Elementen und allem anderen erstellt wurde. Es ist so schwierig, all diese Dinge in irgendeiner Weise in Ihre Physik-Engine zu integrieren, ganz zu schweigen von der Rendering-Engine, die die Dinge so aussehen lässt, wie sie in der realen Welt aussehen. In gewissem Sinne nehmen wir eine Abkürzung.

RFM-1 bezieht auch sprachliche Daten ein, um effektiver mit Menschen kommunizieren zu können.Kovariante

Damit Covariant die Fähigkeiten von RFM-1 im Hinblick auf diese langfristige Vision von Kernmodellen, die „Milliarden von Robotern auf der ganzen Welt“ antreiben, erweitern kann, besteht der nächste Schritt darin, ihm mehr Daten von einer größeren Vielfalt an Robotern zur Verfügung zu stellen, die eine größere Vielfalt von Aufgaben ausführen. . „Wir haben im Grunde eine Datenerfassungs-Engine entwickelt“, sagt Abbeel. „Wenn Sie uns Daten eines anderen Typs zur Verfügung stellen möchten, werden wir diese ebenfalls aufnehmen.“

„Wir sind zuversichtlich, dass diese Art von Modell alle Arten von Robotern antreiben könnte, vielleicht mit mehr Daten über die Robotertypen und die Arten von Situationen, in denen sie eingesetzt werden könnten.“ —Pieter Abbeel, Kovariante

Auf die eine oder andere Weise wird dieser Weg sehr viele Daten erfordern, und zwar Daten, die Covariant derzeit nicht mit seiner eigenen Flotte von Lagerhandhabungsrobotern sammelt. Wenn Sie beispielsweise ein Unternehmen für humanoide Robotik sind, welchen Anreiz haben Sie dann, alle von Ihnen gesammelten Daten mit Covariant zu teilen? „Die Idee ist, dass wir ihnen helfen, in die reale Welt einzutauchen“, sagt Peter Chen, Mitbegründer von Covariant. „Ich glaube nicht, dass es wirklich viele Unternehmen gibt, die über die KI verfügen, um ihre Roboter in einer Produktionsumgebung wirklich autonom zu machen. Wenn sie eine robuste, leistungsstarke KI wollen, die ihnen tatsächlich dabei hilft, in die reale Welt einzutauchen, sind wir wirklich ihre beste Wahl.

Das Hauptargument von Covariant ist hier, dass es zwar sicherlich für jedes Robotikunternehmen möglich ist, seine eigenen Modelle individuell zu trainieren, die Leistung (zumindest für jeden, der versucht, sie zu manipulieren) jedoch nicht so gut wäre wie die Verwendung eines Modells, das alle Elemente integriert. Manipulationsdaten, die Covariant bereits in RFM-1 hat. „Unser langfristiges Ziel war es immer, ein Kernunternehmen für Modellrobotik zu sein“, sagt Chen. „Es gab einfach nicht genügend Daten, Berechnungen und Algorithmen, um an diesen Punkt zu gelangen, aber der Aufbau einer universellen KI-Plattform für Roboter war von Anfang an das Ziel von Covariant.“

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *