Das neue Modell mit der Bezeichnung RFM-1 wurde auf der Grundlage jahrelanger Daten trainiert, die von Covariants kleiner Flotte von Artikelkommissionierungsrobotern gesammelt wurden, die Kunden wie Crate & Barrel und Bonprix in Lagern auf der ganzen Welt verwenden, sowie ausschließlich auf Wörtern und Videos aus dem Internet . In den kommenden Monaten wird das Modell Covariant-Kunden angeboten. Das Unternehmen hofft, dass das System durch den Einsatz in der realen Welt leistungsfähiger und effizienter wird.

Was kann er also tun? In einer Demo, an der ich letzte Woche teilnahm, zeigten mir die Covariant-Mitbegründer Peter Chen und Pieter Abbeel, wie Benutzer das Modell mithilfe von fünf verschiedenen Eingabetypen steuern können: Text, Bilder, Video, Roboteranweisungen und Messungen.

Zeigen Sie ihm zum Beispiel ein Bild von einem Mülleimer voller Sportgeräte und fordern Sie ihn auf, die Packung Tennisbälle aufzuheben. Der Roboter kann dann das Objekt ergreifen, ein Bild davon erstellen, wie der Behälter aussehen wird, wenn die Tennisbälle weg sind, oder ein Video erstellen, das aus der Vogelperspektive zeigt, wie der Roboter bei der Ausführung der Aufgabe aussehen wird.

Wenn das Modell vorhersagt, dass es das Objekt nicht richtig greifen kann, antwortet es möglicherweise sogar: „Ich kann das Objekt nicht gut greifen.“ Haben Sie einen Rat?“ Eine Antwort könnte ihm raten, eine bestimmte Anzahl von Saugnäpfen an seinen Armen zu verwenden, um einen besseren Halt zu gewährleisten, zum Beispiel acht statt sechs.

Chen sagte mir, dass dies einen Fortschritt bei Robotern darstellt, die sich mithilfe von Trainingsdaten an ihre Umgebung anpassen können, anstatt den komplexen, aufgabenspezifischen Code zu verwenden, der die vorherige Generation industrieller Roboter antreibt. Es ist auch ein Schritt hin zu Arbeitsplätzen, an denen Manager Anweisungen in menschlicher Sprache erteilen können, ohne sich über die Grenzen menschlicher Arbeit Gedanken machen zu müssen. („Machen Sie 600 Pasta-Vorbereitungssets mit rotem Pfeffer nach dem folgenden Rezept. Machen Sie keine Pause!“)

Lerrel Pinto, ein Forscher, der das General Purpose Robotics and AI Lab der New York University leitet und keine Verbindung zu Covariant hat, sagt, dass Robotiker zwar bereits grundlegende multimodale Roboter gebaut und im Labor eingesetzt haben, dass sie jedoch einen in großem Maßstab einsetzen, der dazu in der Lage ist Die Kommunikation auf so viele Arten ist eine beeindruckende Leistung für das Unternehmen.

Um seinen Konkurrenten einen Schritt voraus zu sein, muss Covariant genügend Daten in die Hände bekommen, damit der Roboter in der Wildnis nützlich sein kann, sagte mir Pinto. In Lagerhallen und Laderampen wird es auf die Probe gestellt, da es ständig mit neuen Anweisungen, Personen, Objekten und Umgebungen interagiert.

„Die Gruppen, die gute Modelle trainieren, werden diejenigen sein, die Zugriff auf bereits erhebliche Mengen an Roboterdaten haben oder die Fähigkeit haben, diese Daten zu generieren“, sagt er.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *