Google trainiert seine Roboter mit Gemini AI, damit sie besser navigieren und Aufgaben erledigen können. Das DeepMind-Robotikteam erklärt in einem neuen Forschungspapier, wie die Verwendung des langen Popup-Fensters von Gemini 1.5 Pro – das die Menge an Informationen vorgibt, die ein KI-Modell verarbeiten kann – es Benutzern ermöglicht, mithilfe natürlicher Sprachanweisungen einfacher mit seinen RT-2-Robotern zu interagieren.

Dieses System funktioniert, indem es eine Videotour durch einen bestimmten Bereich, beispielsweise ein Zuhause oder ein Büro, filmt, wobei Forscher Gemini 1.5 Pro verwenden, um den Roboter dazu zu bringen, das Video „anzusehen“, um mehr über die Umgebung zu erfahren. Der Roboter kann dann Befehle basierend auf dem, was er beobachtet hat, mithilfe verbaler und/oder visueller Ausgaben ausführen, z. B. den Benutzer zu einer Steckdose führen, nachdem ihm ein Telefon gezeigt und gefragt wurde: „Wo kann ich es aufladen?“ » DeepMind gibt an, dass sein von Gemini angetriebener Roboter eine Erfolgsquote von 90 % bei mehr als 50 Benutzeranweisungen hatte, die in einem Betriebsbereich von mehr als 9.000 Quadratfuß gegeben wurden.

Die Forscher fanden auch „vorläufige Beweise“ dafür, dass Gemini 1.5 Pro es seinen Droiden ermöglichte, zu planen, wie sie Anweisungen ausführen, die über die einfache Navigation hinausgehen. Wenn beispielsweise ein Benutzer mit vielen Coladosen auf seinem Schreibtisch den Droiden fragt, ob sein Lieblingsgetränk verfügbar ist, sagt das Team, Gemini „weiß, dass der Roboter zum Kühlschrank gehen und prüfen soll, ob dort Coca-Cola ist.“ Kommen Sie zum Benutzer zurück, um das Ergebnis mitzuteilen. DeepMind sagte, es plane, diese Ergebnisse detaillierter zu untersuchen.

Die von Google bereitgestellten Videodemonstrationen sind beeindruckend, obwohl die offensichtlichen Schnitte, nachdem der Droide jede Anfrage erkannt hat, die Tatsache verbergen, dass die Verarbeitung dieser Anweisungen laut Forschungsbericht zwischen 10 und 30 Sekunden dauert. Es kann noch eine Weile dauern, bis wir unsere Häuser mit fortschrittlicheren Umgebungskartierungsrobotern teilen, aber diese könnten zumindest in der Lage sein, unsere verlegten Schlüssel oder Geldbörsen zu finden.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *