Das bisher leistungsstärkste Open-Source-KI-Modell mit visuellen Fähigkeiten könnte es mehr Entwicklern, Forschern und Startups ermöglichen, KI-Agenten zu entwickeln, die nützliche Aufgaben auf Ihren Computern für Sie ausführen können.
Das heute vom Allen Institute for AI (Ai2) gestartete Multimodal Open Language Model (Molmo) kann Bilder und Dialoge über eine Chat-Schnittstelle interpretieren. Dies bedeutet, dass es einem Computerbildschirm einen Sinn geben kann und einem KI-Agenten möglicherweise dabei helfen kann, Aufgaben wie das Surfen im Internet, das Navigieren in Dateiverzeichnissen und das Schreiben von Dokumenten auszuführen.
„Mit dieser Version werden viel mehr Menschen in der Lage sein, ein multimodales Modell einzusetzen“, sagt Ali Farhadi, CEO von Ai2, einer Forschungsorganisation mit Sitz in Seattle, Washington, und Informatiker an der University of Washington. „Dadurch soll es möglich werden, Anwendungen der nächsten Generation zu entwickeln. »
Sogenannte KI-Agenten werden weithin als das nächste große Ding in der KI angepriesen, und OpenAI, Google und andere konkurrieren darum, sie zu entwickeln. Agenten sind in letzter Zeit zu einem Schlagwort geworden, aber die allgemeine Vision besteht darin, dass KI weit über den Chat hinausgeht und komplexe und anspruchsvolle Aktionen auf Computern zuverlässig ausführt, wenn ihnen ein Befehl gegeben wird. Diese Fähigkeit wurde bisher noch nicht in irgendeiner Größenordnung realisiert.
Einige leistungsstarke KI-Modelle verfügen bereits über visuelle Fähigkeiten, darunter GPT-4 von OpenAI, Claude von Anthropic und Gemini von Google DeepMind. Diese Modelle können verwendet werden, um einige experimentelle KI-Agenten anzutreiben, sie sind jedoch unsichtbar und nur über eine kostenpflichtige Anwendungsprogrammierschnittstelle oder API zugänglich.
Meta hat eine Familie von KI-Modellen namens Llama unter einer Lizenz veröffentlicht, die ihre kommerzielle Nutzung einschränkt, hat Entwicklern jedoch noch keine multimodale Version zur Verfügung gestellt. Es wird erwartet, dass Meta heute auf seiner Connect-Veranstaltung mehrere neue Produkte ankündigt, möglicherweise auch neue Llama-KI-Modelle.
„Ein multimodales Open-Source-Modell zu haben bedeutet, dass jedes Startup oder jeder Forscher, der eine Idee hat, versuchen kann, sie in die Tat umzusetzen“, sagt Ofir Press, Postdoktorand an der Princeton University, der sich mit KI-Agenten beschäftigt.
Laut Press bedeutet die Tatsache, dass Molmo Open Source ist, dass Entwickler ihre Agenten durch die Bereitstellung zusätzlicher Trainingsdaten einfacher auf bestimmte Aufgaben wie die Arbeit mit Tabellenkalkulationen abstimmen können. Modelle wie GPT-4 können über ihre APIs nur bedingt angepasst werden, wohingegen ein vollständig offenes Modell umfangreich modifiziert werden kann. „Wenn man ein Open-Source-Modell wie dieses hat, hat man viel mehr Möglichkeiten“, sagt Press.
Ai2 bietet heute Molmo in mehreren Größen an, darunter ein 70-Milliarden-Parameter-Modell und ein 1-Milliarde-Parameter-Modell, das klein genug ist, um auf einem mobilen Gerät ausgeführt zu werden. Die Anzahl der Parameter in einem Modell bezieht sich auf die Anzahl der Einheiten, die es zum Speichern und Bearbeiten von Daten enthält, und entspricht in etwa seinen Fähigkeiten.
Laut Ai2 ist Molmo trotz seiner relativ geringen Größe deutlich leistungsfähiger als kommerzielle Modelle, da es sorgfältig anhand hochwertiger Daten trainiert wurde. Das neue Modell ist außerdem vollständig Open Source in dem Sinne, dass es im Gegensatz zu Llama de Meta keine Einschränkungen bei der Verwendung gibt. Ai2 veröffentlicht auch die Trainingsdaten, die zur Erstellung des Modells verwendet wurden, und bietet Forschern so weitere Details zu seiner Funktionsweise.
Die Verbreitung leistungsstarker Modelle ist nicht ohne Risiko. Solche Modelle können leichter für böswillige Zwecke angepasst werden; Beispielsweise könnten wir eines Tages das Aufkommen bösartiger Agenten der künstlichen Intelligenz erleben, die das Hacken von Computersystemen automatisieren sollen.
Farhadi von Ai2 argumentiert, dass Molmos Effizienz und Portabilität es Entwicklern ermöglichen werden, leistungsfähigere Software-Agenten zu entwickeln, die nativ auf Smartphones und anderen tragbaren Geräten laufen. „Das Milliarden-Parameter-Modell funktioniert jetzt auf dem gleichen Niveau oder in der gleichen Kategorie wie Modelle, die mindestens zehnmal größer sind“, sagt er.
Die Entwicklung nützlicher KI-Agenten hängt jedoch nicht nur von effizienteren multimodalen Modellen ab. Eine der größten Herausforderungen besteht darin, die Modelle zuverlässiger zu machen. Dies erfordert möglicherweise weitere Fortschritte bei den KI-Folgefähigkeiten, ein Ziel, das OpenAI mit seinem neuesten o1-Modell angehen möchte, das Schritt-für-Schritt-Folgefähigkeiten demonstriert. Der nächste Schritt könnte darin bestehen, multimodale Modelle mit solchen Argumentationsfähigkeiten auszustatten.
Die Veröffentlichung von Molmo bedeutet vorerst, dass KI-Agenten näher als je zuvor sind und bald auch außerhalb der Giganten, die die KI-Welt beherrschen, nützlich sein könnten.