KI-Agenten-Demos sehen vielleicht umwerfend aus, aber es kann eine Herausforderung sein, die Technologie im wirklichen Leben zuverlässig und ohne störende (oder kostspielige) Fehler zum Laufen zu bringen. Heutige Modelle können Fragen beantworten und sich mit fast menschenähnlicher Kompetenz unterhalten und bilden das Rückgrat von Chatbots wie ChatGPT von OpenAI und Gemini von Google. Sie können auch Aufgaben auf Computern ausführen, indem sie einen einfachen Befehl erhalten, indem sie auf den Computerbildschirm sowie auf Eingabegeräte wie eine Tastatur und ein Trackpad oder über Low-Level-Softwareschnittstellen zugreifen.

Anthropic behauptet, dass Claude andere KI-Agenten bei mehreren Schlüsselkriterien übertrifft, darunter SWE-Bench, der die Softwareentwicklungsfähigkeiten eines Agenten misst, und OSWorld, der die Fähigkeit eines Agenten bewertet, ein KI-System zu nutzen. Die Behauptungen müssen noch unabhängig überprüft werden. Anthropic behauptet, dass Claude Aufgaben in OSWorld in 14,9 % der Fälle korrekt erledigt. Das liegt deutlich unter dem Wert von Menschen, der normalerweise etwa 75 % erreicht, aber deutlich über dem von aktuellen Top-Agenten, einschließlich GPT-4 von OpenAI, der in etwa 7,7 % der Fälle erfolgreich ist.

Anthropic sagt, dass mehrere Unternehmen bereits die Agentenversion von Claude testen. Dazu gehören Canva, das damit Entwurfs- und Bearbeitungsaufgaben automatisiert, und Replit, das die Vorlage für Codierungsaufgaben verwendet. Zu den weiteren Early Adopters zählen The Browser Company, Asana und Notion.

Ofir Press, ein Postdoktorand an der Princeton University, der an der Entwicklung der SWE-Bank beteiligt war, sagt, dass der Agenten-KI tendenziell die Fähigkeit zur langfristigen Planung fehlt und sie oft Schwierigkeiten hat, sich von Fehlern zu erholen. „Um ihren Nutzen zu zeigen, müssen wir bei schwierigen und realistischen Benchmarks eine starke Leistung erbringen“, sagt er, etwa bei der zuverlässigen Planung einer breiten Palette von Reisen für einen Benutzer und der Buchung aller notwendigen Tickets.

Kaplan stellt fest, dass Claude einige Fehler bereits überraschend gut beheben kann. Konfrontiert mit einem Terminalfehler beispielsweise beim Versuch, einen Webserver zu starten, konnte das Modell seinen Befehl überarbeiten, um ihn zu korrigieren. Es stellte sich auch heraus, dass er Pop-ups aktivieren musste, wenn er beim Surfen im Internet in eine Sackgasse geriet.

Viele Technologieunternehmen wetteifern nun um die Entwicklung von KI-Agenten, um Marktanteile und Bekanntheit zu erlangen. Tatsächlich dürfte es nicht lange dauern, bis vielen Benutzern Agenten zur Verfügung stehen. Microsoft, das mehr als 13 Milliarden US-Dollar in OpenAI investiert hat, sagt, dass es Agenten testet, die Windows-Computer verwenden können. Amazon, das stark in Anthropic investiert hat, untersucht, wie Agenten seinen Kunden Produkte empfehlen und möglicherweise kaufen könnten.

Sonya Huang, Partnerin bei der Risikokapitalgesellschaft Sequoia, die sich auf KI-Unternehmen konzentriert, sagt, dass die meisten Unternehmen trotz aller Begeisterung für KI-Agenten eigentlich nur KI-basierte Tools in KI umbenennen. In einem Gespräch mit WIRED im Vorfeld der Anthropic-Nachrichten sagte sie, dass die Technologie derzeit am besten funktioniere, wenn sie in engen Bereichen wie programmierungsbezogenen Arbeiten eingesetzt werde. „Man muss Problembereiche auswählen, bei denen es keine große Sache ist, wenn das Modell versagt“, sagt sie. „Das sind die Problembereiche, in denen echte Agent-native-Unternehmen entstehen werden. »

Eine der größten Herausforderungen der Agenten-KI besteht darin, dass Fehler weitaus problematischer sein können als eine verwirrende Antwort eines Chatbots. Anthropic hat Claude bestimmte Einschränkungen auferlegt, beispielsweise die Möglichkeit, die Kreditkarte einer Person zum Kauf von Dingen zu verwenden.

Laut Princeton University’s Press könnten Benutzer lernen, KI – und Computer – auf eine völlig neue Art und Weise zu sehen, wenn Fehler ausreichend vermieden werden können. „Ich freue mich sehr über diese neue Ära“, sagt er.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *