Anthropics neuestes KI-Modell Claude 3.5 Sonnet verfügt in der öffentlichen Beta über eine neue Funktion, mit der Sie einen Computer steuern können, indem Sie auf einen Bildschirm schauen, einen Cursor bewegen, auf Schaltflächen klicken und Text eingeben. Die neue Funktion namens „Computer Use“ ist ab sofort auf der API verfügbar und ermöglicht es Entwicklern, Claude zu bitten, an einem Computer wie ein Mensch zu arbeiten, wie im Video unten auf einem Mac gezeigt.

Die Copilot Vision-Funktion von Microsoft und die OpenAI-Desktop-App für ChatGPT haben gezeigt, was ihre KI-Tools basierend auf der Ansicht Ihres Computerbildschirms leisten können, und Google bietet ähnliche Funktionen in seiner Gemini-App für Android-Telefone an. Aber sie haben noch nicht den nächsten Schritt getan und Tools auf breiter Basis veröffentlicht, die bereit sind, solche Aufgaben per Mausklick für Sie zu erledigen. Rabbit versprach ähnliche Fähigkeiten für seinen R1, die er jedoch noch nicht liefern konnte.

Anthropic warnt davor, dass die Computernutzung noch experimentell sei und „umständlich und fehleranfällig“ sein könne. Das Unternehmen sagt: „Wir veröffentlichen die PC-Nutzung frühzeitig, um Entwickler-Feedback zu sammeln und erwarten, dass sich die Funktionen im Laufe der Zeit schnell verbessern. »

Es gibt viele Aktionen, die Menschen regelmäßig mit Computern ausführen (Ziehen, Zoomen usw.), die Claude noch nicht ausführen kann. Der „Flipbook“-Charakter von Claudes Sicht auf den Bildschirm (Screenshots machen und diese zusammenfügen, anstatt einen detaillierteren Video-Feed zu beobachten) bedeutet, dass ihm möglicherweise kurzlebige Aktionen oder Benachrichtigungen entgehen.

Darüber hinaus scheint es, dass diese Version von Claude aufgefordert wurde, sich von sozialen Medien fernzuhalten, mit „Überwachungsmaßnahmen, wenn Claude aufgefordert wird, sich an wahlbezogenen Aktivitäten zu beteiligen, sowie Systemen, die Claude dazu ermutigen sollen, sich von Aktivitäten wie der Generierung fernzuhalten.“ und Veröffentlichung von Inhalten in sozialen Netzwerken. soziale Medien, die Registrierung von Webdomänen oder die Interaktion mit Regierungswebsites.

Unterdessen sagt Anthropic, dass sein neues Claude 3.5 Sonnet-Modell Verbesserungen in vielen Benchmarks aufweist und den Kunden zum gleichen Preis und zur gleichen Geschwindigkeit wie sein Vorgänger angeboten wird:

Das Claude 3.5 Sonnet-Update zeigt erhebliche Verbesserungen gegenüber Branchen-Benchmarks, mit besonders großen Zuwächsen bei der Agentencodierung und den Werkzeugnutzungsaufgaben. Beim Codieren verbessert es die Leistung im SWE-Bench Verified von 33,4 % auf 49,0 %, eine höhere Punktzahl als alle öffentlich verfügbaren Modelle, einschließlich Argumentationsmodelle wie OpenAI o1-preview und spezialisierte Systeme, die für die Agentencodierung entwickelt wurden. Es verbessert auch die Leistung beim TAU-Bench, einer Aufgabe zur Nutzung von Agententools, von 62,6 % auf 69,2 % im Einzelhandel und von 36,0 % auf 46,0 % im komplexeren Bereich der Fluggesellschaften.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *