Die neuen Funktionen von Meta AI basieren auf einer verbesserten Version von Llama, dem primären groß angelegten Sprachmodell von Meta. Auch das heute angekündigte kostenlose Modell könnte angesichts des Ausmaßes der Akzeptanz der Llama-Familie durch Entwickler und Startups große Auswirkungen haben.
Im Gegensatz zu den OpenAI-Modellen kann Llama kostenlos heruntergeladen und lokal ausgeführt werden, obwohl es einige Einschränkungen hinsichtlich der groß angelegten kommerziellen Nutzung gibt. Lama kann auch durch zusätzliches Training für bestimmte Aufgaben leichter verfeinert oder modifiziert werden.
Patrick Wendell, Mitbegründer und Vizepräsident für Technik bei Databricks, einem Unternehmen, das KI-Modelle wie Llama hostet, sagt, dass viele Unternehmen von offenen Modellen angezogen werden, weil sie dadurch ihre eigenen Daten besser schützen können.
Große Sprachmodelle werden zunehmend „multimodal“, das heißt, sie sind darauf trainiert, sowohl Audio- und Bildeingaben als auch Text zu verarbeiten. Dies erweitert die Fähigkeiten eines Modells und ermöglicht es Entwicklern, neue Arten von KI-Anwendungen zu erstellen, einschließlich KI-Agenten, die für sie nützliche Aufgaben auf Computern ausführen können. Llama 3.2 soll es Entwicklern erleichtern, KI-Agenten zu erstellen, die beispielsweise das Internet nach Angeboten für einen bestimmten Produkttyp durchsuchen können, wenn ihnen eine kurze Beschreibung gegeben wird.
„Multimodale Modelle sind sehr wichtig, da die von Einzelpersonen und Unternehmen verwendeten Daten nicht nur Text sind. Sie können in vielen verschiedenen Formaten vorliegen, darunter Bilder und Audiodateien, oder in spezielleren Formaten wie Proteinsequenzen oder Finanzunterlagen“, sagt MIT-Professor Phillip Isola. „In den letzten Jahren sind wir von starken Sprachmodellen zu Modellen übergegangen, die gleichermaßen gut mit Bildern und Stimmen funktionieren. Jedes Jahr sehen wir, dass diesen Systemen mehr Datenmodalitäten zugänglich werden. »
„Mit Llama 3.1 hat Meta gezeigt, dass offene Modelle endlich die Lücke zu ihren proprietären Gegenstücken schließen können“, sagt Nathan Benaich, Gründer und Komplementär von Air Street Capital und Autor eines einflussreichen Jahresberichts über KI. Benaich fügt hinzu, dass multimodale Modelle tendenziell größere Nur-Text-Modelle übertreffen. „Ich kann es kaum erwarten, zu sehen, wie Version 3.2 aussieht“, sagt er.
Das Allen Institute for AI (Ai2), ein Forschungsinstitut in Seattle, hat heute ein fortschrittliches multimodales Open-Source-Modell namens Molmo veröffentlicht. Molmo wurde unter einer weniger restriktiven Lizenz veröffentlicht als Llama, und Ai2 veröffentlicht auch Details seiner Trainingsdaten, die Forschern und Entwicklern helfen können, das Modell zu experimentieren und zu modifizieren.
Meta gab heute bekannt, dass es mehrere Größen von Llama 3.2 mit entsprechenden Funktionen veröffentlichen wird. Neben zwei leistungsstärkeren Instanzen mit 11 und 90 Milliarden Parametern (ein Maß für die Komplexität und Größe eines Modells) bringt Meta leistungsschwächere Versionen mit 1 und 3 Milliarden Parametern auf den Markt, die für den reibungslosen Betrieb auf tragbaren Geräten konzipiert sind. Meta behauptet, dass diese Builds für ARM-basierte mobile Chips von Qualcomm und MediaTek optimiert wurden.
Die KI-Überarbeitung von Meta kommt zu einem entscheidenden Zeitpunkt, da Technologiegiganten darum wetteifern, die fortschrittlichste KI bereitzustellen. Die Entscheidung des Unternehmens, seine beliebtesten Modelle kostenlos zur Verfügung zu stellen, könnte ihm einen Vorteil verschaffen, indem es die Grundlage für viele KI-Tools und -Dienste bereitstellt, insbesondere da Unternehmen beginnen, das Potenzial von KI-Agenten zu erkunden.