Llama 3 bietet derzeit zwei Modellgewichte mit den Einstellungen 8B und 70B. (Das B steht für Milliarden und stellt die Komplexität eines Modells und den Umfang seines Trainings dar.) Bisher bietet es nur textbasierte Antworten, aber Meta sagt, dass dies ein „großer Fortschritt“ im Vergleich zum vorherigen ist Ausführung. Lama 3 reagierte vielfältiger auf Aufforderungen, verweigerte die Beantwortung von Fragen seltener und konnte besser argumentieren. Meta sagt auch, dass Llama 3 mehr Anweisungen enthält und besseren Code schreibt als zuvor.

In der Post, Meta behauptet, dass beide Größen von Llama 3 in einigen Benchmarking-Tests ähnlich große Modelle wie Googles Gemma und Gemini, Mistral 7B und Anthropics Claude 3 schlagen. Im MMLU-Benchmark, der allgemein das Allgemeinwissen misst, schnitt Llama 3 8B deutlich besser ab als Gemma 7B und Mistral 7B, während Llama 3 70B Gemini Pro 1.5 leicht verdrängte.

(Es ist vielleicht bemerkenswert, dass Metas 2.700 Wörter langer Beitrag GPT-4, das Flaggschiffmodell von OpenAI, nicht erwähnt.)

Es ist auch erwähnenswert, dass Benchmark-Tests von KI-Modellen zwar nützlich sind, um zu verstehen, wie leistungsfähig sie sind, aber unvollkommen sind. Es wurde festgestellt, dass die zur Bewertung von Modellen verwendeten Datensätze Teil des Trainings eines Modells sind, was bedeutet, dass das Modell bereits die Antworten auf die Fragen kennt, die ihm die Bewerter stellen werden.

Benchmark-Tests zeigen, dass beide Größen von Llama 3 Sprachmodelle ähnlicher Größe übertreffen.
Screenshot: Emilia David / The Verge

Meta sagt Menschliche Rezensenten bewerteten Llama 3 auch besser als andere Modelle, einschließlich GPT-3.5 von OpenAI. Meta behauptet, einen neuen Datensatz erstellt zu haben, der es menschlichen Prüfern ermöglicht, reale Szenarien zu emulieren, in denen Llama 3 verwendet werden könnte. Dieser Datensatz umfasste Anwendungsfälle wie das Einholen von Ratschlägen, das Zusammenfassen und kreatives Schreiben. Das Unternehmen gibt an, dass das Team, das an dem Modell gearbeitet hat, keinen Zugriff auf diese neuen Benchmark-Daten hatte und dass diese keinen Einfluss auf die Leistung des Modells hatten.

„Dieser Bewertungssatz enthält 1.800 Eingabeaufforderungen, die 12 wichtige Anwendungsfälle abdecken: um Rat fragen, Brainstorming, Klassifizierung, Beantwortung geschlossener Fragen, Codierung, kreatives Schreiben, Extrahieren, Einleben in eine Figur/Person, Beantwortung offener Fragen, Argumentation, Umschreiben usw zusammenfassend“, sagt Meta in seinem Blogbeitrag.

Laut Meta schnitt Llama 3 bei menschlichen Tests besser ab als die meisten Modelle.
Screenshot: Emilia David / The Verge

Llama 3 sollte über größere Modelle verfügen (die längere Befehls- und Datenfolgen enthalten können) und zu mehr multimodalen Antworten wie „Bild generieren“ oder „Audiodatei transkribieren“ fähig sein. Laut Meta werden diese größeren Versionen, die mehr als 400 Milliarden Parameter enthalten und idealerweise komplexere Modelle lernen können als kleinere Versionen des Modells, derzeit trainiert, aber erste Leistungstests zeigen, dass diese Modelle viele Fragen beantworten können, die durch vergleichende Analysen aufgeworfen werden.

Meta hat jedoch keine Übersicht über diese größeren Modelle veröffentlicht und sie nicht mit anderen großen Modellen wie GPT-4 verglichen.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *