97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 Laut Meta übertrifft Llama 3 die meisten anderen Modelle, einschließlich Gemini – MJRBJC

Llama 3 bietet derzeit zwei Modellgewichte mit den Einstellungen 8B und 70B. (Das B steht für Milliarden und stellt die Komplexität eines Modells und den Umfang seines Trainings dar.) Bisher bietet es nur textbasierte Antworten, aber Meta sagt, dass dies ein „großer Fortschritt“ im Vergleich zum vorherigen ist Ausführung. Lama 3 reagierte vielfältiger auf Aufforderungen, verweigerte die Beantwortung von Fragen seltener und konnte besser argumentieren. Meta sagt auch, dass Llama 3 mehr Anweisungen enthält und besseren Code schreibt als zuvor.

In der Post, Meta behauptet, dass beide Größen von Llama 3 in einigen Benchmarking-Tests ähnlich große Modelle wie Googles Gemma und Gemini, Mistral 7B und Anthropics Claude 3 schlagen. Im MMLU-Benchmark, der allgemein das Allgemeinwissen misst, schnitt Llama 3 8B deutlich besser ab als Gemma 7B und Mistral 7B, während Llama 3 70B Gemini Pro 1.5 leicht verdrängte.

(Es ist vielleicht bemerkenswert, dass Metas 2.700 Wörter langer Beitrag GPT-4, das Flaggschiffmodell von OpenAI, nicht erwähnt.)

Es ist auch erwähnenswert, dass Benchmark-Tests von KI-Modellen zwar nützlich sind, um zu verstehen, wie leistungsfähig sie sind, aber unvollkommen sind. Es wurde festgestellt, dass die zur Bewertung von Modellen verwendeten Datensätze Teil des Trainings eines Modells sind, was bedeutet, dass das Modell bereits die Antworten auf die Fragen kennt, die ihm die Bewerter stellen werden.

Benchmark-Tests zeigen, dass beide Größen von Llama 3 Sprachmodelle ähnlicher Größe übertreffen.
Screenshot: Emilia David / The Verge

Meta sagt Menschliche Rezensenten bewerteten Llama 3 auch besser als andere Modelle, einschließlich GPT-3.5 von OpenAI. Meta behauptet, einen neuen Datensatz erstellt zu haben, der es menschlichen Prüfern ermöglicht, reale Szenarien zu emulieren, in denen Llama 3 verwendet werden könnte. Dieser Datensatz umfasste Anwendungsfälle wie das Einholen von Ratschlägen, das Zusammenfassen und kreatives Schreiben. Das Unternehmen gibt an, dass das Team, das an dem Modell gearbeitet hat, keinen Zugriff auf diese neuen Benchmark-Daten hatte und dass diese keinen Einfluss auf die Leistung des Modells hatten.

„Dieser Bewertungssatz enthält 1.800 Eingabeaufforderungen, die 12 wichtige Anwendungsfälle abdecken: um Rat fragen, Brainstorming, Klassifizierung, Beantwortung geschlossener Fragen, Codierung, kreatives Schreiben, Extrahieren, Einleben in eine Figur/Person, Beantwortung offener Fragen, Argumentation, Umschreiben usw zusammenfassend“, sagt Meta in seinem Blogbeitrag.

Laut Meta schnitt Llama 3 bei menschlichen Tests besser ab als die meisten Modelle.
Screenshot: Emilia David / The Verge

Llama 3 sollte über größere Modelle verfügen (die längere Befehls- und Datenfolgen enthalten können) und zu mehr multimodalen Antworten wie „Bild generieren“ oder „Audiodatei transkribieren“ fähig sein. Laut Meta werden diese größeren Versionen, die mehr als 400 Milliarden Parameter enthalten und idealerweise komplexere Modelle lernen können als kleinere Versionen des Modells, derzeit trainiert, aber erste Leistungstests zeigen, dass diese Modelle viele Fragen beantworten können, die durch vergleichende Analysen aufgeworfen werden.

Meta hat jedoch keine Übersicht über diese größeren Modelle veröffentlicht und sie nicht mit anderen großen Modellen wie GPT-4 verglichen.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

Failed to fetch data from the URL.