Technologieunternehmen sind in einen Wettlauf um die Entwicklung der größten Sprachmodelle (LLMs) verwickelt. Im April kündigte Meta beispielsweise das 400-Milliarden-Parameter-Llama 3 an, das doppelt so viele Parameter (oder Variablen, die bestimmen, wie das Modell Anfragen beantwortet) enthält wie das ursprüngliche ChatGPT-Modell 2022. Obwohl unbestätigt, wird GPT-4 auf rund 400 geschätzt 1,8 Billionen Parameter.

Allerdings haben in den letzten Monaten einige der größten Technologieunternehmen, darunter Apple und Microsoft, Reduced Language Models (SLM) eingeführt. Diese Modelle sind nur einen Bruchteil so groß wie ihre LLM-Pendants und können diese dennoch in vielen Kriterien erreichen oder sogar übertreffen, wenn es um die Textgenerierung geht.

Am 10. Juni stellte das Unternehmen auf der Worldwide Developers Conference von Apple seine „Apple Intelligence“-Modelle vor, die über rund 3 Milliarden Parameter verfügen. Und Ende April brachte Microsoft seine Phi-3-SLM-Familie auf den Markt, darunter Modelle, die zwischen 3,8 und 14 Milliarden Parameter hosten.

Sam Altman, CEO von OpenAI, glaubt, dass wir am Ende der Ära der Riesenmodelle sind.

In einer Reihe von Tests konkurrierte das kleinste Modell von Microsoft, der Phi-3-mini, mit GPT-3.5 (175 Milliarden Parameter) von OpenAI, das die kostenlose Version von ChatGPT antreibt, und übertraf den Gemma von Google (7 Milliarden Parameter). Bei den Tests wurde ermittelt, wie gut ein Modell Sprache versteht, indem ihm Fragen zu Mathematik, Philosophie, Recht und mehr gestellt wurden. Interessanter ist, dass Microsofts Phi-3-small mit 7 Milliarden Parametern in vielen dieser Tests deutlich besser abgeschnitten hat als GPT-3.5.

Aaron Mueller, der Sprachmodelle an der Northeastern University in Boston studiert, ist nicht überrascht, dass SLMs in einigen Funktionen mit LLMs konkurrieren können. Er sagt, das liegt daran, dass die Erhöhung der Anzahl der Parameter nicht die einzige Möglichkeit ist, die Leistung eines Modells zu verbessern: Auch das Training mit Daten besserer Qualität kann zu ähnlichen Ergebnissen führen.

Laut Mueller wurden die Phi-Modelle von Microsoft auf verfeinerten Daten in „Lehrbuchqualität“ trainiert, die einen konsistenteren und leichter zu erlernenden Stil haben als der sehr vielfältige Text aus dem Internet, auf den LLMs normalerweise zurückgreifen. Ebenso trainierte Apple seine SLMs ausschließlich anhand umfangreicherer, komplexerer Datensätze.

Der Aufstieg von SLMs erfolgt zu einer Zeit, in der sich die Leistungslücke zwischen LLMs schnell schließt und Technologieunternehmen versuchen, von den Standard-Skalierungsgesetzen abzuweichen und andere Wege zur Leistungsverbesserung zu erkunden. Bei einer Veranstaltung im April sagte Sam Altman, CEO von OpenAI, er glaube, dass wir am Ende der Ära der Riesenmodelle angelangt seien. „Wir werden sie auf andere Weise verbessern.“

Da SLMs nicht so viel Strom verbrauchen wie LLMs, können sie auch lokal auf Geräten wie Smartphones und Laptops (statt in der Cloud) ausgeführt werden, um den Datenschutz zu gewährleisten und sie entsprechend an jede Person anzupassen. Im März führte Google Gemini Nano für die Pixel-Smartphones des Unternehmens ein. SLM kann Audioaufzeichnungen zusammenfassen und intelligente Antworten auf Gespräche ohne Internetverbindung geben. Apple wird voraussichtlich noch in diesem Jahr nachziehen.

Noch wichtiger ist, dass SLMs den Zugang zu Sprachmodellen demokratisieren können, sagt Mueller. Bisher war die KI-Entwicklung in den Händen einiger weniger großer Unternehmen konzentriert, die es sich leisten können, eine High-End-Infrastruktur bereitzustellen, während andere kleinere Betriebe und Labore gezwungen waren, ihnen gegen hohe Gebühren Lizenzen zu gewähren.

Da SLMs leicht auf erschwinglicherer Hardware trainiert werden können, seien sie laut Mueller auch für Personen mit bescheidenen Ressourcen zugänglicher und dennoch leistungsfähig genug für bestimmte Anwendungen.

Darüber hinaus sind sich die Forscher darüber einig, dass es noch viel zu tun gibt, um Halluzinationen zu überwinden. Sorgfältig ausgewählte SLMs bringen sie dem Aufbau einer verantwortungsvollen, interpretierbaren KI näher, die es Forschern möglicherweise ermöglichen würde, LLM-spezifische Probleme zu debuggen und sie an der Quelle zu lösen. .

Für Forscher wie Alex Warstadt, Informatikforscher an der ETH Zürich, könnten SLMs auch neue und faszinierende Einblicke in eine seit langem bestehende wissenschaftliche Frage bieten: Wie Kinder ihre Muttersprache erwerben. Warstadt organisiert zusammen mit einer Gruppe von Forschern, darunter Mueller von Northeastern, BabyLM, eine Herausforderung, bei der die Teilnehmer das Training von Sprachmodellen auf kleinen Datenmengen optimieren.

SLMs könnten nicht nur möglicherweise neue Geheimnisse der menschlichen Kognition enthüllen, sondern auch dazu beitragen, die generative KI zu verbessern. Im Alter von 13 Jahren sind Kinder mit rund 100 Millionen Wörtern konfrontiert und beherrschen die Sprache besser als Chatbots, da sie nur auf 0,01 % der Daten zugreifen können. Obwohl niemand weiß, was den Menschen so viel effizienter macht, sagt Warstadt, „könnte das Reverse Engineering effizienten menschlichen Lernens in kleinen Maßstäben zu enormen Verbesserungen führen, wenn es auf LLM-Maßstäbe skaliert wird.“

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *