Große Sprachmodelle, die KI-Systeme, die Chatbots wie ChatGPT antreiben, werden immer besser, aber sie werden auch größer und erfordern mehr Energie und Rechenleistung. Für günstige, schnelle und umweltfreundliche LLMs müssen sie verkleinert werden, idealerweise klein genug, um direkt auf Geräten wie Mobiltelefonen ausgeführt zu werden. Forscher finden Wege, dies zu erreichen, indem sie die vielen hochpräzisen Zahlen, die ihre Erinnerungen speichern, dramatisch auf 1 oder -1 runden.

LLMs werden wie alle neuronalen Netze trainiert, indem sie die Stärke der Verbindungen zwischen ihren künstlichen Neuronen verändern. Diese Kräfte werden als mathematische Parameter gespeichert. Forscher haben lange Zeit Netzwerke komprimiert, indem sie die Präzision dieser Parameter reduziert haben (ein Prozess, der als Quantisierung bezeichnet wird), sodass sie statt jeweils 16 Bits möglicherweise 8 oder 4 belegen. Jetzt verschieben Forscher die Grenzen auf ein einzelnes Bit.

So erstellen Sie ein 1-Bit-LLM

Es gibt zwei allgemeine Ansätze. Ein Ansatz, der als Post-Training-Quantisierung (PTQ) bezeichnet wird, beinhaltet die Quantisierung der Parameter eines Netzwerks mit voller Präzision. Der andere Ansatz, das quantisierungsbasierte Training (QAT), beinhaltet das Training eines Netzwerks von Grund auf, um Parameter mit geringer Präzision zu erhalten. Bisher erfreute sich der PTQ bei Forschern größerer Beliebtheit.

Im Februar stellte ein Team bestehend aus Haotong Qin von der ETH Zürich, Xianglong Liu von der Beihang University und Wei Huang von der University of Hong Kong eine PTQ-Methode namens BiLLM vor. Es approximiert die meisten Netzwerkparameter mithilfe von 1 Bit, stellt jedoch einige wichtige Gewichte (die einen großen Einfluss auf die Leistung haben) mithilfe von 2 Bits dar. In einem Test hat das Team eine Version von Metas LLaMa LLM mit 13 Milliarden Parametern binarisiert.

„1-Bit-LLMs eröffnen neue Türen für die Entwicklung maßgeschneiderter Hardware und Systeme, die speziell für 1-Bit-LLMs optimiert sind.“ –Furu Wei, Microsoft Research Asia

Um die Leistung zu bewerten, verwendeten die Forscher eine Metrik namensRatlosigkeit, die im Wesentlichen ein Maß dafür ist, wie überrascht das Modell von jedem folgenden Textstück war. Für einen Datensatz wies das ursprüngliche Modell eine Ratlosigkeit von etwa 5 auf, und die BiLLM-Version erzielte einen Wert von etwa 15, viel besser als der nächste Binarisierungskonkurrent, der etwa 37 erreichte (für die Ratlosigkeit sind niedrigere Zahlen besser). Allerdings benötigte das BiLLM-Modell etwa ein Zehntel der Speicherkapazität des Originals.

PTQ hat gegenüber QAT mehrere Vorteile, sagt Wanxiang Che, Informatiker am Harbin Institute of Technology, China. Es ist weder das Sammeln von Trainingsdaten noch das Training eines Modells von Grund auf erforderlich, und der Trainingsprozess ist stabiler. QAT hingegen hat das Potenzial, Modelle genauer zu machen, da die Quantifizierung von Anfang an in das Modell integriert ist.

1-Bit-LLMs sind gegen ihre großen Cousins ​​erfolgreich

Letztes Jahr entwickelte ein Team unter der Leitung von Furu Wei und Shuming Ma von Microsoft Research Asia in Peking BitNet, die erste 1-Bit-QAT-Methode für LLMs. Nachdem sie die Geschwindigkeit manipuliert hatten, mit der das Netzwerk seine Parameter anpasst, um das Training zu stabilisieren, erstellten sie LLMs, die eine bessere Leistung erbrachten als diejenigen, die mit PTQ-Methoden erstellt wurden. Sie waren immer noch nicht so gut wie Vollpräzisionsnetze, aber etwa zehnmal energieeffizienter.

Im Februar kündigte Weis Team BitNet 1.58b an, bei dem Parameter gleich -1, 0 oder 1 sein können, was bedeutet, dass sie etwa 1,58 Bit Speicher pro Parameter beanspruchen. Ein BitNet-Modell mit 3 Milliarden Parametern schnitt bei verschiedenen Sprachaufgaben genauso gut ab wie ein vollpräzises LLaMA-Modell mit der gleichen Anzahl von Parametern und dem gleichen Trainingsniveau (Wei nannte dies einen „Aha-Moment“), war jedoch 2,71-mal schneller . verbrauchte 72 % weniger GPU-Speicher und 94 % weniger GPU-Leistung. Darüber hinaus stellten die Forscher fest, dass sich die Effizienzvorteile verbesserten, wenn sie größere Modelle trainierten.

Ein BitNet-Modell mit 3 Milliarden Parametern eignet sich für verschiedene linguistische Aufgaben genauso gut wie ein LLaMA-Modell mit voller Präzision.

In diesem Jahr veröffentlichte ein Team unter der Leitung von Che vom Harbin Institute of Technology einen Vorabdruck zu einer anderen LLM-Binarisierungsmethode namens OneBit. OneBit kombiniert Elemente von PTQ und QAT. Es verwendet ein vorab trainiertes LLM mit voller Präzision, um Daten zum Trainieren einer quantisierten Version zu generieren. Das 13-Milliarden-Parameter-Modell des Teams erreichte einen Perplexity-Score von etwa 9 für einen Datensatz, verglichen mit 5 für ein LLaMA-Modell mit 13 Milliarden Parametern. Mittlerweile belegte OneBit nur 10 % des Speichers. Auf benutzerdefinierten Chips könnte dies wahrscheinlich viel schneller funktionieren.

Laut Wei von Microsoft haben quantifizierte Modelle mehrere Vorteile. Sie passen auf kleinere Chips, erfordern weniger Datenübertragung zwischen Speicher und Prozessoren und ermöglichen eine schnellere Verarbeitung. Allerdings kann die aktuelle Hardware die Vorteile dieser Modelle nicht voll ausschöpfen. LLMs laufen oft auf GPUs wie denen von Nvidia, die Gewichte präziser darstellen und den größten Teil ihrer Energie für die Multiplikation dieser Gewichte aufwenden. Neue Hardware könnte jeden Parameter nativ als -1 oder 1 (oder 0) darstellen, dann einfach Werte addieren und subtrahieren und eine Multiplikation vermeiden. „1-Bit-LLMs eröffnen neue Möglichkeiten für die Entwicklung maßgeschneiderter Hardware und Systeme, die speziell für 1-Bit-LLMs optimiert sind“, sagt Wei.

„Sie sollten zusammenwachsen“, sagt Huang von der Universität Hongkong über 1-Bit-Modelle und Prozessoren. „Aber bis zur Entwicklung neuer Hardware ist es noch ein weiter Weg.“

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *