Da große Supercomputer immer größer werden,Cerebras mit Sitz in Sunnyvale, Kalifornien, verfolgte einen anderen Ansatz. Anstatt immer mehr GPUs miteinander zu verbinden, stopfte das Unternehmen so viele Prozessoren wie möglich auf einen riesigen Wafer. Der Hauptvorteil liegt in den Verbindungen: Durch die gemeinsame Verkabelung der Prozessoren auf dem Chip umgeht der Wafer-Scale-Chip viele der Einbußen bei der Rechengeschwindigkeit.Diese entstehen durch die Kommunikation vieler GPUs untereinander sowie durch Verluste beim Laden von Daten in und aus dem Speicher.

Heute hat Cerebras die Vorteile seiner Chips im Wafer-Maßstab in zwei separaten, aber zusammenhängenden Ergebnissen demonstriert. Zunächst zeigte das Unternehmen, dass sein Wafer-Scale-Motor der zweiten Generation, WSE-2,war bei Berechnungen der Molekulardynamik, dem Bereich, der der Proteinfaltung zugrunde liegt, der Modellierung von Strahlungsschäden in Kernreaktoren und anderen Problemen der Materialwissenschaften deutlich schneller als der schnellste Supercomputer der Welt, Frontier. Zweitens hat Cerebras in Zusammenarbeit mit Neural Magic, einem Unternehmen zur Modelloptimierung für maschinelles Lernen, gezeigt, dass ein großes spärliches Sprachmodell Inferenzen für ein Drittel der Energiekosten eines vollständigen Modells durchführen kann, ohne an Genauigkeit zu verlieren. Obwohl die Ergebnisse in sehr unterschiedlichen Bereichen lagen, waren beide dank der Verbindungen und des schnellen Speicherzugriffs möglich, die die Hardware von Cerebras ermöglicht.

Mit voller Geschwindigkeit durch die molekulare Welt

„Stellen Sie sich vor, es gäbe einen Schneider und er könnte in einer Woche einen Anzug anfertigen“, sagt Andrew Feldman, CEO und Mitbegründer von Cerebras. „Er kauft den benachbarten Schneider, und sie kann auch in einer Woche einen Anzug anfertigen, aber sie können nicht zusammenarbeiten. Jetzt können sie in einer Woche zwei Kostüme herstellen. Aber was sie nicht schaffen, ist, in dreieinhalb Tagen einen Anzug anzufertigen.“

Laut Feldman sind GPUs wie Schneider, die nicht zusammenarbeiten können, zumindest wenn es um bestimmte molekulardynamische Probleme geht. Wenn Sie immer mehr GPUs anschließen, können diese zwar mehr Atome gleichzeitig simulieren, aber nicht die gleiche Anzahl Atome schneller simulieren.

Die Slice-Scale-Engine von Cerebras entwickelt sich jedoch auf eine grundlegend andere Art und Weise. Da die Chips nicht durch die Verbindungsbandbreite begrenzt sind, können sie schnell kommunizieren, so wie zwei Schneider nahtlos zusammenarbeiten, um in dreieinhalb Tagen einen Anzug anzufertigen.

„Es ist schwierig, Materialien zu schaffen, die die richtigen Eigenschaften haben, eine lange Lebensdauer haben, ausreichend fest sind und nicht brechen.“ –Tomas Oppelstrup, Lawrence Livermore National Laboratory

Um diesen Vorteil zu demonstrieren, simulierte das Team die Wechselwirkung von 800.000 Atomen miteinander und berechnete die Wechselwirkungen in Schritten von jeweils einer Femtosekunde. Die Berechnung jedes Schritts auf ihrer Hardware dauerte nur wenige Mikrosekunden. Dies war zwar immer noch neun Größenordnungen langsamer als Interaktionen in der realen Welt, aber auch 179-mal schneller als der Frontier-Supercomputer. Durch diese Errungenschaft konnte der Rechenaufwand eines Jahres effektiv auf nur zwei Tage reduziert werden.

Diese Arbeit wurde in Zusammenarbeit mit Sandia, Lawrence Livermore und Los Alamos National Laboratories durchgeführt. Tomas Oppelstrup, Wissenschaftler am Lawrence Livermore National Laboratory, sagt, dieser Fortschritt ermögliche die Simulation molekularer Wechselwirkungen, die zuvor nicht zugänglich waren.

Oppelstrup sagt, dass dies besonders nützlich sein wird, um die Langzeitstabilität von Materialien unter extremen Bedingungen zu verstehen. „Wenn Sie fortschrittliche Maschinen bauen, die bei hohen Temperaturen arbeiten, wie etwa Strahltriebwerke, Kernreaktoren oder Fusionsreaktoren zur Energieerzeugung“, sagt er, „benötigen Sie Materialien, die diesen hohen Temperaturen und sehr rauen Umgebungen standhalten können.“ Es ist schwierig, Materialien zu schaffen, die die richtigen Eigenschaften haben, eine lange Lebensdauer haben, ausreichend fest sind und nicht brechen. Laut Oppelstrup wird es für den Materialdesign- und Entwicklungsprozess von entscheidender Bedeutung sein, das Verhalten von Kandidatenmaterialien über einen längeren Zeitraum simulieren zu können.

Ilya Sharapov, Chefingenieur bei Cerebras, sagt, das Unternehmen freue sich darauf, die Anwendungen seines Wafer-Scale-Motors auf eine breitere Klasse von Problemen auszuweiten, darunter Molekulardynamiksimulationen biologischer Prozesse und Simulationen der Luftströmung um Autos oder Flugzeuge.

Reduzierung der Größe großer Sprachmodelle

Da große Sprachmodelle (LLMs) immer beliebter werden, beginnen die Energiekosten für deren Verwendung die Trainingskosten in den Schatten zu stellen, Schätzungen zufolge sogar um das Zehnfache. „Inferenz ist heute die Hauptarbeitslast in der KI, weil jeder ChatGPT nutzt“, sagt James Wang, Direktor für Produktmarketing bei Cerebras, „und die Ausführung ist sehr teuer, insbesondere im großen Maßstab.“

Eine Möglichkeit, die Energiekosten (und die Geschwindigkeit) der Inferenz zu reduzieren, besteht darin, Sparsity zu verwenden und dabei im Wesentlichen die Kraft von Nullen auszunutzen. LLMs bestehen aus einer Vielzahl von Parametern. Das von Cerebras verwendete Open-Source-Llama-Modell verfügt beispielsweise über 7 Milliarden Parameter. Während der Inferenz wird jeder dieser Parameter verwendet, um die Eingabedaten zu analysieren und die Ausgabe auszuspucken. Wenn jedoch ein erheblicher Teil dieser Parameter Null ist, können sie bei der Berechnung ignoriert werden, was Zeit und Energie spart.

Das Problem besteht darin, dass es schwierig ist, bestimmte Einstellungen auf einer GPU zu überspringen. Das Lesen des Speichers auf einer GPU ist relativ langsam, da sie darauf ausgelegt ist, den Speicher in Blöcken zu lesen, was bedeutet, dass Gruppen von Parametern gleichzeitig berücksichtigt werden müssen. Dadurch ist es GPUs nicht möglich, zufällig eingestreute Nullen im Parametersatz zu ignorieren. Feldman, CEO von Cerebras, bot eine weitere Analogie: „Es ist das Äquivalent eines Versenders, der Waren nur auf Paletten transportieren möchte, weil er sich nicht jeden Karton ansehen möchte. Bei der Speicherbandbreite handelt es sich um die Möglichkeit, jede Box zu untersuchen, um sicherzustellen, dass sie nicht leer ist. Wenn es leer ist, legen Sie es beiseite und bewegen Sie es nicht.

„Es gibt eine Million Kerne in einem sehr engen Paket, was bedeutet, dass die Kerne eine Interaktion mit sehr geringer Latenz und hoher Bandbreite untereinander haben.“ —Ilya Sharapov, Gehirne

Einige GPUs sind für einen bestimmten Sparsity-Typ namens 2:4 ausgestattet, bei dem genau zwei von vier nacheinander gespeicherten Parametern Nullen sind. Hochmoderne GPUs verfügen über eine Speicherbandbreite von Terabyte pro Sekunde. Die Speicherbandbreite des WSE-2 von Cerebras ist mit 20 Petabyte pro Sekunde mehr als tausendmal größer. Dies ermöglicht die Ausnutzung unstrukturierter Sparsity, also der ForscherSie können Parameter nach Bedarf überall im Modell auf Null setzen und jeden einzelnen Parameter im laufenden Betrieb während einer Berechnung überprüfen. „Unsere Hardware ist vom ersten Tag an darauf ausgelegt, unstrukturierte Sparsity zu unterstützen“, sagt Wang.

Selbst mit der entsprechenden Hardware führt das Nullsetzen vieler Modellparameter zu einem schlechteren Modell. Aber das gemeinsame Team von Neural Magic und Cerebras hat einen Weg gefunden, die Präzision des Originalmodells wiederherzustellen. Nachdem 70 % der Parameter auf Null reduziert wurden, führte das Team zwei zusätzliche Trainingsrunden durch, um den Nicht-Null-Parametern eine Chance zu geben, die neuen Nullen zu kompensieren.

Dieses zusätzliche Training verbraucht etwa 7 % der anfänglichen Trainingsenergie, und Unternehmen haben festgestellt, dass sie mit diesem Training die volle Modellgenauigkeit wiedererlangen. Das kleinere Modell benötigt im Vergleich zum vollständigen Originalmodell ein Drittel der für die Schlussfolgerung erforderlichen Zeit und Energie. „Was diese neuen Anwendungen in unserer Hardware ermöglicht“, erklärt Sharapov, „ist, dass es eine Million Kerne in einem sehr engen Paket gibt, was bedeutet, dass die Kerne eine sehr geringe Latenz und Interaktionen bei hoher Bandbreite zwischen ihnen haben.“

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *