Auch wenn der Wettlauf um die Erfüllung der enormen Ambitionen der KI-Unternehmen nur um Nvidia geht, gibt es im Bereich der KI-Beschleunigerchips echte Konkurrenz. Das jüngste Beispiel: Auf Intels Vision 2024-Event diese Woche in Phoenix, Arizona, zeigte das Unternehmen die ersten Architekturdetails seines KI-Beschleunigers der dritten Generation, Gaudi 3.

Mit dem Vorgängerchip betonte das Unternehmen, dass seine Leistung nahe an Nvidias damals bestem Chip, dem H100, liege, und behauptete, das Preis-Leistungs-Verhältnis sei überragend. Mit Gaudi 3 weist es auf die Leistung des Large Language Model (LLM) hin, wo es absolute Überlegenheit für sich beanspruchen kann. Doch im Hintergrund zeichnet sich Nvidias nächste GPU ab, Blackwell, die voraussichtlich noch in diesem Jahr auf den Markt kommen wird.

Entwicklung von Gaudís Architektur

Gaudi 3 verdoppelt die Architektur seines Vorgängers Gaudi 2, in einigen Fällen buchstäblich. Anstelle des einzelnen Chips von Gaudi 2 besteht Gaudi 3 aus zwei identischen Siliziumchips, die über eine Verbindung mit hoher Bandbreite verbunden sind. Jeder verfügt über einen zentralen 48-MB-Cache-Bereich. Darum herum befindet sich das KI-Team des Chips: vier Engines für die Matrixmultiplikation und 32 programmierbare Einheiten, sogenannte Tensorprozessorkerne. All dies ist von Speicherverbindungen umgeben und an einem Ende mit Medienverarbeitung und Netzwerkinfrastruktur abgeschlossen.

Intel behauptet, dass all dies zusammengenommen zu einer doppelt so hohen KI-Berechnung wie Gaudi 2 unter Verwendung einer 8-Bit-Gleitkomma-Infrastruktur führt, die zum Schlüssel für das Training von Transformatormodellen geworden ist. Außerdem können Berechnungen mit dem digitalen Format BFloat 16 mit vier multipliziert werden.

Aufführungen von Gaudi 3 LLM

Intel prognostiziert eine um 40 % schnellere Trainingszeit für das große GPT-3 175B-Sprachmodell im Vergleich zum H100 und noch bessere Ergebnisse für die 7 und 8 Milliarden Parameterversionen von Llama2.

Nach Angaben von Intel war die Konkurrenz deutlich härter, da der neue Chip für zwei Llama-Versionen 95–170 % der Leistung des H100 bot. Für das Modell Falcon 180B erzielte Gaudi 3 jedoch einen vierfachen Vorteil. Es überrascht nicht, dass der Vorsprung im Vergleich zum Nvidia H200 geringer war: 80 bis 110 % für Llama und 3,8x für Falcon.

Intel behauptet dramatischere Ergebnisse bei der Messung der Energieeffizienz, wo es bis zu 220 % des H100-Werts für Llama und 230 % für Falcon prognostiziert.

„Unsere Kunden sagen uns, dass die ausreichende Stromversorgung des Rechenzentrums sie einschränkt“, sagte Eitan Medina, Chief Operating Officer von Intel Habana Labs.

Die Energieeffizienz-Ergebnisse waren besser, wenn LLMs mit einer längeren Produktion beauftragt wurden. Medina führt diesen Vorteil auf die mathematischen Engines mit großen Matrizen in Gaudís Architektur zurück. Diese haben einen Durchmesser von 512 Bits. Andere Architekturen verwenden viele kleinere Engines, um die gleiche Berechnung durchzuführen, aber Gaudis übergroße Version „benötigt fast eine Größenordnung weniger Speicherbandbreite, um sie zu betreiben“, sagt er.

Gaudi 3 gegen Blackwell

Es ist Spekulation, Beschleuniger zu vergleichen, bevor sie in der Hand sind, aber es gibt einige Datenpunkte, die verglichen werden müssen, insbesondere im Hinblick auf Speicher und Speicherbandbreite. Das Gedächtnis war in der KI schon immer wichtig, und da sich die generative KI durchgesetzt hat und beliebte Modelle zig Milliarden Parameter erreichen, ist es noch wichtiger geworden.

Beide verwenden High-Bandwidth-Memory (HBM), einen Stapel von DRAM-Speicherchips, die sich auf einem Steuerchip befinden. In High-End-Beschleunigern befindet es sich im selben Gehäuse wie das Logiksilizium und umgibt es auf mindestens zwei Seiten. Chiphersteller nutzen fortschrittliche Pakete wie Intels EMIB-Siliziumbrücken oder TSMCs Chip-on-Wafer-on-Silicon (CoWoS), um einen Pfad mit hoher Bandbreite zwischen Logik und Speicher bereitzustellen.

Wie die Grafik zeigt, verfügt Gaudi 3 über mehr HBM als H100, aber weniger als AMDs H200, Blackwell oder MI300. Auch seine Speicherbandbreite ist höher als die des H100. Für Gaudis preisliche Wettbewerbsfähigkeit ist möglicherweise wichtig, dass das Unternehmen im Vergleich zu HBM3 oder HBM3e von anderen das günstigere HBM2e verwendet, was einen erheblichen Bruchteil der Zehntausende Dollar ausmacht, für die Beschleuniger verkauft würden.

Ein weiterer Vergleichspunkt ist, dass Gaudi 3 mit der N5-Prozesstechnologie (manchmal auch 5-Nanometer-Technologie genannt) von TSMC hergestellt wird. Intel ist seit Generationen von Gaudi im Wesentlichen ein Prozessknotenpunkt hinter Nvidia und musste daher seinen neuesten Chip mit einem vergleichen, der mindestens eine Stufe höher auf der Moore’s Law-Leiter stand. Mit Gaudi 3 wird dieser Teil des Rennens etwas enger. Der neue Chip nutzt den gleichen Prozess wie der H100 und H200. Anstatt auf die 3-nm-Technologie umzusteigen, verwendet der aufstrebende Konkurrent Blackwell außerdem ein Verfahren namens N4P. Laut TSMC gehört der N4P zur gleichen 5-nm-Familie wie der N5, bietet jedoch eine Leistungssteigerung von 11 %, einen um 22 % höheren Wirkungsgrad und eine um 6 % höhere Dichte.

Im Sinne des Mooreschen Gesetzes ist die große Frage, welche Technologie die nächste Generation von Gaudi, derzeit Falcon Shores, verwenden wird. Bisher basierte das Produkt auf der TSMC-Technologie, während Intel sein Foundry-Geschäft startete. Aber im nächsten Jahr wird Intel damit beginnen, seine 18A-Technologie auch Foundry-Kunden anzubieten und 20A bereits intern nutzen. Diese beiden Knoten bringen die nächste Generation der Transistortechnologie, Nanosheets, mit einer Stromversorgung auf der Rückseite, eine Kombination, die TSMC erst 2026 erwartet.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *