97889 64456 72312 47532 85224 72311 99738 05314 18822 88877 83701 91188 72106 98803 83485 70762 67561 00923 55229 06479 57972 59061 74949 93171 14807 03728 86417 14924 55271 76483 09709 80826 48003 69756 41326 33857 90179 16007 50123 74390 32549 30315 44217 63317 75601 80709 41762 62320 18455 61834 28274 17965 11564 40730 97515 38882 00045 18375 34435 87730 65633 86354 42635 03181 37624 00288 29224 98754 64198 42645 13159 80277 57942 84214 09885 11406 37363 27238 16160 82824 82750 03902 45252 98749 86602 85405 74120 11069 70749 63642 54482 33973 81058 25338 11638 53184 38067 75862 58160 05931 81160 94118 63131 11678 37627 13358 15577 41533 20376 02073 54475 97260 40548 91470 84971 47067 00960 20371 54295 32383 70544 08125 72446 96640 07075 16165 30869 08344 20223 85830 11652 84248 58240 18720 83640 74865 63798 26432 11368 91553 98930 40390 63732 07578 52004 83379 91665 87295 27594 70342 33614 00445 56766 74846 32119 67664 51801 34739 44392 32414 80290 43295 50949 32938 59188 82226 64963 12065 07486 96473 17151 41690 05059 80565 72757 89563 68610 87113 78719 74762 26213 13426 23716 54025 70952 73308 30338 98371 80443 39662 15506 33308 53719 47268 57523 71539 98084 43052 68615 92226 35372 86296 82533 08533 12606 77475 19780 50069 42332 94775 84463 97795 86712 89454 36026 27730 87899 25252 69813 38682 Intels Gaudi 3 tritt gegen Nvidia an – MJRBJC

Auch wenn der Wettlauf um die Erfüllung der enormen Ambitionen der KI-Unternehmen nur um Nvidia geht, gibt es im Bereich der KI-Beschleunigerchips echte Konkurrenz. Das jüngste Beispiel: Auf Intels Vision 2024-Event diese Woche in Phoenix, Arizona, zeigte das Unternehmen die ersten Architekturdetails seines KI-Beschleunigers der dritten Generation, Gaudi 3.

Mit dem Vorgängerchip betonte das Unternehmen, dass seine Leistung nahe an Nvidias damals bestem Chip, dem H100, liege, und behauptete, das Preis-Leistungs-Verhältnis sei überragend. Mit Gaudi 3 weist es auf die Leistung des Large Language Model (LLM) hin, wo es absolute Überlegenheit für sich beanspruchen kann. Doch im Hintergrund zeichnet sich Nvidias nächste GPU ab, Blackwell, die voraussichtlich noch in diesem Jahr auf den Markt kommen wird.

Entwicklung von Gaudís Architektur

Gaudi 3 verdoppelt die Architektur seines Vorgängers Gaudi 2, in einigen Fällen buchstäblich. Anstelle des einzelnen Chips von Gaudi 2 besteht Gaudi 3 aus zwei identischen Siliziumchips, die über eine Verbindung mit hoher Bandbreite verbunden sind. Jeder verfügt über einen zentralen 48-MB-Cache-Bereich. Darum herum befindet sich das KI-Team des Chips: vier Engines für die Matrixmultiplikation und 32 programmierbare Einheiten, sogenannte Tensorprozessorkerne. All dies ist von Speicherverbindungen umgeben und an einem Ende mit Medienverarbeitung und Netzwerkinfrastruktur abgeschlossen.

Intel behauptet, dass all dies zusammengenommen zu einer doppelt so hohen KI-Berechnung wie Gaudi 2 unter Verwendung einer 8-Bit-Gleitkomma-Infrastruktur führt, die zum Schlüssel für das Training von Transformatormodellen geworden ist. Außerdem können Berechnungen mit dem digitalen Format BFloat 16 mit vier multipliziert werden.

Aufführungen von Gaudi 3 LLM

Intel prognostiziert eine um 40 % schnellere Trainingszeit für das große GPT-3 175B-Sprachmodell im Vergleich zum H100 und noch bessere Ergebnisse für die 7 und 8 Milliarden Parameterversionen von Llama2.

Nach Angaben von Intel war die Konkurrenz deutlich härter, da der neue Chip für zwei Llama-Versionen 95–170 % der Leistung des H100 bot. Für das Modell Falcon 180B erzielte Gaudi 3 jedoch einen vierfachen Vorteil. Es überrascht nicht, dass der Vorsprung im Vergleich zum Nvidia H200 geringer war: 80 bis 110 % für Llama und 3,8x für Falcon.

Intel behauptet dramatischere Ergebnisse bei der Messung der Energieeffizienz, wo es bis zu 220 % des H100-Werts für Llama und 230 % für Falcon prognostiziert.

„Unsere Kunden sagen uns, dass die ausreichende Stromversorgung des Rechenzentrums sie einschränkt“, sagte Eitan Medina, Chief Operating Officer von Intel Habana Labs.

Die Energieeffizienz-Ergebnisse waren besser, wenn LLMs mit einer längeren Produktion beauftragt wurden. Medina führt diesen Vorteil auf die mathematischen Engines mit großen Matrizen in Gaudís Architektur zurück. Diese haben einen Durchmesser von 512 Bits. Andere Architekturen verwenden viele kleinere Engines, um die gleiche Berechnung durchzuführen, aber Gaudis übergroße Version „benötigt fast eine Größenordnung weniger Speicherbandbreite, um sie zu betreiben“, sagt er.

Gaudi 3 gegen Blackwell

Es ist Spekulation, Beschleuniger zu vergleichen, bevor sie in der Hand sind, aber es gibt einige Datenpunkte, die verglichen werden müssen, insbesondere im Hinblick auf Speicher und Speicherbandbreite. Das Gedächtnis war in der KI schon immer wichtig, und da sich die generative KI durchgesetzt hat und beliebte Modelle zig Milliarden Parameter erreichen, ist es noch wichtiger geworden.

Beide verwenden High-Bandwidth-Memory (HBM), einen Stapel von DRAM-Speicherchips, die sich auf einem Steuerchip befinden. In High-End-Beschleunigern befindet es sich im selben Gehäuse wie das Logiksilizium und umgibt es auf mindestens zwei Seiten. Chiphersteller nutzen fortschrittliche Pakete wie Intels EMIB-Siliziumbrücken oder TSMCs Chip-on-Wafer-on-Silicon (CoWoS), um einen Pfad mit hoher Bandbreite zwischen Logik und Speicher bereitzustellen.

Wie die Grafik zeigt, verfügt Gaudi 3 über mehr HBM als H100, aber weniger als AMDs H200, Blackwell oder MI300. Auch seine Speicherbandbreite ist höher als die des H100. Für Gaudis preisliche Wettbewerbsfähigkeit ist möglicherweise wichtig, dass das Unternehmen im Vergleich zu HBM3 oder HBM3e von anderen das günstigere HBM2e verwendet, was einen erheblichen Bruchteil der Zehntausende Dollar ausmacht, für die Beschleuniger verkauft würden.

Ein weiterer Vergleichspunkt ist, dass Gaudi 3 mit der N5-Prozesstechnologie (manchmal auch 5-Nanometer-Technologie genannt) von TSMC hergestellt wird. Intel ist seit Generationen von Gaudi im Wesentlichen ein Prozessknotenpunkt hinter Nvidia und musste daher seinen neuesten Chip mit einem vergleichen, der mindestens eine Stufe höher auf der Moore’s Law-Leiter stand. Mit Gaudi 3 wird dieser Teil des Rennens etwas enger. Der neue Chip nutzt den gleichen Prozess wie der H100 und H200. Anstatt auf die 3-nm-Technologie umzusteigen, verwendet der aufstrebende Konkurrent Blackwell außerdem ein Verfahren namens N4P. Laut TSMC gehört der N4P zur gleichen 5-nm-Familie wie der N5, bietet jedoch eine Leistungssteigerung von 11 %, einen um 22 % höheren Wirkungsgrad und eine um 6 % höhere Dichte.

Im Sinne des Mooreschen Gesetzes ist die große Frage, welche Technologie die nächste Generation von Gaudi, derzeit Falcon Shores, verwenden wird. Bisher basierte das Produkt auf der TSMC-Technologie, während Intel sein Foundry-Geschäft startete. Aber im nächsten Jahr wird Intel damit beginnen, seine 18A-Technologie auch Foundry-Kunden anzubieten und 20A bereits intern nutzen. Diese beiden Knoten bringen die nächste Generation der Transistortechnologie, Nanosheets, mit einer Stromversorgung auf der Rückseite, eine Kombination, die TSMC erst 2026 erwartet.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *

Failed to fetch data from the URL.