Nvidia dominiert seit Jahren viele Machine-Learning-Benchmarks und hat nun zwei weitere Plätze auf dem Buckel.
MLPerf, die KI-Benchmarking-Suite, die manchmal als „Olympiade des maschinellen Lernens“ bezeichnet wird, hat eine neue Reihe von Trainingstests veröffentlicht, um mehr und bessere Vergleiche zwischen konkurrierenden Computersystemen zu ermöglichen. Einer der neuen Tests von MLPerf umfasst die Feinabstimmung großer Sprachmodelle. Dabei handelt es sich um einen Prozess, bei dem ein vorhandenes trainiertes Modell mit Spezialwissen noch ein wenig weiter trainiert wird, um es an ein bestimmtes Ziel anzupassen. Das andere betrifft graphische neuronale Netze, eine Art maschinelles Lernen hinter bestimmten Dokumentendatenbanken, Betrugserkennung in Finanzsystemen und sozialen Netzwerken.
Trotz der Hinzufügung und Beteiligung von Computern, die KI-Beschleuniger von Google und Intel verwenden, dominierten erneut Systeme mit Nvidias Hopper-Architektur die Ergebnisse. Ein System mit 11.616 Nvidia H100-GPUs – der bisher größten Sammlung – übertraf jeden der neun Benchmarks und stellte in fünf davon Rekorde auf (einschließlich der beiden neuen Benchmarks).
„Wenn Sie nur über Hardware verfügen, um das Problem zu lösen, ist es nicht sicher, dass Sie besser werden.“ —Dave Salvator, Nvidia
Das 11 616-H100-System ist „das größte, das wir je gemacht haben“, sagt Dave Salvator, Director of Accelerated Computing Products bei Nvidia. Den GPT-3-Trainingstest bestand es in weniger als 3,5 Minuten. Zum Vergleich: Ein 512-GPU-System benötigte etwa 51 Minuten. (Beachten Sie, dass es sich bei der GPT-3-Aufgabe nicht um ein vollständiges Training handelt, das Wochen dauern und Millionen von Dollar kosten kann. Stattdessen trainieren Computer zu einem gut vereinbarten Zeitpunkt vor dem Ende an einem repräsentativen Teil der Daten.)
Im Vergleich zu Nvidias größtem GPT-3-Neuzugang im letzten Jahr, einem 3584 H100-Computer, stellt das 3,5-Minuten-Ergebnis eine 3,2-fache Verbesserung dar. Man könnte dies einfach aufgrund der unterschiedlichen Größe dieser Systeme erwarten, aber beim KI-Computing ist das nicht immer der Fall, sagt Salvator. „Wenn man das Problem nur mit Hardware löst, wird man nicht unbedingt besser“, sagt er.
„Wir erhalten im Wesentlichen eine lineare Skalierung“, sagt Salvatore. Damit meint er, dass doppelt so viele GPUs zu einer halben Trainingszeit führen. “[That] stellt eine großartige Leistung unserer Ingenieurteams dar“, fügt er hinzu.
Auch die Konkurrenz nähert sich der linearen Skalierung an. In dieser Runde stellte Intel ein System mit 1.024 GPUs bereit, das die GPT-3-Aufgabe in 67 Minuten erledigte, verglichen mit einem viermal kleineren Computer, der vor sechs Monaten 224 Minuten brauchte. Die größere GPT-3-Eingabe von Google verwendete zwölfmal mehr TPU v5p-Beschleuniger als die kleinere Eingabe und erledigte ihre Aufgabe neunmal schneller.
Die lineare Skalierung wird besonders wichtig für kommende „KI-Fabriken“ mit 100.000 oder mehr GPUs sein, sagt Salvatore. Er geht davon aus, dass eines dieser Rechenzentren noch in diesem Jahr in Betrieb gehen wird und ein weiteres, das Nvidias kommende Blackwell-Architektur nutzt, im Jahr 2025 in Betrieb gehen wird.
Nvidias Erfolgsserie geht weiter
Nvidia hat die Trainingszeiten trotz der Verwendung der gleichen Hopper-Architektur wie bei den Trainingsergebnissen des letzten Jahres weiter erhöht. Dies sei alles auf Softwareverbesserungen zurückzuführen, sagt Salvatore. „Normalerweise erhalten wir ein 2- bis 2,5-faches [boost] Software nach der Veröffentlichung einer neuen Architektur“, sagt er.
Beim GPT-3-Training verzeichnete Nvidia eine Verbesserung um 27 % gegenüber den MLPerf-Benchmarks vom Juni 2023. Salvatore sagt, dass hinter diesem Anstieg mehrere Softwareänderungen steckten. Beispielsweise optimierten die Nvidia-Ingenieure Hoppers Verwendung weniger präziser 8-Bit-Gleitkommaoperationen, indem sie unnötige Konvertierungen zwischen 8-Bit- und 16-Bit-Zahlen entfernten und besser auf Schichten eines neuronalen Netzwerks abzielten, die möglicherweise das numerische Format mit niedrigerer Genauigkeit verwenden. Sie fanden auch eine intelligentere Möglichkeit, das Energiebudget der Rechen-Engines jedes Chips anzupassen und die Kommunikation zwischen GPUs auf eine Art und Weise zu beschleunigen, die Salvatore damit verglich, „den Toast mit Butter zu bestreichen, während er noch im Toaster ist“.
Darüber hinaus implementierte das Unternehmen ein Programm namens Flash Attention. Attention Flash wurde im Labor der Stanford University von Samba Nova-Gründer Chris Re erfunden und ist ein Algorithmus, der Transformatornetzwerke beschleunigt, indem er Speicherschreibvorgänge minimiert. Als es zum ersten Mal in MLPerf-Benchmarks auftauchte, reduzierte Flash Attention die Trainingszeiten um bis zu 10 %. (Intel verwendete auch eine Version von Flash Attention, jedoch nicht für GPT-3. Stattdessen wurde der Algorithmus für einen der neuen Benchmark-Tests verwendet, die Feinabstimmung.)
Dank anderer Software- und Netzwerktricks erreichte Nvidia im Text-zu-Bild-Konvertierungstest „Stable Diffusion“ eine Geschwindigkeitssteigerung von 80 % im Vergleich zu seiner Einreichung vom November 2023.
Neue Maßstäbe
MLPerf fügt neue Benchmarks hinzu und aktualisiert alte, um für das Geschehen in der KI-Branche relevant zu bleiben. In diesem Jahr kamen Feinabstimmungs- und grafische neuronale Netze hinzu.
Die Feinabstimmung erfordert einen bereits ausgebildeten LLM und die Spezialisierung für den Einsatz in einem bestimmten Bereich. Nvidia beispielsweise nahm ein mit 43 Milliarden Parametern trainiertes Modell und trainierte es anhand der Designdateien und Dokumentationen des GPU-Herstellers, um ChipNeMo zu erstellen, eine KI, die die Produktivität seiner Chipdesigner steigern soll. Damals sagte Bill Dally, der Chief Technology Officer des Unternehmens, dass die Ausbildung zum LLM so sei, als würde man ihm eine Ausbildung im Bereich der Geisteswissenschaften ermöglichen, und dass Tuning so sei, als würde man ihn auf eine Graduiertenschule schicken.
Der MLPerf-Benchmark verwendet ein vorab trainiertes Llama-2-70B-Modell und fordert das System auf, es mithilfe eines Datensatzes von Regierungsdokumenten zu verfeinern, um genauere Dokumentzusammenfassungen zu erstellen.
Es gibt mehrere Möglichkeiten zur Feinabstimmung. MLPerf entschied sich für eine sogenannte Low-Rank-Adaption (LoRA). Die Methode trainiert am Ende nur einen kleinen Teil der LLM-Parameter, was nach Angaben der Organisation zu einer dreimal geringeren Hardwarelast und einer geringeren Speicher- und Speichernutzung im Vergleich zu anderen Methoden führt.
Der andere neue Benchmark beinhaltete ein Graph Neural Network (GNN). Hierbei handelt es sich um Probleme, die durch eine sehr große Menge miteinander verbundener Knotenpunkte dargestellt werden können, beispielsweise durch ein soziales Netzwerk oder ein Empfehlungssystem. Im Vergleich zu anderen KI-Aufgaben erfordern GNNs viel Kommunikation zwischen den Knoten eines Computers.
Der Benchmark trainierte ein GNN anhand einer Datenbank, die Beziehungen zwischen akademischen Autoren, Artikeln und Instituten zeigt: ein Diagramm mit 547 Millionen Knoten und 5,8 Milliarden Kanten. Anschließend wurde das neuronale Netzwerk darauf trainiert, für jeden Knoten im Diagramm die richtige Bezeichnung vorherzusagen.
Zukünftige Kämpfe
In den Trainingszyklen im Jahr 2025 könnten Kopf-an-Kopf-Wettbewerbe stattfinden, bei denen neue Beschleuniger von AMD, Intel und Nvidia verglichen werden. AMDs MI300-Serie wurde vor etwa sechs Monaten auf den Markt gebracht, und ein Upgrade mit verbessertem Speicher des MI325x ist für Ende 2024 geplant, während die nächste Generation des MI350 für 2025 geplant ist. Intel sagt, dass sein Gaudi 3, das später in diesem Jahr allgemein für Computerhersteller erhältlich sein wird, wird in den kommenden Inferenztests von MLPerf erscheinen. Intel-Führungskräfte sagten, der neue Chip habe die Fähigkeit, den H100 im LLM-Training zu schlagen. Doch der Sieg könnte nur von kurzer Dauer sein, da Nvidia mit Blackwell eine neue Architektur vorgestellt hat, die für Ende dieses Jahres geplant ist.
Aus den Artikeln auf Ihrer Website
Verwandte Artikel im Internet