Si la domination des GPU Nvidia dans le domaine de l’entraînement de l’IA reste incontestée, nous pouvons observer des signes avant-coureurs indiquant que, dans le domaine de l’inférence de l’IA, la concurrence gagne du terrain sur le géant de la technologie, notamment en termes d’efficacité énergétique. Les performances pures de la nouvelle puce Blackwell de Nvidia pourraient toutefois être difficiles à battre.

Ce matin, ML Commons a publié les résultats de son dernier concours d’inférence IA, ML Perf Inference v4.1. Cette étape comprenait des soumissions inédites d’équipes utilisant des accélérateurs AMD Instinct, les derniers accélérateurs Google Trillium, des puces de la startup torontoise UntetherAI, ainsi qu’un premier essai de la nouvelle puce Blackwell de Nvidia. Deux autres entreprises, Cerebras et FuriosaAI, ont annoncé de nouvelles puces d’inférence mais n’ont pas soumis de candidature à MLPerf.

Tout comme un sport olympique, MLPerf comporte de nombreuses catégories et sous-catégories. Celle qui a enregistré le plus grand nombre de soumissions est la catégorie « centre de données fermé ». La catégorie fermée (par opposition à ouverte) exige que les soumissionnaires exécutent l’inférence sur un modèle donné tel quel, sans modification logicielle significative. La catégorie centre de données teste les soumissionnaires sur le traitement en masse des requêtes, par opposition à la catégorie périphérique, où la minimisation de la latence est l’objectif.

Dans chaque catégorie, il existe 9 benchmarks différents, pour différents types de tâches d’IA. Il s’agit notamment de cas d’utilisation courants tels que la génération d’images (pensez à Midjourney) et les questions-réponses LLM (pensez à ChatGPT), ainsi que de tâches tout aussi importantes mais moins connues telles que la classification d’images, la détection d’objets et les moteurs de recommandation.

Cette étape du concours comprenait un nouveau benchmark, appelé Mixture of Experts. Il s’agit d’une tendance croissante dans le déploiement de LLM, où un modèle de langage est divisé en plusieurs modèles de langage plus petits et indépendants, chacun étant affiné pour une tâche particulière, comme une conversation ordinaire, la résolution de problèmes mathématiques et l’aide au codage. Le modèle peut diriger chaque requête vers un sous-ensemble approprié de modèles plus petits, ou « experts ». Cette approche permet une utilisation moindre des ressources par requête, ce qui permet de réduire les coûts et d’augmenter le débit, explique Miroslav Hodak, président du groupe de travail sur l’inférence MLPerf et membre senior du personnel technique d’AMD.

Les gagnants de chaque test de performance dans le cadre du célèbre test de performance en centre de données fermé étaient toujours les soumissions basées sur les GPU H200 et les superpuces GH200 de Nvidia, qui combinent GPU et CPU dans le même package. Cependant, un examen plus approfondi des résultats de performance donne une image plus complexe. Certains des soumissionnaires ont utilisé de nombreuses puces accélératrices tandis que d’autres n’en ont utilisé qu’une seule. Si nous normalisons le nombre de requêtes par seconde que chaque soumissionnaire a pu traiter par le nombre d’accélérateurs utilisés, et que nous ne gardons que les soumissions les plus performantes pour chaque type d’accélérateur, certains détails intéressants émergent. (Il est important de noter que cette approche ignore le rôle des CPU et des interconnexions.)

Sur la base de chaque accélérateur, le Blackwell de Nvidia surpasse toutes les itérations de puces précédentes de 2,5 fois sur la tâche de questions-réponses LLM, le seul test auquel il a été soumis. La puce speedAI240 Preview d’Untether AI a obtenu des résultats presque équivalents à ceux du H200 dans sa seule tâche de soumission, la reconnaissance d’images. Le Trillium de Google a obtenu des résultats à peine deux fois moins bons que les H100 et H200 sur la génération d’images, et l’Instinct d’AMD a obtenu des résultats à peu près équivalents à ceux du H100 sur la tâche de questions-réponses LLM.

Le pouvoir de Blackwell

L’une des raisons du succès de Nvidia Blackwell est sa capacité à exécuter le LLM en utilisant une précision de virgule flottante de 4 bits. Nvidia et ses concurrents ont réduit le nombre de bits utilisés pour représenter les données dans des parties de modèles de transformateurs comme ChatGPT pour accélérer les calculs. Nvidia a introduit les mathématiques 8 bits avec le H100, et cette soumission marque la première démonstration de mathématiques 4 bits sur les benchmarks MLPerf.

Le plus grand défi avec des chiffres aussi peu précis est de maintenir la précision, explique Dave Salvator, directeur marketing produit de Nvidia. Pour maintenir la précision élevée requise pour les soumissions MLPerf, l’équipe Nvidia a dû innover de manière significative au niveau du logiciel, explique-t-il.

Une autre contribution importante au succès de Blackwell est sa bande passante mémoire presque doublée, 8 téraoctets/seconde, par rapport aux 4,8 téraoctets/seconde du H200.

une boîte noire avec des carrés dorés et arc-en-ciel sur le dessus sur un fond noirSuperpuce Nvidia GB2800 Grace BlackwellNvidia

La proposition de Nvidia pour Blackwell utilisait une seule puce, mais Salvator affirme qu’elle est conçue pour fonctionner en réseau et à grande échelle, et qu’elle fonctionnera mieux lorsqu’elle sera combinée aux interconnexions NVLink de Nvidia. Les GPU Blackwell prennent en charge jusqu’à 18 connexions NVLink de 100 gigaoctets par seconde pour une bande passante totale de 1,8 téraoctets par seconde, soit environ le double de la bande passante d’interconnexion des H100.

Salvatore soutient qu’avec la taille croissante des grands modèles de langage, même l’inférence nécessitera des plates-formes multi-GPU pour répondre à la demande, et Blackwell est conçu pour cette éventualité. « Blackwell est une plate-forme », explique Salvator.

Nvidia a soumis son système basé sur la puce Blackwell dans la sous-catégorie d’aperçu, ce qui signifie qu’il n’est pas encore en vente mais devrait être disponible avant la prochaine version de MLPerf, dans six mois.

Untether AI brille dans l’utilisation de la puissance et à la périphérie

Pour chaque benchmark, MLPerf inclut également un homologue de mesure de l’énergie, qui teste systématiquement la puissance de la prise murale que chacun des systèmes consomme pendant l’exécution d’une tâche. L’événement principal (la catégorie énergie des centres de données fermés) n’a vu que deux soumissionnaires cette fois-ci : Nvidia et Untether AI. Alors que Nvidia a participé à tous les benchmarks, Untether n’a soumis que pour la reconnaissance d’images.

Soumissionnaire

Accélérateur

Nombre d’accélérateurs

Requêtes par seconde

Watts

Requêtes par seconde par Watt

NVIDIA

NVIDIA H200-SXM-141 Go

8

480 131,00 $

5 013,79

95,76

Détacher l’IA

Vitesse AI UntetherAI240 Slim

6

309 752,00 $

985,52

314,30

La start-up a pu atteindre cette efficacité impressionnante en construisant des puces avec une approche qu’elle appelle le calcul en mémoire. Les puces d’UntetherAI sont construites comme une grille d’éléments de mémoire avec de petits processeurs intercalés directement à côté d’eux. Les processeurs sont parallélisés, chacun fonctionnant simultanément avec les données des unités de mémoire voisines, réduisant ainsi considérablement la quantité de temps et d’énergie dépensée pour transférer les données du modèle entre la mémoire et les cœurs de calcul.

« Nous avons constaté que 90 % de l’énergie nécessaire à l’exécution d’une charge de travail d’IA consiste simplement à déplacer les données de la DRAM vers le cache et l’élément de traitement », explique Robert Beachler, vice-président des produits d’Untether AI. « Untether a donc inversé la tendance… Plutôt que de déplacer les données vers le calcul, je vais déplacer le calcul vers les données. »

Cette approche s’est révélée particulièrement efficace dans une autre sous-catégorie de MLPerf : les applications à périphérie fermée. Cette catégorie est davantage orientée vers des cas d’utilisation sur le terrain, tels que l’inspection des machines en usine, la robotique à vision guidée et les véhicules autonomes, des applications où une faible consommation d’énergie et un traitement rapide sont primordiaux, explique Beachler.

Soumissionnaire

Type de GPU

Nombre de GPU

Latence d’un flux unique (ms)

Latence multi-flux (ms)

Échantillons/s

Lenovo

NVIDIA L4

2

0,39

0,75

25 600,00 $

Lenovo

NVIDIA L40S

2

0,33

0,53

86 304,60

Détacher l’IA

Aperçu d’UntetherAI speedAI240

2

0,12

0,21

140 625,00 $

Dans la tâche de reconnaissance d’image, la seule pour laquelle UntetherAI a rapporté des résultats, la puce speedAI240 Preview a battu les performances de latence de la NVIDIA L40S de 2,8x et son débit (échantillons par seconde) de 1,6x. La startup a également soumis des résultats de consommation dans cette catégorie, mais ses concurrents accélérés par Nvidia ne l’ont pas fait, il est donc difficile de faire une comparaison directe. Cependant, la consommation nominale par puce pour la puce speedAI240 Preview d’UntetherAI est de 150 watts, tandis que pour la L40s de Nvidia, elle est de 350 W, ce qui conduit à une réduction nominale de la consommation de 2,3x avec une latence améliorée.

Cerebras et Furiosa abandonnent MLPerf mais annoncent de nouvelles puces

une boîte noire avec des cases blanchesLa nouvelle puce de Furiosa implémente la fonction mathématique de base de l’inférence de l’IA, la multiplication matricielle, d’une manière différente et plus efficace. Furieux

Hier, lors de la conférence IEEE Hot Chips à Stanford, Cerebras a dévoilé son propre service d’inférence. La société de Sunnyvale, en Californie, fabrique des puces géantes, aussi grandes que le permet une plaquette de silicium, évitant ainsi les interconnexions entre puces et augmentant considérablement la bande passante mémoire de ses appareils, qui sont principalement utilisés pour entraîner des réseaux neuronaux massifs. Elle a maintenant mis à niveau sa pile logicielle pour utiliser son dernier ordinateur CS3 pour l’inférence.

Bien que Cerebras n’ait pas soumis de soumission à MLPerf, la société affirme que sa plateforme bat un H100 de 7 fois et la puce concurrente de la startup d’IA Groq de 2 fois en termes de jetons LLM générés par seconde. « Aujourd’hui, nous sommes dans l’ère de l’IA de la génération par ligne commutée », déclare Andrew Feldman, PDG et cofondateur de Cerebras. « Et cela est dû à la barrière de la bande passante mémoire. Qu’il s’agisse d’un H100 de Nvidia, d’un MI 300 ou d’un TPU, ils utilisent tous la même mémoire hors puce, et cela produit la même limitation. Nous franchissons cette barrière, et nous le faisons parce que nous sommes à l’échelle des plaquettes. »

Hot Chips a également vu une annonce de Furiosa, basée à Séoul, présentant sa puce de deuxième génération, RNGD (prononcer « renégat »). Ce qui différencie la puce de Furiosa est son architecture Tensor Contraction Processor (TCP). L’opération de base dans les charges de travail d’IA est la multiplication de matrices, normalement implémentée comme une primitive dans le matériel. Cependant, la taille et la forme des matrices, plus généralement appelées tenseurs, peuvent varier considérablement. RNGD implémente la multiplication de cette version plus généralisée, les tenseurs, comme une primitive à la place. « Lors de l’inférence, les tailles de lots varient considérablement, il est donc important d’utiliser le parallélisme inhérent et la réutilisation des données à partir d’une forme de tenseur donnée », a déclaré June Paik, fondatrice et PDG de Furiosa, lors de Hot Chips.

Bien qu’elle n’ait pas soumis de test à MLPerf, Furiosa a comparé les performances de sa puce RNGD sur le benchmark de synthèse LLM de MLPerf en interne. Elle a obtenu des performances comparables à celles de la puce L40S de Nvidia, orientée vers la périphérie, tout en n’utilisant que 185 W d’énergie, contre 320 W pour la L40S. Et, selon Paik, les performances s’amélioreront avec d’autres optimisations logicielles.

IBM a également annoncé sa nouvelle puce Spyre conçue pour les charges de travail d’IA générative d’entreprise, qui sera disponible au premier trimestre 2025.

Au moins, les acheteurs du marché des puces d’inférence IA ne s’ennuieront pas dans un avenir prévisible.

Articles de votre site

Articles connexes sur le Web

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *