Nvidia dévoile le Groq 3 LPU au GTC 2026 : 20 milliards de dollars pour conquérir l'inférence IA
Au GTC 2026, Nvidia a présenté le Groq 3 LPU, première puce issue de son accord de licence de 20 milliards de dollars avec Groq. Ce processeur dédié à l'inférence scinde le calcul IA en deux ères distinctes : entraînement sur GPU, inférence sur LPU.

Jensen Huang a créé la surprise lors du GTC 2026 à San José, le 16 mars, en dévoilant le Groq 3 LPU (Language Processing Unit), un processeur entièrement dédié à l'inférence des modèles d'intelligence artificielle. Premier fruit concret de l'accord de licence de 20 milliards de dollars conclu avec la startup Groq en décembre 2025, cette puce inaugure une bifurcation stratégique majeure : séparer physiquement l'entraînement et l'inférence dans l'infrastructure IA mondiale.
Un accord à 20 milliards qui redessine la carte de l'IA
L'opération entre Nvidia et Groq, conclue le 25 décembre 2025, ne relève pas d'une acquisition classique. Nvidia a obtenu une licence non exclusive sur la propriété intellectuelle de Groq, recruté le fondateur Jonathan Ross et le président Sunny Madra, ainsi que plus de 200 ingénieurs clés. Groq conserve son indépendance juridique sous la direction de son directeur financier Simon Edwards, promu au poste de directeur général. GroqCloud, la plateforme d'inférence qui comptait 2 millions d'utilisateurs, continue de fonctionner séparément.
Nvidia a payé environ 2,9 fois la valorisation de 6,9 milliards de dollars obtenue par Groq lors de sa levée de série E en septembre 2025, à peine trois mois plus tôt. Les investisseurs historiques ont réalisé un multiple de 11,4 fois sur le capital investi (1,75 milliard de dollars au total). Jensen Huang a comparé cette opération au rachat de Mellanox en 2019 pour 6,9 milliards de dollars, estimant qu'il s'agissait d'« étendre l'architecture Nvidia avec les innovations de Groq » de la même manière que les technologies réseau de Mellanox avaient été intégrées.
Groq 3 LPU : une architecture radicalement différente du GPU
Le Groq 3 LPU repose sur une conception à cœur unique et déterministe, radicalement différente des milliers de cœurs dynamiques d'un GPU. Au lieu de stocker les poids des modèles dans de la mémoire externe HBM (High Bandwidth Memory), le LPU utilise de la SRAM (mémoire statique à accès aléatoire) directement sur la puce. Chaque Groq 3 embarque 500 Mo de SRAM, ce qui élimine les goulets d'étranglement liés au transfert de données entre la puce et la mémoire externe.
Le résultat en termes de performances est significatif. La bande passante mémoire atteint 150 To/s, soit environ sept fois plus que les GPU Rubin de Nvidia, dont la HBM4 plafonne à 22 To/s. La puissance de calcul s'établit à 1,2 pétaFLOPS en FP8 par puce. Avant l'acquisition, Groq avait démontré sa capacité à traiter les modèles Llama 3 de Meta à 877 tokens par seconde (version 8B), soit environ le double du débit de tout autre fournisseur.
Jonathan Ross, fondateur de Groq, résume la philosophie du LPU en ces termes : « Chaque cycle est comptabilisé. Aucune opération gaspillée, aucun délai imprévisible. » Cette prévisibilité contraste avec l'exécution dynamique et multi threadée des GPU, où la latence varie en fonction de la charge et de l'ordonnancement.
Le rack LPX : 256 puces pour l'inférence à grande échelle
Le Groq 3 LPU n'est pas commercialisé seul. Nvidia l'intègre dans un rack complet baptisé LPX, qui regroupe 256 puces pour une capacité totale de 128 Go de SRAM. Le rack LPX est conçu pour fonctionner en tandem avec le rack Vera Rubin NVL72, dédié à l'entraînement et au « prefill » (traitement initial du contexte). Cette architecture en binôme divise le travail de manière précise : les GPU Rubin gèrent les calculs intensifs du prefill, tandis que les LPU Groq 3 prennent en charge la génération de tokens (phase de décodage), la plus exigeante en bande passante mémoire.
Selon Ian Buck, vice président de Nvidia, « le Groq 3 agit comme un coprocesseur qui améliore la performance à chaque couche du modèle IA, sur chaque token généré ». Le système combiné promet un débit de 1 500 tokens par seconde, un seuil jugé indispensable pour les applications d'IA agentique, où des dizaines d'agents communiquent en permanence entre eux. À titre de comparaison, les interfaces actuelles fonctionnent généralement entre 50 et 100 tokens par seconde.
Nvidia annonce un gain de 35 fois en débit par mégawatt et une opportunité de revenus multipliée par dix pour les opérateurs de centres de données. Cinq nouveaux systèmes rack ont été présentés au GTC : le Groq 3 LPX, le Vera Rubin NVL72, un rack CPU Vera dédié, le rack de stockage Bluefield 4 STX et le rack réseau Spectrum 6 SPX.
L'inférence, prochain moteur de croissance de l'industrie IA
Cette stratégie de bifurcation intervient à un moment charnière. L'inférence représente déjà plus de 40 % des revenus liés à l'IA et sa part ne cesse d'augmenter. Les analystes du secteur projettent que les processeurs spécialisés dans l'inférence (ASIC) pourraient capturer environ 45 % du marché de l'inférence d'ici 2030, contre une part marginale aujourd'hui. D'ici 2027, près de 75 % des charges de travail IA seront liées à l'inférence, selon plusieurs cabinets d'analyse.
Jensen Huang a déclaré lors de sa keynote que la demande d'inférence allait « être multipliée par un milliard ». Il a également annoncé que les commandes cumulées pour les puces Blackwell et Vera Rubin atteindraient 1 000 milliards de dollars d'ici 2027, doublant l'objectif de 500 milliards communiqué l'année précédente. Goldman Sachs a confirmé ce relèvement de guidance dans une note publiée le même jour.
Le contexte concurrentiel explique l'urgence. Amazon développe ses puces Trainium, Google pousse ses TPU de cinquième génération, et AMD intensifie ses efforts sur le segment de l'inférence. Nvidia détient encore entre 90 et 95 % du marché des GPU pour centres de données, mais cette part pourrait s'éroder à partir de 2027 si l'entreprise ne propose pas de solutions dédiées à l'inférence. En acquérant la technologie de Groq, Nvidia neutralise un concurrent direct : avant l'accord, GroqCloud avait multiplié sa base d'utilisateurs par 5,6 en un an. Meta aurait même envisagé de transférer ses charges d'inférence vers les TPU de Google, selon plusieurs sources du secteur.
Un montage juridique qui contourne l'antitrust
La structure de l'opération mérite une attention particulière. En optant pour un accord de licence et un recrutement d'équipe plutôt qu'une fusion classique, Nvidia limite son exposition aux régulateurs antitrust. L'entreprise détient une position quasi monopolistique sur les GPU de centres de données et a vu son précédent projet de rachat d'ARM, évalué à 40 milliards de dollars, échouer face aux oppositions réglementaires en 2022. Le rachat de Mellanox pour 6,9 milliards en 2019 avait également fait l'objet d'un examen prolongé.
Ce schéma rappelle la stratégie de Microsoft avec Inflection AI en 2024, où un accord de licence de 650 millions de dollars avait permis d'absorber l'équipe fondatrice tout en maintenant l'entité juridique indépendante. La FTC avait ouvert une enquête sur cette opération. Les régulateurs pourraient adopter la même approche avec Nvidia, d'autant que l'entreprise contrôle désormais les deux pôles du calcul IA : l'entraînement (GPU) et l'inférence (LPU).
Implications pour les marchés et les investisseurs
L'action Nvidia (NVDA) a progressé de plus de 2 % lors de la séance du 16 mars, atteignant environ 184 dollars. Sur les 39 analystes couvrant le titre, 38 émettent une recommandation d'achat, avec un objectif de cours moyen de 273,61 dollars, soit un potentiel de hausse d'environ 52 %. Ivan Feinseth, de Tigress Financial, a relevé son objectif à 360 dollars (le plus élevé de Wall Street), tandis que Bank of America maintient un objectif de 300 dollars.
Les hyperscalers (Amazon, Google, Meta, Microsoft) prévoient de dépenser collectivement 650 milliards de dollars en infrastructures IA cette année. Nvidia captera une part significative de ces budgets. L'entreprise génère plus de 50 milliards de dollars annuels en revenus de centres de données, avec des marges avoisinant 74 %, ce qui rend l'investissement de 20 milliards de dollars dans Groq parfaitement soutenable sur le plan financier.
Pour les investisseurs européens, cette annonce renforce la thèse d'un supercycle de l'infrastructure IA. En Europe, les acteurs cotés les plus exposés à cette dynamique restent ASML (équipements de lithographie), STMicroelectronics et Infineon, bien qu'aucun d'eux ne soit positionné directement sur le segment de l'inférence dédiée.
Ce qu'il faut surveiller dans les prochaines semaines
Plusieurs catalyseurs se profilent. La disponibilité commerciale du rack LPX, prévue pour le second semestre 2026, constituera le premier test réel de la technologie Groq sous l'écusson Nvidia. Les premières commandes de grands clients (Microsoft Azure fait déjà fonctionner un prototype de Vera Rubin) donneront une indication concrète de la demande. Sur le plan réglementaire, les restrictions américaines sur l'exportation de puces IA vers la Chine, renforcées par de nouvelles règles de licence en cours d'élaboration, pourraient limiter l'accès de certains marchés à ces technologies avancées. Enfin, la réaction de la concurrence sera déterminante : AMD, Intel et les puces maison des hyperscalers devront accélérer leurs feuilles de route en inférence pour éviter d'être relégués dans un marché dominé par le tandem GPU et LPU de Nvidia.