Actualités IA

Nvidia Nemotron 3 Super : le modèle open source qui veut réinventer l’IA agentique

Nvidia Nemotron 3 Super

120 milliards de paramètres, un million de tokens de contexte, un débit multiplié par cinq — et des poids ouverts à tous. Avec Nemotron 3 Super, Nvidia ne sort pas qu’un nouveau modèle : il pose une brique fondamentale dans la course à l’IA autonome. Mais face à DeepSeek R1 et Qwen3.5, la bataille est loin d’être gagnée. Voici pourquoi ça compte vraiment.

À retenir

  • Architecture hybride LatentMoE Mamba-Transformer : 120,6 Mds de paramètres au total, seulement 12,7 Mds actifs par token
  • Score de 36 sur l’Intelligence Index d’Artificial Analysis (+17 pts vs. Super précédent, +12 pts vs. Nano)
  • Débit supérieur de 11% par GPU B200 face à gpt-oss-120b, et 40% plus rapide que Qwen3.5 122B à intelligence équivalente
  • Exécutable localement avec 64 Go de RAM/VRAM en version 4 bits quantifiée
  • Modèle Ultra (~500 Mds de paramètres) attendu en seconde moitié de 2026

Une architecture pensée pour l’efficacité, pas juste la puissance

Lancé le 11 mars 2026, Nemotron 3 Super repose sur une architecture LatentMoE hybride Mamba-Transformer : une combinaison de couches Mamba-2, de couches Attention et de couches FFN organisées en Mixture-of-Experts. L’idée est simple mais brillante — activer seulement 12,7 milliards de paramètres sur 120 à chaque token, comme un orchestre où seulement une douzaine de musiciens jouent à la fois, sans jamais perdre la richesse de l’ensemble.

Le modèle intègre aussi la Multi-Token Prediction (MTP), qui accélère la génération par décodage spéculatif, et a été pré-entraîné en précision NVFP4 — une première pour la famille Nemotron 3. Résultat vérifié : le modèle NVFP4 atteint 99,8% de précision médiane par rapport à la baseline BF16. Pas de compromis caché, donc. Autre particularité technique notable : le modèle utilise NoPE (No Positional Embeddings), ce qui signifie qu’il ne nécessite pas de YaRN pour étendre la fenêtre de contexte — une simplification précieuse pour le déploiement local.

La fenêtre de contexte d’un million de tokens est peut-être le détail le plus sous-estimé : c’est l’équivalent de plusieurs romans entiers traités en une seule session, ouvrant la voie à des agents capables de maintenir une cohérence sur des tâches longues et complexes. Pour aller plus loin sur les architectures MoE, → voir notre guide complet sur les Mixture-of-Experts en 2026.

Nvidia Nemotron 3 Super

Super vs. Nano : ce qui change vraiment

Nemotron 3 Super est le second modèle de la famille Nemotron 3, entre le Nano (30B total / 3B actifs) et l’Ultra (≈500B / ≈50B actifs, attendu fin 2026).

CritèreNemotron 3 NanoNemotron 3 Super
Paramètres totaux30B120,6B
Paramètres actifs3B12,7B
Score Intelligence Index2436
Contexte max1M tokens1M tokens
RAM minimum (4 bits)~16 Go~64–72 Go
Terminal-Bench HardN/C29%
Cible principaleEdge / embarquéAgents autonomes, entreprise

Super utilise 20% moins de tokens de sortie que Nano pour les mêmes évaluations — plus concis, plus efficace. En pratique, Nano cible les déploiements contraints (edge, PC), quand Super vise les systèmes multi-agents en production. → Vous hésitez entre les deux ? Consultez notre comparatif des LLM locaux selon votre matériel.

Hook : Ces benchmarks sont impressionnants sur le papier. Mais que valent-ils face aux rivaux qui ont fait trembler le marché — DeepSeek R1 et Qwen3.5 ?

Les benchmarks battus (et ceux qui résistent)

Nemotron 3 Super s’impose sur plusieurs benchmarks clés de l’IA agentique :

  • AIME 2025 (raisonnement mathématique avancé) : leader dans sa classe de taille
  • SWE-Bench Verified (résolution de bugs en conditions réelles) : meilleur score parmi les modèles ouverts de moins de 30B actifs
  • GPQA Diamond (raisonnement scientifique) : performances de référence
  • Terminal-Bench Hard : 29%, score significatif pour les agents de type CLI
  • GDPval-AA (tâches agentiques réelles) : ELO de 1027
  • RULER (long contexte, RAG) : performances de tête avec 1M tokens

Sur l’Intelligence Index d’Artificial Analysis (score global de 36), il dépasse gpt-oss-120b (33) et représente un bond de +17 points par rapport au Super précédent. Artificial Analysis le qualifie sans détour de “modèle le plus intelligent jamais publié avec ce niveau d’ouverture, et de loin”.

Anecdote de coulisses : lors de la phase de test anticipé accordée à Artificial Analysis, les ingénieurs ont mesuré jusqu’à 484 tokens par seconde sur les endpoints serverless — un chiffre qui a surpris même les équipes ayant comparé des dizaines de modèles. Rare de voir un tel écart entre les annonces et la réalité mesurée… ici, la réalité tient ses promesses.

Face à DeepSeek R1 et Qwen3.5 : les experts divergent

C’est ici que le débat devient intéressant. Sur les scores d’intelligence brute, Qwen3.5 122B A10B affiche un score de 42 sur l’Intelligence Index — soit 6 points au-dessus de Nemotron 3 Super. DeepSeek R1, lui, reste une référence sur le raisonnement mathématique complexe et dispose d’une fenêtre de 128K tokens contre 262K tokens pour Super dans sa configuration serverless standard.

Mais les experts se divisent sur ce qui compte vraiment selon le cas d’usage :

Nemotron 3 Super l’emporte sur :

  • Le débit en production : +40% de tokens/GPU vs. Qwen3.5 122B — décisif pour les coûts d’infrastructure
  • L’ouverture : score de 83 sur l’Openness Index (méthodologie, données d’entraînement, protocoles RL publiés), contre une opacité partielle chez DeepSeek
  • Les tâches agentiques longues grâce à sa fenêtre de 1M tokens
  • La sécurité enterprise : conçu pour Blackwell, certifié par des partenaires comme Palantir et Siemens

Qwen3.5 et DeepSeek R1 conservent l’avantage sur :

  • L’intelligence brute : Qwen3.5 122B score +6 pts sur l’Intelligence Index
  • Le raisonnement mathématique et le code pur, où DeepSeek R1 reste une référence solide
  • La flexibilité hardware : Nemotron 3 Super est optimisé pour Blackwell ; hors de cet écosystème, les gains s’estompent
  • Le coût : DeepSeek est souvent 3 à 10 fois moins cher à l’inférence sur les APIs tierces

En résumé : Nemotron 3 Super n’est pas le modèle “le plus intelligent” du marché, mais c’est le plus efficacement intelligent parmi les modèles vraiment ouverts — une nuance que beaucoup d’analyses grand public ratent. → Pour un benchmark complet des LLM open source en 2026, consultez notre classement mis à jour chaque mois.

Hook : Convaincu ? Voici comment le faire tourner concrètement, même sur du matériel grand public.

Comment télécharger et exécuter Nemotron 3 Super

Le modèle est disponible sur Hugging Face en plusieurs précisions : BF16, FP8, NVFP4, et une gamme de fichiers GGUF quantifiés. Pour la plupart des usages locaux, la version Q4_K_M (4 bits) est le meilleur compromis taille/précision, accessible avec 64 à 72 Go de RAM ou VRAM.

Installation rapide via llama.cpp (GGUF) :

pip install huggingface_hub hf_transfer
# Téléchargement du modèle Q4_K_M
huggingface-cli download nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
--include "*Q4_K_M*" --local-dir ./nemotron-super

Paramètres recommandés par Nvidia selon le cas d’usage :

  • Chat / instruction générale : temperature=1.0, top_p=1.0
  • Tool calling (agents) : temperature=0.6, top_p=0.95
  • Fenêtre de contexte recommandée : 32 768 à 262 144 tokens (1M possible si VRAM suffisante)

Pour un déploiement en production, llama-server avec une API compatible OpenAI permet d’exposer le modèle comme endpoint local. Nvidia propose également un accès serverless sans GPU via DeepInfra, Lightning AI, Perplexity, OpenRouter et Google Cloud Vertex AI — idéal pour tester avant d’investir dans l’infrastructure.

La stratégie derrière le modèle

Ce lancement concrétise une feuille de route annoncée en décembre 2025 : la famille Nemotron 3 couvre trois niveaux — Nano, Super, et Ultra (~500B, attendu fin 2026). Bryan Catanzaro, vice-président de la recherche en deep learning appliqué chez Nvidia, a décrit Super comme un “SSM hybride 120B-12A à MoE latent, conçu pour Blackwell, pré-entraîné en NVFP4”.

Il y a quelque chose d’ironique dans la stratégie : le modèle “le plus ouvert du marché” est aussi celui qui verrouille le plus subtilement son utilisateur dans une infrastructure Blackwell. En offrant des modèles gratuits et hautement performants, Nvidia s’assure que les développeurs restent dans son écosystème matériel — alors même que les concurrents chinois open source gagnent du terrain et que les laboratoires fermés conçoivent leurs propres puces. C’est du hardware vendu par le logiciel.

Lors de l’AIPCon organisé quelques jours après le lancement, Palantir et Nvidia ont annoncé conjointement une architecture de référence pour un “système d’exploitation d’IA souveraine” — Nemotron 3 Super au cœur du dispositif. Un signal fort sur la direction prise. Et visiblement, ça marche.

Vous avez testé Nemotron 3 Super en local ou via API ? Partagez votre retour en commentaire — les configurations matérielles, les cas d’usage, les surprises (bonnes ou mauvaises). Les retours terrain sont souvent plus utiles que n’importe quel benchmark officiel.

Alexandre Chen

Alexandre Chen

About Author

Titulaire d’un Master en Intelligence Artificielle, Alexandre vulgarise les concepts tech les plus complexes. Sa spécialité : l’impact de l’IA dans notre quotidien. Il anime également une chaîne YouTube dédiée aux innovations technologiques émergentes.

Leave a comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez également consulter

IA et robotique - Des avancées qui façonnent notre avenir technologique
Actualités IA

IA et robotique – Des avancées qui façonnent notre avenir technologique

Dans cet article, il explore comment l’intelligence artificielle et la robotique transforment notre monde moderne. Il souligne les progrès remarquables
Applications concrètes de l'IA dans divers secteurs d'activité
Actualités IA

Applications concrètes de l’IA dans divers secteurs d’activité

Dans le monde moderne, l’intelligence artificielle (IA) joue un rôle crucial dans de nombreux secteurs. Elle améliore l’efficacité et la