Nvidia ne perd pas la guerre de l’IA. Il perd la guerre de l’inférence. Et c’est une distinction que la plupart des analystes et des investisseurs n’ont pas encore vraiment intégrée.
À retenir
La transition training-vers-inférence n’est pas une tendance — c’est la bascule structurelle que le secteur attendait depuis deux ans, et elle arrive plus vite que prévu. Nvidia conservera son fief dans l’entraînement, mais l’inférence — qui devrait dépasser le training comme charge dominante — lui échappe progressivement au profit d’ASICs sur mesure pensés par les hyperscalers eux-mêmes. Les 70% de marges brutes de Nvidia ne sont pas un signe de force : ce sont le déclencheur qui a rendu la disruption inévitable et politiquement acceptable. Et l’histoire du minage crypto le confirme avec une brutalité que les modèles financiers n’avaient pas anticipée.
Ce que personne ne dit clairement sur les 70% de marges brutes
Evercore ISI a fait quelque chose de rare : au lieu de publier une note d’analyste depuis un bureau climatisé, ils ont envoyé des gens parler à plus de 25 ingénieurs IA en activité, répartis dans plusieurs entreprises. Le verdict n’est pas “Nvidia est mauvais”. Le verdict est “Nvidia est trop cher pour ce qu’on fait maintenant”.
Parce que le marché a changé de question. On ne demande plus “qui entraîne le mieux ?” mais “qui inférence au coût par token le plus bas ?”. Et c’est là que les 70% de marges brutes de Nvidia deviennent un problème politique autant qu’économique. Les hyperscalers ne veulent pas subventionner indéfiniment les actionnaires de Santa Clara. Alors ils construisent leurs propres puces — les TPU de Google, Trainium d’Amazon, Maia de Microsoft. Ce n’est pas une disruption venue de nulle part. C’est une réponse rationnelle à une rente de situation.
Goldman Sachs projette que les ASICs sur mesure dépasseront les GPUs dans certains segments dès 2027. Broadcom, de son côté, estime l’opportunité ASIC entre 60 et 90 milliards de dollars. Evercore chiffre la chose encore plus précisément : la part de marché Nvidia dans l’inférence tomberait sous les 50% d’ici 2028, contre plus de 90% aujourd’hui.
Il faut cependant comprendre où Nvidia restera inattaquable. Le training. Plus de 70% de part attendue, et pour cause : entraîner des LLMs de plusieurs centaines de milliards de paramètres requiert une flexibilité de programmation que seul CUDA peut offrir aujourd’hui. Nvidia l’a bien compris et ne combat pas sur le même terrain. Leur stratégie GTC 2026 le dit clairement : Vera CPU, Rubin GPU, NVLink 6, ils construisent une plateforme intégrée que l’ASIC, par définition spécialisé, ne peut pas répliquer.

L’erreur que j’ai commise en lisant ce marché
J’ai longtemps cru que la domination Nvidia était structurellement irréversible — que CUDA représentait un fossé technologique tellement large qu’aucun concurrent ne pourrait le combler dans les dix prochaines années. J’avais tort sur le calendrier. Pas sur le principe, mais sur la vitesse.
Ce qui m’a forcé à réviser, c’est l’analogie Bitcoin. Les GPUs ont dominé le minage jusqu’au moment précis où les ASICs ont rendu le débat obsolète. En quelques mois, pas en quelques années. Si Bitcoin et Ethereum avaient tous les deux conservé du GPU pour miner simultanément à leur pic, les prix des cartes graphiques auraient atteint des niveaux que même le bull run 2021 n’a pas approchés. L’histoire industrielle a une logique : quand une charge de travail se stabilise et se répète à grande échelle, la puce généraliste cède toujours sa place à la puce dédiée.
L’inférence est cette charge stable. On sait exactement ce qu’on lui demande. Et c’est précisément pourquoi les ASICs peuvent l’optimiser mieux, plus froid, plus bas en watts par token.
Est-ce que vous avez vraiment besoin d’un marteau quand vous n’enfoncez que des vis ?
Ce que ça change concrètement pour les acheteurs d’infra
Les décisions d’achat changent de métrique. L’époque où l’on comparait les TFLOPS se termine. Les équipes IA regardent désormais le coût énergétique total par requête, la compatibilité avec leurs workloads de production, et le délai d’amortissement des racks. Dans ce cadre, un ASIC “bon à 80%” mais deux fois moins cher à l’usage devient le choix rationnel pour 80% des charges d’inférence en production.
C’est une bascule, pas un glissement. Et elle force une question que peu d’entreprises ont encore formalisée dans leurs comités d’investissement : est-ce que votre infrastructure IA est dimensionnée pour entraîner, ou pour faire tourner ? Parce que la réponse devrait déjà dicter le fournisseur de silicium que vous ciblez en 2026.
La vraie question n’est pas “Nvidia survivra-t-il ?” il survivra, et bien. C’est plutôt : dans cinq ans, dans quel pourcentage de vos factures cloud reconnaîtrez-vous encore la puce verte de Santa Clara ?




