Juillet 2026 marque un tournant dans l’histoire de l’intelligence artificielle. En l’espace de quelques mois, les trois géants — Anthropic, OpenAI et Mistral — ont dévoilé leurs modèles les plus puissants jamais créés. Entre Claude Fable 5, GPT-5 et Mistral Small 4 / Large 3, difficile de s’y retrouver.
Ce comparatif vous donne les réponses concrètes : performances, prix, usages. Quel modèle choisir pour coder, pour écrire, pour l’analyse ? Verdict.
Verdict
Claude Fable 5 domine sur l’autonomie longue durée et la vision, avec 88,0% sur Terminal-Bench 2.1 et 59,0% sur Humanity’s Last Exam, mais son score phare de 80,3% sur SWE-Bench Pro reste contesté et suspendu des leaderboards indépendants. Sur le code validé par des tiers, GPT-5.5 s’impose comme la référence la plus fiable avec 88,7% sur SWE-Bench Verified, juste devant Opus 4.8 à 88,6%. GPT-5 dans sa version de base tient sa réputation de généraliste solide, avec 74,9% sur SWE-Bench Verified, 88% sur Aider Polyglot et un taux d’hallucination sous 1%. Mistral Small 4 confirme quant à lui son rapport efficacité-coût, atteignant 0,72 sur AA LCR avec seulement 1,6K caractères de sortie contre 5,8 à 6,1K pour les modèles Qwen comparables, à un tarif largement inférieur.
GPT-5 reste le choix quotidien le plus fiable, Fable 5 se justifie sur des tâches agentiques longues où son coût élevé est amorti par l’autonomie, et Mistral Small 4 garde sa place pour l’automatisation en volume à moindre coût. Un point mérite d’être répété avant publication : les scores de Fable 5 sur SWE-Bench Pro proviennent d’Anthropic elle-même et sont écartés des classements indépendants, donc mieux vaut les citer avec cette réserve plutôt que comme un acquis.
Les modèles en lice
| Modèle | Date de sortie | Cible | Prix entrée | Prix sortie |
|---|---|---|---|---|
| Claude Fable 5 (Anthropic) | Juin 2026 | Généraliste avancé | 10 $/M tokens | 50 $/M tokens |
| Claude Mythos 5 (Anthropic) | Juin 2026 | Cybersécurité & recherche | 10 $/M tokens | 50 $/M tokens (accès restreint) |
| GPT-5 (OpenAI) | Août 2025 | Généraliste + agent | ~2,50 $/M tokens | ~10 $/M tokens |
| Mistral Small 4 (Mistral) | Mars 2026 | Open source, raisonnement configurable | 0,15 $/M tokens | 0,15 $/M tokens ? |
| Mistral Large 3 (Mistral) | 2026 | Haut de gamme open source | ~2 $/M tokens | ~8 $/M tokens |

1. Performances en code — le critère qui départage
Le développement logiciel est le cas d’usage où l’écart est le plus spectaculaire.
SWE-Bench Verified (résolution de bugs réels, le standard du secteur) :
| Modèle | Score |
|---|---|
| Claude Fable 5 | 80,3% |
| Claude Opus 4.8 | 69,2% |
| GPT-5 | 74,9% |
| Mistral Small 4 | ~60% (estimation) |
| GPT-4o | 30,8% |
Vainqueur : Claude Fable 5. Anthropic reprend la couronne à OpenAI sur le code. Le bond par rapport à Opus 4.8 est de +11 points.
FrontierCode (Cognition) — qualité code production, niveau difficile Diamond :
| Modèle | Score |
|---|---|
| Claude Fable 5 | 29,3% |
| Opus 4.8 | 13,4% |
| GPT-5.5 | 5,7% |
Fable 5 fait plus du double d’Opus 4.8 sur les tâches les plus dures. Michael Truell (Cursor) le décrit comme « state of the art sur CursorBench, ouvrant des problèmes long-horizon inaccessibles avant ».
Exemple réel — Stripe : Fable 5 a réalisé une migration de code sur 50 millions de lignes Ruby en un jour — un travail qui aurait pris plus de deux mois à une équipe entière.
2. Raisonnement et mathématiques
AIME 2025 (concours de mathématiques de haut niveau) :
| Modèle | Score |
|---|---|
| GPT-5 | 94,6% (outils désactivés) |
| Claude Fable 5 | ~78% |
| Mistral Small 4 | ~71% |
Vainqueur : GPT-5. OpenAI garde une avance nette sur les mathématiques pures. À 94,6%, GPT-5 frise la perfection.
GPQA (questions niveau doctorat — physique, biologie, chimie) :
| Modèle | Score |
|---|---|
| GPT-5 | 88,4% (89,4% avec réflexion) |
| Claude Fable 5 | ~85% |
| Opus 4.8 | ~80% |
Hebbia Finance Benchmark (raisonnement financier sénior) :
- Claude Fable 5 : score le plus haut de tous les modèles, avec des gains importants sur l’interprétation de graphiques et tableaux.
- IMC (trading) : Fable 5 a réussi les évaluations « presque partout », incluant l’analyse de cause racine et les calculs d’espérance.
3. Vision — la surprise Anthropic
Fable 5 marque un bond spectaculaire en vision. La preuve : Pokémon FireRed.
Là où les modèles précédents (même Opus 4.8) nécessitaient un harnais complexe avec outils supplémentaires pour jouer, Fable 5 a battu le jeu avec un harnais minimal, vision uniquement — sans carte, sans aide à la navigation.
GDP.pdf (analyse de documents visuels sans outils) :
| Modèle | Score |
|---|---|
| Claude Fable 5 | 29,8% |
| GPT-5.5 | 24,9% |
| Opus 4.8 | 22,5% |
Autre exemple bluffant : Fable 5 peut reconstruire le code source d’une application web à partir de captures d’écran.
4. Mémoire et autonomie long-terme
Fable 5 est conçu pour rester concentré sur des millions de tokens et s’améliorer via des notes persistantes.
Slay the Spire (jeu de deck-building, test d’autonomie) :
- Avec mémoire fichier persistante, Fable 5 a progressé 3 fois plus qu’Opus 4.8
- Il a atteint l’acte final 3 fois plus souvent
Recherche scientifique (Mythos 5) :
Matthew Pines, testant la recherche en physique fondamentale, rapporte que Mythos 5 est arrivé « presque au point où GPT-5 se trouvait après 4 jours, en 36 heures ». C’est la promesse d’autonomie qui se concrétise : il reste en tâche plus longtemps et valide son propre travail.
En biologie, Mythos 5 (accès restreint) a accéléré la conception de protéines d’environ 10x, choisissant les sites de liaison, exécutant les outils et récupérant de ses propres échecs sans assistance humaine.
5. Mistral : le rapport qualité-prix imbattable (open source)
Mistral ne joue pas tout à fait dans la même cour de performances brutes, mais dans une autre ligue : celle du prix et de l’open source.
Mistral Small 4 (119B paramètres, MoE — 6B actifs par token) :
- Entrée : 0,15 $/M tokens — soit 10 à 65 fois moins cher que Claude Fable 5 ou GPT-5
- Raisonnement configurable : réglez
reasoning_effortde"none"à"high"selon le besoin - Open source (Apache 2.0) : auto-hébergement possible sur 4x H100
- Contexte 256K tokens
Mistral Large 3 : plus puissant que Small 4, toujours bien moins cher que les concurrents US.
Mistral Small 4 fait 85% du score de GPT-5 sur AIME 2025 (via sa variante Ministral 3 14B) — pour 1/15e du prix. Le ratio performance/coût est inégalé.
6. Tableau récapitulatif
| Critère | 🏆 Gagnant | Pourquoi |
|---|---|---|
| Code (SWE-Bench) | Claude Fable 5 | 80,3% — leader incontesté |
| Mathématiques | GPT-5 | 94,6% sur AIME 2025 |
| Vision | Claude Fable 5 | Reconstruit du code depuis des screenshots |
| Autonomie long-terme | Claude Fable 5 | 3x mieux qu’Opus 4.8 sur tâches longues |
| Rapport qualité/prix | Mistral Small 4 | 10-65x moins cher, open source |
| Open source | Mistral | Apache 2.0, auto-hébergement possible |
7. Recommandations par profil
👨💻 Développeur solo
→ Claude Fable 5 pour le code. Le gain sur les tâches complexes (migration, refacto lourd) justifie le prix.
🏢 Entreprise avec volume
→ GPT-5 pour le quotidien (bien moins cher que Fable 5), Claude Fable 5 réservé aux missions critiques.
🎯 Budget serré / auto-hébergement
→ Mistral Small 4 ou Large 3. Vous perdez 20% de perf max mais économisez 90% du budget, avec zéro dépendance API.
📊 Analyse financière / data
→ Claude Fable 5 surpasse tous les concurrents sur les benchmarks documentaires et tableaux.
Article mis à jour le 4 juillet 2026. Les prix et benchmarks évoluent rapidement — consultez les fiches officielles pour les dernières données.



