On a tous fait la même chose. On a branché notre workflow sur une API cloud, payé par token, et dit à voix haute que “de toute façon, le local c’est pas encore prêt”. C’était vrai en 2023. En 2026, c’est une excuse.
Un agent IA local, c’est un agent qui tourne sur ta propre machine, aucune requête ne quitte ton réseau, aucun coût récurrent, aucune dépendance à la disponibilité d’un serveur tiers. Hermes, développé par Nous Research, est aujourd’hui l’incarnation la plus aboutie de ce concept : un agent fiable, à mémoire persistante, qui s’auto-améliore session après session. Et il tourne sur un PC RTX grand public.
L’avis de la rédac’
Hermes n’est pas un outil de plus. C’est le premier agent IA local qui tient ses promesses sur la durée : open-source, agnostique, optimisé pour le matériel grand public, avec une architecture de mémoire qui résiste à un usage réel. Le duo Qwen 3.6 + RTX matérialise enfin ce que “IA embarquée fiable” voulait dire en théorie depuis des années. Ce qui manque encore, ce sont des retours terrain sur 6 à 12 mois d’utilisation continue, avec des agents exposés à des volumes de production réels. C’est là, et seulement là, que la promesse de l’auto-amélioration se confirmera ou s’effondrera.

Ce que “agent IA local” veut dire concrètement
Un agent IA local n’est pas un chatbot hors-ligne. C’est un système autonome qui reçoit un objectif, agit, évalue ses résultats, et adapte son comportement sans intervention humaine à chaque étape. La différence avec un simple LLM en local ? L’agent a une mémoire, des outils, et une capacité à chaîner des actions complexes.
Hermes porte cette définition à son niveau le plus mature : il mémorise tes préférences et ton contexte de travail entre deux sessions, génère des skills réutilisables à chaque tâche accomplie, et s’améliore de façon cumulative. Ce n’est pas de la magie, c’est une architecture bien pensée, agnostique au modèle et au provider, conçue pour tourner en continu.
Pourquoi maintenant et pas dans six mois
J’ai attendu. Trois mois, début 2025, à me dire que “le bon modèle arriverait bientôt”. Pendant ce temps, Hermes franchissait les 140 000 étoiles GitHub en moins de trois mois. La leçon : en IA locale, la fenêtre d’utilité s’est ouverte bien avant que la majorité des gens ne le remarque.
Le catalyseur technique s’appelle Qwen 3.6. Ce modèle open-weight à 27B et 35B paramètres, sorti en avril 2026, surpasse les générations précédentes à 120B et 400B paramètres. La course au gigantisme est terminée, la densité de performance par milliard de paramètres a gagné, et ça rend l’agent IA local viable sur du matériel grand public.
Installer Hermes sur un PC RTX : le guide sans fioriture
Cinq minutes. C’est le temps réel, pas le temps marketing. Si tu passes plus longtemps, tu as sur-compliqué quelque chose.
Sur Linux ou macOS, une seule commande lance l’installation :
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.bashrc
hermesSur Windows, la voie la plus stable passe par WSL2 couplé à LM Studio. C’est la configuration testée aussi bien sur RTX NVIDIA que sur les dernières puces AMD Ryzen AI Max. Une fois lancé, hermes setup détecte automatiquement ta configuration et propose un assistant de démarrage.
Le seul choix qui compte vraiment au setup : le modèle. Qwen 3.6 à 27B tourne correctement sur une RTX 4090 ou équivalent. En dessous de 16 Go de VRAM, descends à 14B, la qualité de raisonnement tient encore. Un 70B sur une 3080, c’est la recette pour passer ses soirées à contempler un spinner de chargement.
Deuxième décision stratégique : exécuter les outils en environnement sandboxé (sécurité) ou non sandboxé (performance). Hermes te laisse choisir explicitement, une honnêteté rare dans l’écosystème agent.
L’auto-amélioration : ce qu’on ne te dit pas
Chaque tâche complexe ou retour utilisateur génère une nouvelle skill sauvegardée. L’agent ne repart pas de zéro à chaque session, il capitalise, comme un collaborateur qui accumule de l’expérience sans que tu aies à le reformer. Sur deux ans d’utilisation intensive, un agent auto-améliorant peut être cinq fois plus efficace que sa version initiale.
Maintenant, ce qu’on omet dans les annonces. Le catastrophic forgetting est réel : un agent qui acquiert de nouvelles compétences peut en perdre d’anciennes si l’architecture mémoire est mal conçue. Hermes l’adresse via une recherche FTS5 avec résumé LLM, une solution technique sérieuse. Autre limite souvent ignorée : les premières semaines sont décevantes. L’agent a besoin de volume d’interactions pour vraiment apprendre. Si tu l’allumes deux fois par mois, il ne s’améliorera pas.
Et la convergence prématurée ? Un agent peut s’optimiser vers un optimum local et stagner. Il faut parfois l’exposer délibérément à des tâches nouvelles pour relancer la progression. L’auto-amélioration n’est pas autonome au sens absolu, elle est exigeante, et demande une utilisation régulière.
DGX Spark ou RTX classique : trancher franchement
Le DGX Spark embarque 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Il fait tourner des modèles MoE à 120B en continu, c’est la solution pour des workloads professionnels intensifs, des agents qui tournent 24h/24, des pipelines de traitement lourds. Le support HP ZGX Nano, basé sur la plateforme DGX Spark, confirme que l’écosystème enterprise commence à se structurer autour d’Hermes.
Pour 95% des lecteurs de cet article : un RTX grand public avec Qwen 3.6 à 27B suffit largement. Le DGX Spark, c’est un investissement infrastructure, le RTX, c’est le point d’entrée accessible dès aujourd’hui.
La vraie question n’est pas “est-ce que Hermes est prêt”. Elle est : est-ce que toi, tu l’es ?



