ObsiSceptique, le coffre Obsidian pour la zététique que j’ai présenté dans un précédent article, est orchestré par Hermes Agent. Après les tests de Baguettotron, j’ai mis en place une architecture de modèles LLM à trois niveaux pour équilibrer coût et disponibilité.
Le routage à 3 niveaux
Plutôt que de tout faire passer par une API payante (DeepSeek), Hermes répartit automatiquement les tâches selon leur complexité :
| Niveau | Modèle | Usage | Coût |
|---|---|---|---|
| 🧠 Principal | DeepSeek V4 Flash | Fact-checking, raisonnement, rédaction | Payant (à la token) |
| ⚙️ Sous-tâches | Ollama qwen2.5:1.5b (local) | Résumés, recherche, extraction | Gratuit (CPU) |
| 🔄 Secours | Ollama qwen2.5:1.5b (local) | Si DeepSeek est indisponible | Gratuit (CPU) |
Les tâches simples (lire un fichier, résumer un article, chercher une information dans le vault) sont automatiquement routées vers Ollama, un modèle léger qui tourne sur le CPU du VPS. DeepSeek reste pour ce qui demande de la puissance : analyse critique, vérification de sources, rédaction d’articles.
Installation : Ollama sur le VPS
Ollama s’installe en une ligne :
curl -fsSL https://ollama.com/install.sh | sh
Puis on télécharge un modèle léger :
ollama pull qwen2.5:1.5b
Le modèle fait environ 1 Go sur le disque et consomme ~1,1 Go de RAM quand il est actif. L’avantage, c’est qu’Ollama le décharge automatiquement après 5 minutes sans sollicitation : la RAM est libérée jusqu’à la prochaine utilisation. En pratique, le surcoût RAM n’est visible que pendant les brèves périodes où le fallback est sollicité.
Configuration Hermes Agent
Dans ~/.hermes/config.yaml, trois sections suffisent :
Fallback (quand DeepSeek est HS)
fallback_model:
provider: ollama
model: qwen2.5:1.5b
base_url: http://127.0.0.1:11434/v1
Délégation (sous-tâches vers Ollama)
delegation:
provider: ollama
model: qwen2.5:1.5b
base_url: http://127.0.0.1:11434/v1
La bascule est transparente : je n’ai pas à choisir manuellement. Hermes évalue la complexité et route vers le bon modèle. Si DeepSeek est en panne, le fallback prend le relais automatiquement.
Et le VPS dans tout ça ?
Le VPS Hetzner (CPX22, 2 cœurs AMD EPYC, 3,7 Go RAM, 75 Go disque) tient le coup :
- RAM : ~2,5 Go pour Hermes + Docker + Syncthing en permanence. Ollama ajoute 1,1 Go quand il est actif, mais se décharge tout seul.
- CPU : le modèle 1,5B tourne à ~10-15 tok/s sur CPU. Pas rapide, mais suffisant pour des résumés.
- Disque : il reste 23 Go libres — de quoi voir venir.
C’est un équilibre : pas de GPU, pas de dépendance externe, zéro coût d’API pour les tâches simples. Si la RAM devient trop juste, je passerai sur qwen2.5:0.5b (350 Mo au lieu de 1,1 Go).
Documentation complète de l’installation disponible dans le wiki du dépôt ObsiSceptique.