Infrastructure Hermes — routage LLM à 3 niveaux et modèle local gratuit

Rédaction assistée par IA Rédaction assistée par IA

ObsiSceptique, le coffre Obsidian pour la zététique que j’ai présenté dans un précédent article, est orchestré par Hermes Agent. Après les tests de Baguettotron, j’ai mis en place une architecture de modèles LLM à trois niveaux pour équilibrer coût et disponibilité.


Le routage à 3 niveaux

Plutôt que de tout faire passer par une API payante (DeepSeek), Hermes répartit automatiquement les tâches selon leur complexité :

Niveau Modèle Usage Coût
🧠 Principal DeepSeek V4 Flash Fact-checking, raisonnement, rédaction Payant (à la token)
⚙️ Sous-tâches Ollama qwen2.5:1.5b (local) Résumés, recherche, extraction Gratuit (CPU)
🔄 Secours Ollama qwen2.5:1.5b (local) Si DeepSeek est indisponible Gratuit (CPU)

Les tâches simples (lire un fichier, résumer un article, chercher une information dans le vault) sont automatiquement routées vers Ollama, un modèle léger qui tourne sur le CPU du VPS. DeepSeek reste pour ce qui demande de la puissance : analyse critique, vérification de sources, rédaction d’articles.


Installation : Ollama sur le VPS

Ollama s’installe en une ligne :

curl -fsSL https://ollama.com/install.sh | sh

Puis on télécharge un modèle léger :

ollama pull qwen2.5:1.5b

Le modèle fait environ 1 Go sur le disque et consomme ~1,1 Go de RAM quand il est actif. L’avantage, c’est qu’Ollama le décharge automatiquement après 5 minutes sans sollicitation : la RAM est libérée jusqu’à la prochaine utilisation. En pratique, le surcoût RAM n’est visible que pendant les brèves périodes où le fallback est sollicité.


Configuration Hermes Agent

Dans ~/.hermes/config.yaml, trois sections suffisent :

Fallback (quand DeepSeek est HS)

fallback_model:
  provider: ollama
  model: qwen2.5:1.5b
  base_url: http://127.0.0.1:11434/v1

Délégation (sous-tâches vers Ollama)

delegation:
  provider: ollama
  model: qwen2.5:1.5b
  base_url: http://127.0.0.1:11434/v1

La bascule est transparente : je n’ai pas à choisir manuellement. Hermes évalue la complexité et route vers le bon modèle. Si DeepSeek est en panne, le fallback prend le relais automatiquement.


Et le VPS dans tout ça ?

Le VPS Hetzner (CPX22, 2 cœurs AMD EPYC, 3,7 Go RAM, 75 Go disque) tient le coup :

  • RAM : ~2,5 Go pour Hermes + Docker + Syncthing en permanence. Ollama ajoute 1,1 Go quand il est actif, mais se décharge tout seul.
  • CPU : le modèle 1,5B tourne à ~10-15 tok/s sur CPU. Pas rapide, mais suffisant pour des résumés.
  • Disque : il reste 23 Go libres — de quoi voir venir.

C’est un équilibre : pas de GPU, pas de dépendance externe, zéro coût d’API pour les tâches simples. Si la RAM devient trop juste, je passerai sur qwen2.5:0.5b (350 Mo au lieu de 1,1 Go).


Documentation complète de l’installation disponible dans le wiki du dépôt ObsiSceptique.

Laisser un commentaire

To respond on your own website, enter the URL of your response which should contain a link to this post's permalink URL. Your response will then appear (possibly after moderation) on this page. Want to update or remove your response? Update or delete your post and re-enter your post's URL again. (Find out more about Webmentions.)