Faire tourner un LLM en local : Ollama, LM Studio et mon setup réel sans cloud
J'utilise des modèles locaux pour les données sensibles depuis 2023. Voici la config matérielle, les outils, les modèles qui marchent vraiment et ce qui reste hors de portée.
En bref : Faire tourner un LLM en local, sans cloud, est devenu réaliste grâce à des outils comme Ollama et LM Studio. L'intérêt principal est la confidentialité : les données sensibles — documents clients, code propriétaire, brouillons — ne quittent jamais la machine. Avec un matériel adapté, les modèles ouverts couvrent de nombreuses tâches du quotidien, même si certains usages les plus exigeants restent encore hors de portée du local.
J'utilise des modèles de langage en local depuis l'arrivée de Llama 2 fin 2023. À l'origine, c'était de la curiosité technique. Aujourd'hui, c'est une partie sérieuse de mon workflow pour tout ce qui touche aux données sensibles : documents clients, brouillons d'articles non publiés, code propriétaire. Voici mon setup réel, ce qui marche et ce qui plafonne encore en mai 2026.
Pourquoi je suis passé au local pour certaines tâches
Envoyer un brief client à ChatGPT, c'est confier des données à un serveur tiers. Pour la majorité de mes tâches, ce n'est pas un problème (je travaille déjà sur des contenus destinés à être publics). Mais pour quatre catégories de tâches, je refuse désormais le cloud :
- Brouillons d'articles confidentiels avant publication, surtout sur des sujets exclusifs.
- Documents clients sous NDA (contrats, briefs stratégiques, propositions commerciales).
- Code propriétaire sur certaines missions où les CGU clients interdisent l'envoi à des services tiers.
- Données personnelles sensibles (santé, RH) où la conformité RGPD impose des restrictions strictes.
Pour tout cela, je travaille en local. Pas par paranoïa, par discipline professionnelle.
Mes outils en pratique
Ollama : la base par défaut
Ollama est l'outil le plus simple pour démarrer. Installation en deux minutes, téléchargement d'un modèle en une commande :
``bash ollama run llama3.2 ``
Ollama propose une API locale compatible OpenAI sur le port 11434, ce qui permet de connecter ses modèles à n'importe quelle app qui parle ce protocole. Je l'utilise depuis 2023, c'est mon point d'entrée par défaut.
LM Studio : pour quand je veux une UI
LM Studio propose une interface graphique complète avec catalogue de modèles intégré, chat, et serveur API local. Pratique quand je veux montrer à un client comment ça marche sans passer par le terminal. Les profils utilisateurs et la gestion du contexte sont plus accessibles que sur Ollama.
Jan : l'alternative open source
Jan est une alternative entièrement open source à LM Studio, modulaire, avec une communauté active. Je l'utilise sur ma machine perso quand je veux tout en code source ouvert.
GPT4All : pour les démos rapides
Très grand public, quelques clics et c'est lancé. Bon pour expliquer le concept à quelqu'un qui n'a jamais touché à de l'IA locale. Pas mon outil de travail.
Ma configuration matérielle
Je travaille sur deux machines :
- Laptop M2 Pro 16 Go : tourne très bien les modèles 7B-8B en quantification 4 bits. Llama 3.2 8B, Mistral Small, Qwen 2.5 7B fonctionnent en temps réel avec une latence acceptable. Idéal pour le déplacement.
- Desktop avec GPU NVIDIA RTX (24 Go VRAM) : fait tourner des modèles 13B-14B à pleine vitesse, et 70B en quantification agressive. C'est ma machine pour les tâches plus exigeantes (raisonnement long, analyse de transcripts complets).
Tailles et matériel typiques :
- 3B-8B paramètres : laptop moderne avec 16 Go de RAM. Excellent pour rédaction, code simple, FAQ.
- 13B-22B paramètres : 32 Go de RAM minimum, idéalement avec un GPU (RTX 3080/4070 ou équivalent).
- 70B paramètres et plus : GPU dédié avec beaucoup de VRAM, ou serveur dédié. Inférence très lente sur CPU pur.
Mes modèles préférés en mai 2026
| Usage | Modèle | Taille | Pourquoi |
|---|---|---|---|
| Rédaction FR/EN | Llama 3.2 8B | 8B | Bon ratio qualité/RAM |
| Code | Qwen 2.5 Coder | 7B / 14B | Excellent sur Python, TS, Rust |
| Raisonnement | Mistral Small 22B | 22B | Synthèses longues, raisonnement multi-étape |
| Multilingue | Qwen 2.5 7B | 7B | Très bon en français et anglais |
| Vision | Llama 3.2 Vision | 11B | OCR et analyse d'images en local |
Pour Mistral AI, j'ai aussi un retour détaillé sur leur écosystème cloud, mais leurs modèles ouverts (Mistral Small, Mixtral) tournent très bien en local.
Pour quels usages je sors le cloud
Il faut être honnête : un Llama 8B local reste en dessous de GPT-4o ou Claude Sonnet sur les tâches très complexes. Concrètement :
Là où le local suffit : reformulation, structuration de notes, génération de boilerplate, FAQ interne, extraction d'entités sur du texte court, code simple, traduction.
Là où je sors le cloud : raisonnement multi-étape complexe, génération longue cohérente sur plus de 4000-8000 tokens, analyse d'arguments juridiques fins, code avec contexte projet large, génération créative qui demande de la finesse.
Sur les six derniers mois, j'estime que 60 % de mes tâches IA passent en local et 40 % nécessitent un modèle cloud frontière.
Les limites pratiques du local
Mises à jour manuelles. C'est à vous de suivre les nouvelles versions de modèles et de les télécharger. Ollama et LM Studio facilitent la chose, mais il n'y a pas d'amélioration "transparente" comme sur ChatGPT.
Pas de navigation web native. Les modèles locaux ne vont pas chercher d'info sur internet. Pour combler ça, j'ai des scripts qui pré-fetchent des contenus et les injectent dans le contexte, mais c'est du bricolage par rapport à ChatGPT avec recherche intégrée.
Pas de plugins natifs. Pas d'outil DALL-E intégré, pas de calculatrice, pas d'interpréteur Python — sauf si vous les ajoutez vous-même via une couche d'orchestration (LangChain, LlamaIndex).
Maintenance. Sur les versions plus récentes de drivers, j'ai eu des conflits NVIDIA/CUDA qu'il a fallu déboguer. C'est rarissime, mais ça existe.
Pour qui c'est pertinent
- Professions à secret pro : médecins, avocats, comptables, conseils en stratégie. La conformité avec les obligations déontologiques exige souvent que les données ne quittent pas l'infrastructure du cabinet.
- Développeurs sur code propriétaire où les CGU clients interdisent l'envoi à des services cloud.
- Entreprises sous contraintes réglementaires (santé, finance, défense).
- Particuliers vigilants sur leur vie privée et qui veulent une IA "sans acces" sur la durée.
Pour les usages cloud avec protection des données, ma checklist RGPD couvre les questions à poser aux éditeurs SaaS.
Mon arbitrage de fin
Le local n'est pas "mieux" ou "moins bien" que le cloud — c'est un outil avec un profil différent. Confidentialité élevée, conditions récurrent nul, qualité en dessous des modèles frontière. Sur ma stack, c'est un complément essentiel, pas un remplacement.
Pour explorer des alternatives accessible ou à faible conditions côté cloud, mon retour sur les meilleurs outils IA accessible 2026.
Pour approfondir ce sujet
Comparer les outils IA
Comparer les outils par usage, catégorie et critères de confiance.
Trust Ranking
Voir les signaux de fiabilité, transparence et maturité produit.
Comprendre les LLM
Définition, limites, prompts, contexte et critères de choix d'un modèle.
Copilot vs ChatGPT
Comparer assistant généraliste, intégration bureautique et usage professionnel.
Sources officielles et méthode
Trust-Vault croise les usages terrain avec des sources institutionnelles pour renforcer la vérification, la conformité et la lisibilité des comparatifs.
- Google Search Central - helpful content - Google. Repères officiels sur le contenu utile, fiable et rédigé pour les lecteurs.
- Google Search Central - structured data - Google. Documentation officielle pour comprendre les données structurées reconnues par Google Search.
- The /llms.txt file - llmstxt.org. Proposition publique de format Markdown pour aider les moteurs IA à comprendre un site.
- AI Act policy overview - European Commission. Présentation officielle du cadre européen pour une IA sûre et centrée sur l'humain.
Laurent Duplat
Directeur de la publication — Trust-Vault