Faire tourner un LLM en local : Ollama, LM Studio et mon setup réel sans cloud

En bref : Faire tourner un LLM en local, sans cloud, est devenu réaliste grâce à des outils comme Ollama et LM Studio. L'intérêt principal est la confidentialité : les données sensibles — documents clients, code propriétaire, brouillons — ne quittent jamais la machine. Avec un matériel adapté, les modèles ouverts couvrent de nombreuses tâches du quotidien, même si certains usages les plus exigeants restent encore hors de portée du local.

J'utilise des modèles de langage en local depuis l'arrivée de Llama 2 fin 2023. À l'origine, c'était de la curiosité technique. Aujourd'hui, c'est une partie sérieuse de mon workflow pour tout ce qui touche aux données sensibles : documents clients, brouillons d'articles non publiés, code propriétaire. Voici mon setup réel, ce qui marche et ce qui plafonne encore en mai 2026.

Pourquoi je suis passé au local pour certaines tâches

Envoyer un brief client à ChatGPT, c'est confier des données à un serveur tiers. Pour la majorité de mes tâches, ce n'est pas un problème (je travaille déjà sur des contenus destinés à être publics). Mais pour quatre catégories de tâches, je refuse désormais le cloud :

Brouillons d'articles confidentiels avant publication, surtout sur des sujets exclusifs.
Documents clients sous NDA (contrats, briefs stratégiques, propositions commerciales).
Code propriétaire sur certaines missions où les CGU clients interdisent l'envoi à des services tiers.
Données personnelles sensibles (santé, RH) où la conformité RGPD impose des restrictions strictes.

Pour tout cela, je travaille en local. Pas par paranoïa, par discipline professionnelle.

Mes outils en pratique

Ollama : la base par défaut

Ollama est l'outil le plus simple pour démarrer. Installation en deux minutes, téléchargement d'un modèle en une commande :

``bash ollama run llama3.2 ``

Ollama propose une API locale compatible OpenAI sur le port 11434, ce qui permet de connecter ses modèles à n'importe quelle app qui parle ce protocole. Je l'utilise depuis 2023, c'est mon point d'entrée par défaut.

LM Studio : pour quand je veux une UI

LM Studio propose une interface graphique complète avec catalogue de modèles intégré, chat, et serveur API local. Pratique quand je veux montrer à un client comment ça marche sans passer par le terminal. Les profils utilisateurs et la gestion du contexte sont plus accessibles que sur Ollama.

Jan : l'alternative open source

Jan est une alternative entièrement open source à LM Studio, modulaire, avec une communauté active. Je l'utilise sur ma machine perso quand je veux tout en code source ouvert.

GPT4All : pour les démos rapides

Très grand public, quelques clics et c'est lancé. Bon pour expliquer le concept à quelqu'un qui n'a jamais touché à de l'IA locale. Pas mon outil de travail.

Ma configuration matérielle

Je travaille sur deux machines :

Laptop M2 Pro 16 Go : tourne très bien les modèles 7B-8B en quantification 4 bits. Llama 3.2 8B, Mistral Small, Qwen 2.5 7B fonctionnent en temps réel avec une latence acceptable. Idéal pour le déplacement.
Desktop avec GPU NVIDIA RTX (24 Go VRAM) : fait tourner des modèles 13B-14B à pleine vitesse, et 70B en quantification agressive. C'est ma machine pour les tâches plus exigeantes (raisonnement long, analyse de transcripts complets).

Tailles et matériel typiques :

3B-8B paramètres : laptop moderne avec 16 Go de RAM. Excellent pour rédaction, code simple, FAQ.
13B-22B paramètres : 32 Go de RAM minimum, idéalement avec un GPU (RTX 3080/4070 ou équivalent).
70B paramètres et plus : GPU dédié avec beaucoup de VRAM, ou serveur dédié. Inférence très lente sur CPU pur.

Mes modèles préférés en mai 2026

Usage	Modèle	Taille	Pourquoi
Rédaction FR/EN	Llama 3.2 8B	8B	Bon ratio qualité/RAM
Code	Qwen 2.5 Coder	7B / 14B	Excellent sur Python, TS, Rust
Raisonnement	Mistral Small 22B	22B	Synthèses longues, raisonnement multi-étape
Multilingue	Qwen 2.5 7B	7B	Très bon en français et anglais
Vision	Llama 3.2 Vision	11B	OCR et analyse d'images en local

Pour Mistral AI, j'ai aussi un retour détaillé sur leur écosystème cloud, mais leurs modèles ouverts (Mistral Small, Mixtral) tournent très bien en local.

Pour quels usages je sors le cloud

Il faut être honnête : un Llama 8B local reste en dessous de GPT-4o ou Claude Sonnet sur les tâches très complexes. Concrètement :

Là où le local suffit : reformulation, structuration de notes, génération de boilerplate, FAQ interne, extraction d'entités sur du texte court, code simple, traduction.

Là où je sors le cloud : raisonnement multi-étape complexe, génération longue cohérente sur plus de 4000-8000 tokens, analyse d'arguments juridiques fins, code avec contexte projet large, génération créative qui demande de la finesse.

Sur les six derniers mois, j'estime que 60 % de mes tâches IA passent en local et 40 % nécessitent un modèle cloud frontière.

Les limites pratiques du local

Mises à jour manuelles. C'est à vous de suivre les nouvelles versions de modèles et de les télécharger. Ollama et LM Studio facilitent la chose, mais il n'y a pas d'amélioration "transparente" comme sur ChatGPT.

Pas de navigation web native. Les modèles locaux ne vont pas chercher d'info sur internet. Pour combler ça, j'ai des scripts qui pré-fetchent des contenus et les injectent dans le contexte, mais c'est du bricolage par rapport à ChatGPT avec recherche intégrée.

Pas de plugins natifs. Pas d'outil DALL-E intégré, pas de calculatrice, pas d'interpréteur Python — sauf si vous les ajoutez vous-même via une couche d'orchestration (LangChain, LlamaIndex).

Maintenance. Sur les versions plus récentes de drivers, j'ai eu des conflits NVIDIA/CUDA qu'il a fallu déboguer. C'est rarissime, mais ça existe.

Pour qui c'est pertinent

Professions à secret pro : médecins, avocats, comptables, conseils en stratégie. La conformité avec les obligations déontologiques exige souvent que les données ne quittent pas l'infrastructure du cabinet.
Développeurs sur code propriétaire où les CGU clients interdisent l'envoi à des services cloud.
Entreprises sous contraintes réglementaires (santé, finance, défense).
Particuliers vigilants sur leur vie privée et qui veulent une IA "sans acces" sur la durée.

Pour les usages cloud avec protection des données, ma checklist RGPD couvre les questions à poser aux éditeurs SaaS.

Mon arbitrage de fin

Le local n'est pas "mieux" ou "moins bien" que le cloud — c'est un outil avec un profil différent. Confidentialité élevée, conditions récurrent nul, qualité en dessous des modèles frontière. Sur ma stack, c'est un complément essentiel, pas un remplacement.

Pour explorer des alternatives accessible ou à faible conditions côté cloud, mon retour sur les meilleurs outils IA accessible 2026.

En bref : Faire tourner un LLM en local, sans cloud, est devenu réaliste grâce à des outils comme Ollama et LM Studio. L'intérêt principal est la confidentialité : les données sensibles — documents clients, code propriétaire, brouillons — ne quittent jamais la machine. Avec un matériel adapté, les modèles ouverts couvrent de nombreuses tâches du quotidien, même si certains usages les plus exigeants restent encore hors de portée du local.

Pourquoi je suis passé au local pour certaines tâches

Brouillons d'articles confidentiels avant publication, surtout sur des sujets exclusifs.
Documents clients sous NDA (contrats, briefs stratégiques, propositions commerciales).
Code propriétaire sur certaines missions où les CGU clients interdisent l'envoi à des services tiers.
Données personnelles sensibles (santé, RH) où la conformité RGPD impose des restrictions strictes.

Pour tout cela, je travaille en local. Pas par paranoïa, par discipline professionnelle.

Mes outils en pratique

Ollama : la base par défaut

Ollama est l'outil le plus simple pour démarrer. Installation en deux minutes, téléchargement d'un modèle en une commande :

``bash ollama run llama3.2 ``

LM Studio : pour quand je veux une UI

Jan : l'alternative open source

Jan est une alternative entièrement open source à LM Studio, modulaire, avec une communauté active. Je l'utilise sur ma machine perso quand je veux tout en code source ouvert.

GPT4All : pour les démos rapides

Très grand public, quelques clics et c'est lancé. Bon pour expliquer le concept à quelqu'un qui n'a jamais touché à de l'IA locale. Pas mon outil de travail.

Ma configuration matérielle

Je travaille sur deux machines :

Laptop M2 Pro 16 Go : tourne très bien les modèles 7B-8B en quantification 4 bits. Llama 3.2 8B, Mistral Small, Qwen 2.5 7B fonctionnent en temps réel avec une latence acceptable. Idéal pour le déplacement.
Desktop avec GPU NVIDIA RTX (24 Go VRAM) : fait tourner des modèles 13B-14B à pleine vitesse, et 70B en quantification agressive. C'est ma machine pour les tâches plus exigeantes (raisonnement long, analyse de transcripts complets).

Tailles et matériel typiques :

3B-8B paramètres : laptop moderne avec 16 Go de RAM. Excellent pour rédaction, code simple, FAQ.
13B-22B paramètres : 32 Go de RAM minimum, idéalement avec un GPU (RTX 3080/4070 ou équivalent).
70B paramètres et plus : GPU dédié avec beaucoup de VRAM, ou serveur dédié. Inférence très lente sur CPU pur.

Mes modèles préférés en mai 2026

Usage	Modèle	Taille	Pourquoi
Rédaction FR/EN	Llama 3.2 8B	8B	Bon ratio qualité/RAM
Code	Qwen 2.5 Coder	7B / 14B	Excellent sur Python, TS, Rust
Raisonnement	Mistral Small 22B	22B	Synthèses longues, raisonnement multi-étape
Multilingue	Qwen 2.5 7B	7B	Très bon en français et anglais
Vision	Llama 3.2 Vision	11B	OCR et analyse d'images en local

Pour Mistral AI, j'ai aussi un retour détaillé sur leur écosystème cloud, mais leurs modèles ouverts (Mistral Small, Mixtral) tournent très bien en local.

Pour quels usages je sors le cloud

Il faut être honnête : un Llama 8B local reste en dessous de GPT-4o ou Claude Sonnet sur les tâches très complexes. Concrètement :

Là où le local suffit : reformulation, structuration de notes, génération de boilerplate, FAQ interne, extraction d'entités sur du texte court, code simple, traduction.

Sur les six derniers mois, j'estime que 60 % de mes tâches IA passent en local et 40 % nécessitent un modèle cloud frontière.

Les limites pratiques du local

Maintenance. Sur les versions plus récentes de drivers, j'ai eu des conflits NVIDIA/CUDA qu'il a fallu déboguer. C'est rarissime, mais ça existe.

Pour qui c'est pertinent

Professions à secret pro : médecins, avocats, comptables, conseils en stratégie. La conformité avec les obligations déontologiques exige souvent que les données ne quittent pas l'infrastructure du cabinet.
Développeurs sur code propriétaire où les CGU clients interdisent l'envoi à des services cloud.
Entreprises sous contraintes réglementaires (santé, finance, défense).
Particuliers vigilants sur leur vie privée et qui veulent une IA "sans acces" sur la durée.

Pour les usages cloud avec protection des données, ma checklist RGPD couvre les questions à poser aux éditeurs SaaS.

Mon arbitrage de fin

Pour explorer des alternatives accessible ou à faible conditions côté cloud, mon retour sur les meilleurs outils IA accessible 2026.

Pourquoi je suis passé au local pour certaines tâches

Mes outils en pratique

Ollama : la base par défaut

LM Studio : pour quand je veux une UI

Jan : l'alternative open source

GPT4All : pour les démos rapides

Ma configuration matérielle

Mes modèles préférés en mai 2026

Pour quels usages je sors le cloud

Les limites pratiques du local

Pour qui c'est pertinent

Mon arbitrage de fin

Pour approfondir ce sujet

Comparer les outils IA

Trust Ranking

Comprendre les LLM

Copilot vs ChatGPT

Sources officielles et méthode

Articles similaires

Microsoft Copilot : mon retour après huit mois de déploiement en ETI

J'ai utilisé l'IA pour rédiger 40 CV et lettres de motivation : ce qui marche vraiment

IA open source : les modèles que j'utilise vraiment en alternatives à ChatGPT

Pourquoi je suis passé au local pour certaines tâches

Mes outils en pratique

Ollama : la base par défaut

LM Studio : pour quand je veux une UI

Jan : l'alternative open source

GPT4All : pour les démos rapides

Ma configuration matérielle

Mes modèles préférés en mai 2026

Pour quels usages je sors le cloud

Les limites pratiques du local

Pour qui c'est pertinent

Mon arbitrage de fin

Pour approfondir ce sujet

Comparer les outils IA

Trust Ranking

Comprendre les LLM

Copilot vs ChatGPT

Sources officielles et méthode

Articles similaires

Microsoft Copilot : mon retour après huit mois de déploiement en ETI

J'ai utilisé l'IA pour rédiger 40 CV et lettres de motivation : ce qui marche vraiment

IA open source : les modèles que j'utilise vraiment en alternatives à ChatGPT