Ollama
Ollama : comment exécuter des modèles IA en local sur votre machine (guide 2026)
Ollama permet de télécharger et exécuter des LLM (Llama 3, Mistral, Gemma, Qwen) directement sur votre ordinateur, sans cloud, sans abonnement. Guide d'installation complet.
Laurent Duplat2026-06-025 min read
> **En bref :** Ollama est un outil open source qui permet d'exécuter des grands modèles de langage (LLM) directement sur votre machine, sans envoyer vos données sur le cloud. En 2026, il supporte plus de 100 modèles dont Llama 3, Mistral, Gemma, Qwen et DeepSeek. Installation en 5 minutes, API compatible OpenAI, gratuit.
J'utilise Ollama depuis sa sortie en 2023. En 2026, c'est devenu l'outil de référence pour quiconque veut de l'IA sans dépendance cloud. Voici tout ce que vous devez savoir pour démarrer.
## Pourquoi exécuter un LLM en local ?
Trois raisons principales poussent les développeurs et professionnels vers l'IA locale :
**Confidentialité** : vos données ne quittent pas votre machine. Pour les documents sensibles — contrats, données clients, code propriétaire — c'est non-négociable dans beaucoup d'organisations.
**Coût** : une fois le modèle téléchargé, chaque requête est gratuite. Pour un usage intensif (génération de contenu en masse, traitement de documents, scripts automatisés), l'économie est significative.
**Disponibilité** : pas de panne de service, pas de limite de débit, pas de liste d'attente. Le modèle tourne 24h/24 sur votre matériel.
La contrepartie : la qualité des modèles locaux reste inférieure à GPT-4o ou Claude Opus sur les tâches complexes. Mais pour un usage courant, la différence se réduit chaque mois.
## Configuration matérielle nécessaire
Ollama exploite votre GPU (si vous en avez un) pour accélérer l'inférence. La RAM VRAM détermine quels modèles vous pouvez faire tourner :
| VRAM disponible | Modèles accessibles | Exemples |
|-----------------|---------------------|---------|
| 4 GB | Modèles 3B-7B quantisés | Llama 3.2 3B, Gemma 2B |
| 8 GB | Modèles 7B-13B | Llama 3 8B, Mistral 7B |
| 16 GB | Modèles 13B-34B | Llama 3 70B quantisé |
| 24 GB+ | Modèles 70B | Llama 3 70B, Qwen 72B |
| CPU uniquement | Modèles légers (lent) | Phi-3 Mini, Gemma 2B |
**Sans GPU** : Ollama fonctionne en mode CPU. C'est utilisable pour des tests, mais trop lent pour un usage production (10-30 tokens/seconde contre 60-100 tokens/seconde avec un GPU).
## Installation
### macOS
```bash
brew install ollama
```
Ou téléchargez l'application depuis [ollama.com](https://ollama.com).
### Linux
```bash
curl -fsSL https://ollama.com/install.sh | sh
```
### Windows
Téléchargez l'installateur depuis [ollama.com](https://ollama.com). L'installation est graphique, comme n'importe quelle application Windows.
### Vérifier l'installation
```bash
ollama --version
```
## Télécharger et lancer un modèle
### La commande de base
```bash
ollama run llama3.2
```
Ollama télécharge le modèle (si absent) et ouvre un chat interactif directement dans le terminal. Premier lancement : comptez 5-15 minutes de téléchargement selon le modèle et votre connexion.
### Les modèles les plus populaires en 2026
```bash
# Llama 3.2 (Meta) — excellent équilibre qualité/taille
ollama run llama3.2
ollama run llama3.2:3b # version légère
ollama run llama3.3:70b # version puissante (nécessite 40+ GB RAM)
# Mistral (Européen, fort en français)
ollama run mistral
ollama run mistral-nemo # 12B, bon compromis
# Google Gemma
ollama run gemma2
ollama run gemma2:27b
# Qwen (Alibaba, très fort en code et en chinois)
ollama run qwen2.5
ollama run qwen2.5-coder:7b # spécialisé code
# DeepSeek (excellent en code et raisonnement)
ollama run deepseek-r1:7b
ollama run deepseek-coder-v2
# Phi (Microsoft, très léger)
ollama run phi4
```
### Lister les modèles installés
```bash
ollama list
```
### Supprimer un modèle
```bash
ollama rm llama3.2
```
## L'API locale : le vrai potentiel d'Ollama
Ollama expose une API REST sur `http://localhost:11434`. C'est ce qui le rend vraiment utile dans des workflows.
### API native Ollama
```bash
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "Explique le machine learning en 3 phrases."}],
"stream": false
}'
```
### API compatible OpenAI
Ollama expose aussi une API compatible avec le format OpenAI sur `/v1/chat/completions`. Cela signifie que **n'importe quel outil qui accepte un `base_url`** peut utiliser Ollama à la place d'OpenAI :
```python
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # n'importe quelle valeur
)
response = client.chat.completions.create(
model="llama3.2",
messages=[{"role": "user", "content": "Traduis ce texte en espagnol."}]
)
print(response.choices[0].message.content)
```
C'est exactement le même code qu'avec l'API OpenAI, en changeant juste le `base_url`. Tous vos scripts existants fonctionnent sans modification.
## Utiliser Ollama avec une interface graphique
Pour ceux qui préfèrent éviter le terminal, plusieurs interfaces s'installent par-dessus Ollama :
**Open WebUI** (anciennement Ollama WebUI) : l'interface la plus complète. Ressemble à ChatGPT, supporte plusieurs modèles, historique de conversations, gestion des fichiers.
```bash
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
```
Accès sur `http://localhost:3000`.
**Msty** : application desktop légère, macOS et Windows, sans Docker.
**Enchanted** : application iOS/macOS native pour utiliser Ollama depuis votre iPhone connecté au même réseau.
## Créer un modèle personnalisé avec Modelfile
Ollama permet de créer des variantes de modèles avec des instructions système fixes. Exemple : un assistant spécialisé pour votre entreprise.
```
# Fichier : Modelfile
FROM llama3.2
SYSTEM """
Tu es un assistant juridique spécialisé dans le droit français des contrats.
Tu réponds toujours en français, de façon structurée et concise.
Tu rappelles systématiquement que tes réponses ne remplacent pas un avis d'avocat.
"""
PARAMETER temperature 0.3
```
Puis :
```bash
ollama create assistant-juridique -f Modelfile
ollama run assistant-juridique
```
## Ollama vs les alternatives
| Outil | Avantage | Inconvénient |
|-------|----------|-------------|
| **Ollama** | Simplicité, large catalogue, API compatible OpenAI | Interface CLI, nécessite du matériel |
| **LM Studio** | Interface graphique native, facile | Moins scriptable |
| **GPT4All** | Interface simple, Windows-friendly | Catalogue plus restreint |
| **Jan.ai** | Open source, multi-OS | Moins mature |
| **llama.cpp** | Contrôle maximal | Complexe à configurer |
Ollama est le meilleur choix pour les développeurs et les power users. LM Studio est plus adapté aux utilisateurs non techniques. Pour un retour d'expérience complet sur l'IA locale avec LM Studio et d'autres configs, voir l'article [faire tourner un LLM en local](/fr/blog/ia-locale-sans-cloud).
## Limites à connaître
**Qualité vs cloud** : Llama 3.3 70B est excellent, mais reste en dessous de GPT-4o ou Claude Opus sur les tâches de raisonnement complexe. Pour la plupart des tâches courantes (résumé, traduction, code Python basique), la différence est négligeable.
**Mémoire context window** : les modèles locaux ont souvent une fenêtre de contexte plus courte que les services cloud. Llama 3.2 supporte jusqu'à 128K tokens, mais en pratique la RAM limite souvent à 8-32K tokens.
**Pas de multimodal par défaut** : les modèles vision (analyse d'images) sont disponibles (LLaVA, Llava-Phi3) mais moins matures que GPT-4o Vision ou Claude Sonnet.
**Mise à jour manuelle** : les modèles ne se mettent pas à jour automatiquement. Vous devez re-télécharger quand une nouvelle version sort.
## Cas d'usage où Ollama brille
- **Traitement de documents confidentiels** : contrats, RH, données clients — rien ne sort de votre réseau
- **Pipeline de génération de contenu** : scripts automatisés qui appellent l'API en boucle, sans coût variable
- **Développement et tests** : tester des prompts sans payer à la requête
- **Intégration d'applications** : base URL compatible OpenAI → drop-in replacement pour vos apps existantes
- **Environnements sans internet** : usines, hôpitaux, secteurs réglementés avec restrictions réseau
## Mon verdict
Ollama a mûri. En 2026, ce n'est plus un outil de geek — c'est une infrastructure solide pour l'IA locale. Si vous avez une machine avec 16 GB de RAM et un GPU correct, vous pouvez faire tourner un modèle capable de gérer 80% des tâches que vous confiez à ChatGPT, gratuitement, localement.
Pour les développeurs, l'API compatible OpenAI est le vrai game-changer : vos outils existants fonctionnent sans modification. Pour les entreprises avec des contraintes de confidentialité, c'est devenu une option sérieuse.
La barrière d'entrée n'a jamais été aussi basse : `ollama run llama3.2` et vous êtes dans le chat en moins de 10 minutes.
**À lire aussi sur trust-vault :**
- [Faire tourner un LLM en local : guide complet](/fr/blog/ia-locale-sans-cloud)
- [Alternatives open source à ChatGPT](/fr/blog/ia-open-source-alternatives)
- [Mistral AI : le guide complet](/fr/blog/mistral-ai-guide-complet)
- [Checklist RGPD pour les outils IA](/fr/blog/rgpd-outils-ia-checklist-conformite)
- [Meilleurs outils IA gratuits 2026](/fr/blog/meilleurs-outils-ia-gratuits-2026)
L
Laurent Duplat
Editor-in-Chief — Trust-Vault