Whisper d'OpenAI : mon retour après deux ans de transcription en local et via l'API
J'utilise Whisper depuis 2023 pour transcrire podcasts, réunions et entretiens. Voici ce qui marche en local, ce qui marche via l'API, et où j'ai vraiment gagné du temps.
En bref : Whisper d'OpenAI est un modèle de transcription speech-to-text sous licence MIT, utilisable en local ou via l'API OpenAI. En local, aucun fichier audio ne part dans le cloud, ce qui est décisif pour les réunions confidentielles et les secteurs réglementés. Il existe en plusieurs tailles, de tiny à large-v3, et se combine avec Faster-Whisper pour la vitesse et WhisperX pour identifier les locuteurs.
J'ai commencé à utiliser Whisper peu après sa publication par OpenAI en septembre 2022. À l'époque, je cherchais à transcrire des entretiens longs pour des articles sans payer un service cloud par heure. Trois ans plus tard, Whisper est devenu une pièce centrale de mon workflow : transcription de podcasts, comptes rendus de réunions client, sous-titrage de vidéos. Voici ce que j'en ai retiré en pratique, plutôt qu'un récapitulatif des spécifications.
Pourquoi Whisper a tout changé pour moi
Whisper est publié sous licence MIT et téléchargeable directement depuis le dépôt GitHub d'OpenAI. Cela signifie qu'on peut le faire tourner sur sa propre machine, sans envoyer un seul fichier audio dans le cloud. Pour quelqu'un qui transcrit des réunions avec des données stratégiques, ou des consultations qui touchent à la confidentialité (avocats, médecins, RH), cette différence est structurante.
Avant Whisper, je payais entre 1 etconditions sur demande transcrite selon le service. Sur 80 heures de transcription par an, le calcul est vite fait. Whisper local m'a payé en électricité ce que je payais en acces.
Les tailles de modèle, en pratique
Whisper se décline en plusieurs tailles. Voici ce que j'utilise selon le contexte :
- tiny et base : je m'en sers pour des notes vocales personnelles ou des transcriptions "pour comprendre" un audio mal enregistré. Très rapide même sur CPU, qualité acceptable mais erreurs sur les noms propres.
- small : mon usage par défaut sur ordinateur sans GPU. Bon ratio qualité/vitesse pour du français standard.
- medium : quand j'ai un GPU disponible. Très bon compromis, suffisant pour la plupart des contenus pro.
- large-v3 : pour mes podcasts publiables et les sous-titres clients. La qualité est nettement au-dessus, surtout sur les noms propres et les passages techniques.
Le passage de large-v2 à large-v3 a été un vrai saut de qualité sur le français, surtout sur les transitions et la ponctuation.
Quand je choisis Whisper local
Je sors la version locale quand :
- Le contenu est confidentiel (réunions de pilotage, briefs stratégiques, entretiens RH).
- Le volume est élevé (un podcast hebdo + plusieurs heures de calls par semaine).
- Je veux pouvoir relancer la transcription plusieurs fois pour comparer des paramètres.
Pour les contraintes RGPD en entreprise, ma checklist conformité liste les questions concrètes à se poser avant de choisir un service cloud par défaut.
Quand je passe par l'API OpenAI
Quand le contenu n'est pas sensible et que je veux aller vite, j'envoie l'audio à l'API Whisper d'OpenAI. C'est plus simple à intégrer dans un script Make ou n8n, ça ne demande pas de GPU local, et l'auto-détection de langue fonctionne très bien.
Limite à connaître : le fichier doit faire moins de 25 Mo. Pour les audios longs, je découpe avec ffmpeg avant envoi.
Mes alternatives quand Whisper ne suffit pas
- Faster-Whisper : implémentation optimisée qui me fait gagner un facteur 3 à 4 sur la vitesse de transcription locale, à qualité équivalente. C'est devenu ma base par défaut pour le batch.
- WhisperX : ajoute la diarisation, c'est-à-dire l'identification des locuteurs. Indispensable pour les podcasts à plusieurs voix ou les réunions où je veux savoir qui dit quoi.
- Deepgram : service cloud, compte requis, mais excellent en streaming temps réel. Je l'utilise quand un client veut une transcription en direct pendant un événement.
- AssemblyAI : service cloud avec extraction d'entités et résumé. Utile quand on enchaîne transcription puis traitement texte dans un seul pipeline.
- Parakeet de NVIDIA : très rapide sur GPU NVIDIA, intéressant pour les volumes massifs.
Ce qui m'a posé problème en pratique
Whisper hallucine parfois sur les silences longs : il invente des phrases plausibles qui n'ont jamais été prononcées. C'est documenté (étude AP/Cornell de 2024), et j'ai vu le phénomène plusieurs fois sur mes propres fichiers. Mon contournement : couper les longs silences en amont avec un seuil de détection de voix (VAD), ou utiliser Faster-Whisper qui propose un mode VAD intégré.
Autre point : sur des accents très marqués ou des bruits de fond importants, large-v3 décroche. Pour les podcasts en extérieur, je nettoie d'abord l'audio avec un débruiteur (Auphonic ou un plugin local) avant de transcrire.
Mon pipeline type
Pour un épisode de podcast d'une heure :
- Nettoyage audio (débruitage, normalisation).
- Transcription Faster-Whisper large-v3 en local (15 à 20 minutes sur ma machine).
- Passage dans Claude pour relire et corriger les noms propres et le jargon spécifique.
- Export en SRT pour le sous-titrage YouTube.
Le gain par rapport à une transcription humaine pure : un facteur 5 sur le temps, pour une qualité finale comparable après relecture.
Ce que j'en pense pour Trust-Vault
Whisper coche les cases que je regarde en priorité : code source ouvert (transparence), possibilité de tourner en full local (vie privée), une communauté active autour de variantes optimisées. C'est rare dans le paysage IA. Pour la synthèse vocale, qui est l'inverse exact de la transcription, mon retour sur ElevenLabs est complémentaire.
Pour ceux qui démarrent et veulent une interface clé en main sans installation, Otter.ai reste un bon point d'entrée — c'est juste un compromis sur la confidentialité que chacun doit faire en connaissance de cause.
Pour approfondir ce sujet
Comparer les outils IA
Comparer les outils par usage, catégorie et critères de confiance.
Trust Ranking
Voir les signaux de fiabilité, transparence et maturité produit.
Comprendre les LLM
Définition, limites, prompts, contexte et critères de choix d'un modèle.
Copilot vs ChatGPT
Comparer assistant généraliste, intégration bureautique et usage professionnel.
Sources officielles et méthode
Trust-Vault croise les usages terrain avec des sources institutionnelles pour renforcer la vérification, la conformité et la lisibilité des comparatifs.
- Google Search Central - helpful content - Google. Repères officiels sur le contenu utile, fiable et rédigé pour les lecteurs.
- Google Search Central - structured data - Google. Documentation officielle pour comprendre les données structurées reconnues par Google Search.
- The /llms.txt file - llmstxt.org. Proposition publique de format Markdown pour aider les moteurs IA à comprendre un site.
- AI Act policy overview - European Commission. Présentation officielle du cadre européen pour une IA sûre et centrée sur l'humain.
Laurent Duplat
Directeur de la publication — Trust-Vault