Créer un podcast avec l'IA en 2026 : mon workflow réel d'enregistrement à la promo
Whisper, Descript, Adobe Podcast, ElevenLabs, Auphonic : voici ce que j'utilise pour produire un épisode hebdomadaire sans y passer toute ma semaine.
En bref : Pour créer un podcast avec l'IA, un workflow réel combine Whisper pour la transcription, Descript et Adobe Podcast pour le montage et le nettoyage audio, ElevenLabs pour la voix et Auphonic pour le mastering. L'IA prend en charge le travail mécanique (montage, show notes, promo), libérant du temps pour la préparation et le montage éditorial fin.
Je produis un podcast hebdomadaire depuis 2023 et j'accompagne deux clients sur leur production audio. Entre 2024 et 2026, l'IA a profondément changé mon workflow : ce qui prenait 8-10 heures par épisode (montage, transcription, show notes, promotion) en prend maintenant 3-4. Voici la stack précise que j'utilise et les arbitrages que j'ai faits sur le terrain.
Mon angle
Un podcast publiable demande encore une vraie discipline éditoriale. L'IA ne fait pas le podcast à ma place — elle me débarrasse de la grande majorité du travail mécanique pour me laisser du temps sur la préparation, l'invité, et le montage éditorial fin. Voici comment chaque outil s'insère dans mon process.
Transcription : la fondation de tout le reste
C'est l'étape qui débloque tout le reste du workflow (show notes, articles dérivés, traduction).
Whisper (OpenAI) est devenu mon outil de référence. Je l'utilise en local via Faster-Whisper sur ma machine pour les épisodes qui contiennent des passages sensibles, et via l'API OpenAI quand je veux aller vite. Sur du français propre, la précision est excellente. Sur 50 épisodes transcrits en 2025, j'ai eu trois cas où Whisper a halluciné un passage sur un silence long — corrigés par un VAD en amont.
Otter.ai : interface clé en main, identification automatique des interlocuteurs (diarisation), collaboration possible. Très bien pour les podcasts à plusieurs voix, à condition d'accepter l'envoi des audios à un service tiers. Pour des contenus sous NDA, je reste sur Whisper local.
Descript : transcription + montage audio sur le texte. C'est probablement l'outil le plus original que j'ai vu apparaître ces deux dernières années pour les podcasters. Supprimer un mot dans la transcription supprime le segment audio correspondant. Pour les épisodes où je veux nettoyer rapidement les "euh" et les hésitations, c'est imbattable.
Montage et nettoyage audio
Descript (suite) : au-delà de la transcription, il supprime automatiquement les "euh", les silences trop longs, les bruits de bouche. La fonction Overdub peut régénérer une phrase dans une voix clonée si on a fait une erreur. Je l'utilise rarement sur ma propre voix (je préfère réenregistrer), mais c'est très utile sur des invités qui ne peuvent pas refaire une prise.
Adobe Podcast Enhance Speech : restauration de qualité audio impressionnante sur des enregistrements en mauvaise condition (téléphone, micro intégré PC, bruit ambiant). Sur les épisodes enregistrés à distance avec un invité au son médiocre, ça transforme le résultat. accessible pour la plupart des usages réguliers.
Auphonic : normalisation, égalisation, réduction de bruit automatique. Mon outil de finition systématique avant publication. Le résultat est compatible avec les standards de diffusion (loudness EBU R128 et équivalents) — important pour ne pas se faire repousser par les plateformes type Spotify, Apple Podcasts, Acast.
Génération du contenu éditorial
C'est là où Claude fait gagner le plus de temps sur ma chaîne.
Show notes et résumés. Je colle la transcription dans Claude et je demande un résumé de 200 mots, les 5 points clés, les citations à retenir, et les timestamps des moments forts. Le rendu nécessite une relecture (l'IA peut mal identifier qui dit quoi), mais le squelette est solide. Gain net : environ 45 minutes par épisode.
Titres et descriptions SEO. "À partir du résumé, propose 5 titres optimisés pour la recherche et 3 descriptions courtes adaptées Spotify, Apple Podcasts, YouTube." Je sélectionne et retouche, mais ça me débloque rapidement le brief des plateformes.
Articles de blog dérivés. Transformer un épisode en article SEO est une excellente façon de recycler du contenu. Je passe la transcription dans Claude avec une consigne claire : "réécris en article structuré H2/H3, ton éditorial proche d'un magazine, 800-1200 mots, en gardant les citations clés." Je relis et restructure, mais la base est posée en 10 minutes au lieu de 2 heures.
Scripts et intros. Si je prépare une intro élaborée, ChatGPT m'aide à structurer en trois temps (accroche, contexte, promesse). Je réécris ensuite à ma voix pour qu'on me reconnaisse.
Voix IA : un usage à doser
ElevenLabs est mon outil pour les jingles, transitions et passages narratifs courts. La qualité de voix française est bonne en 2026, mais sur la durée (plus de 30 secondes), je trouve que ça commence à sonner artificiel.
Je n'utilise jamais une voix IA pour la voix principale d'un épisode signé. Le rapport authenticité / effort ne joue pas en faveur du clonage sur un format conversationnel.
HeyGen, Synthesia : avatars vidéo pour des clips de promotion sur les réseaux sociaux. Je l'ai testé, je ne l'utilise plus — l'effet "avatar IA reconnaissable" abîme la marque personnelle plus qu'il ne sert. Je préfère un audiogram avec waveform animée.
Traduction et portée internationale
DeepL : traduire show notes et descriptions en anglais et espagnol. Sur deux épisodes par mois, j'envoie une version anglaise sur les plateformes — gain de portée mesuré sur 12 mois (+18 % d'écoutes).
Whisper supporte la traduction automatique (audio FR → texte EN), ce qui simplifie encore le pipeline pour les contenus multilingues.
Promotion automatisée
Headliner et Wavve : génération automatique de clips vidéo courts avec waveform et sous-titres. Mon format préféré pour Reels et Shorts. Headliner a un workflow plus complet, Wavve est plus rapide en exécution.
Zapier ou Make : quand un épisode est publié sur mon hébergeur (Acast, Buzzsprout, Anchor), création automatique de posts sur LinkedIn, X et envoi d'une newsletter de notification. Sur mon planning hebdo, ça me fait gagner une bonne heure par épisode.
Mon workflow complet
- Enregistrement : Riverside ou Zoom Cloud Recording, qualité maximale.
- Transcription : Faster-Whisper local pour le brut, vérification manuelle des passages techniques.
- Montage : Descript pour le nettoyage rapide (filler words, silences), Adobe Podcast Enhance pour les invités au son médiocre.
- Finition : Auphonic pour normalisation et loudness aux standards.
- Éditorial : Claude pour show notes, résumé, titres, descriptions.
- Article dérivé : Claude pour réécriture article, relecture manuelle.
- Promotion : Headliner pour audiograms, Zapier pour diffusion sociale.
Temps total par épisode de 45 minutes : environ 3h30 contre 8-10h avant l'IA. Le gain principal se concentre sur les show notes, l'article dérivé, et le montage des hésitations.
Catalogue transcription et audio pour les autres outils évalués.
Pour approfondir ce sujet
Comparer les outils IA
Comparer les outils par usage, catégorie et critères de confiance.
Trust Ranking
Voir les signaux de fiabilité, transparence et maturité produit.
Outils IA image : choisir le bon workflow
Comparer création d'image, droits d'usage, contraintes de marque et qualité de rendu.
Midjourney : créer une image IA
Méthode pratique pour transformer un brief en visuel exploitable.
Sources officielles et méthode
Trust-Vault croise les usages terrain avec des sources institutionnelles pour renforcer la vérification, la conformité et la lisibilité des comparatifs.
- AI Risk Management Framework - NIST. Référentiel fédéral américain pour évaluer et réduire les risques liés à l'IA.
- Artificial Intelligence - Federal Trade Commission. Repères de l'autorité américaine sur les usages IA, les promesses commerciales et la protection des consommateurs.
- Google Search Central - helpful content - Google. Repères officiels sur le contenu utile, fiable et rédigé pour les lecteurs.
- Google Search Central - structured data - Google. Documentation officielle pour comprendre les données structurées reconnues par Google Search.
Laurent Duplat
Directeur de la publication — Trust-Vault