Comment créer votre podcast à l’aide de l’IA ?

Réaliser un podcast de marque ou un podcast (journaliste et invité) demande non seulement une certaine logistique (prévoir des épisodes d’avance, trouver des sujet et des invités, une phase d’écriture, des prises de son, l’achat de materiel et biensur la diffusion, la promotion.

Un sacré boulot !

Vous voudriez créer votre podcast mais justement sans devoir réaliser toute la partie prise de son et éviter une dépense certaine de matériel, micros, pieds, cables, logiciels… Et bien C’est possible grâçe à l’Intelligence artificielle. L’intelligence artificielle (IA) génerative représente aujourd’hui une avancée majeure dans la production audio, rendant cette pratique plus accessible, rapide et créative qu’avant.

Je vous montre comment simplement et gratuitement utiliser l’IA generative pour produire votre podcast

A savoir : Comment l’intelligence Artificielle generative peut-elle créer du son ? Lire l’article

Sommaire

Les bases : Comment l’IA peux générer du son ?
Generer un podcast audio à 2 voix avec NotebookLM de Google
Generer une voix de synthese française à partir de votre script avec ElevenLabs
Générer un fichier audio a partir d’un agent IA (Technique)
Generer votre Jingle audio musical via IA
Realiser le montage entre votre jingle et votre voix via IA

Les bases : Comment l’IA peux générer du son ?

je m’interesse a la facon dont un podcasteur pourrait vouloir générer un texte écrit en un fichier audio ?

De quelles ressources a t’il besoin ?
Quelles applications utiliser ?
Comment gérer les émotions de la voix ?
Existe-t-il des IA opensource à installer en local ou en ligne ?

La synthèse vocale

1. La synthèse vocale par intelligence artificielle (TTS, pour Text-to-Speech)

Une IA peut générer du son (voix, musique, effets) en convertissant des données numériques (texte, notes, etc.) en forme d’onde audio.

L’IA lit le texte, détecte la ponctuation, le ton, les émotions implicites, et découpe les phrases en phonèmes (les sons de base d’une langue). Donc l’ecriture pour l’IA n’est pas la même que si vous lisiez vous meme votre texte. vous devez fournir des inscrutions via Prompt afin d’orienter la production.

L’IA a aussi besoin d’un modèle (souvent un neural vocoder ou un diffusion model) pour lui indiquer à quoi doit ressembler la “chaleur sonore” de la voix : son rythme, ses intonations, ses pauses.

Generer un podcast audio à 2 voix avec NotebookLM de Google

La facon la plus rapide mais aussi la moins precise est d’utiliser l’IA de google via le projet NotebookLM. Vous fournissez un certains nombre de documents, liens vers des sites web, fichiers PDF, textes… en francais et NotebookLM va generer un fichier audio lorsque vous cliquerez sur Resumé audio.

La qualité du rendu de la discussion est tres proche de la réalité. J’ai fais cet exemple pour vous montrer qu’a partir d’un sujet bien connu; « La Longevite et le regime alimentaire des japonais grace à l’alimentation de l’ile d’okinawa », il est possible de créer une emission au rendu assez professionnel : c’est assez bleufant ! . Savoir bien choisir ses sources est alors essentiel.

NotebookLM génère donc un fichier audio au format .m4a dont les voix sont des voix de synthese.

Generer une voix de synthese française à partir de votre texte avec ElevenLabs

L’IA sait aujourd’hui synthétiser des voix convaincantes, cloner votre voix ou transformer le texte en parole, dans la langue et le style de votre choix:

Si tu veux juste taper ton texte et récupérer un fichier audio, alors tu peux utiliser une des applications les plus pro actuellement, a savoir ELEVENLABS. je te montre dans la video ci-dessous comment generer simplement un fichier audio a partir de la voix « scannee » ou d’une autre voix a partir dun extrait du script de ton podcast. Vous commencerez gratuitement avec 10000 credits.

Générer un script à partir d’un agent IA et d’un prompt

La generation du fichier audio certes est importante mais vous pouvez aussi vous faire aider pour l’ecriture de votre script. Faites un prompt comme celui ci et laisser une IA generative comme chattGPT ou claude.ia (tres bonne pour la litterature, generer votre texte.

PROMPT : « Tu es un jourmaliste homme, jeune de 30 ans et tu est un podcasteur professionnel qui parle vite , avec une voix assez enjouee, qui va presenter une emission audio avec un invité . Peux tu creer une intro audio qui presente son emission intitulee » Sante pour tous » et qui parle aujourdhui du regime d’hokinawa au japon. cree un texte tres rythmé, avec une ecriture radio. tu dois aussi presenter l’invite de l’emission qui s’appelle , jean , qui est medecin et qui vient de sortir un livre sur les secrets de la nutrition reparatrice et notamment sur les secrets de la cuisine japonaise de l’ile ecrit un livre sur l’ile d’hokinawa »

REPONSE de ChatGPT à copier dans ELEVENLABS :

Bonjour à toutes, bonjour à tous,

Vous êtes sur “Santé pour tous”, je suis votre hôte, [prénom du journaliste], trente ans, passionné de bien-être, de longévité… et surtout de tout ce qui peut vraiment changer votre vie au quotidien.

Aujourd’hui, on vous emmène très loin… direction le Japon, et plus précisément une petite île dont vous avez sans doute déjà entendu parler : Okinawa.

Cette île, c’est un peu le laboratoire vivant de la longévité : des seniors qui gardent la pêche, des centenaires par centaines, des assiettes colorées, légères, ultra-savoureuses… et un mode de vie qui intrigue les médecins du monde entier.

On va parler du régime d’Okinawa, mais attention : pas juste un “régime” à la mode. On parle ici de nutrition réparatrice, de cuisine qui soigne, qui protège, qui régénère.

Et pour décoder tout ça avec nous, j’ai la chance d’être accompagné d’un invité exceptionnel :

Il est médecin, spécialiste de la nutrition, passionné par la cuisine japonaise, et il vient tout juste de publier un livre consacré aux secrets de la nutrition réparatrice et à la cuisine d’Okinawa.

Il a étudié de près ce que mangent les habitants de l’île, comment ils cuisinent, comment ils vivent… et pourquoi leur alimentation pourrait bien être l’une des clés de leur incroyable longévité.

Mon invité aujourd’hui, c’est Jean.

Jean, bonjour, bienvenue dans “Santé pour tous” ! On est ravis de t’avoir avec nous.

Restez avec nous, on démarre tout de suite : cap sur Okinawa, ses secrets de table… et peut-être, qui sait, quelques nouvelles habitudes à adopter dans votre propre cuisine !

Vous avez ici une version brute realisée avec la version « light » . Je l’ai faite pour l’exemple mais il est possible de rajouter des Audio Tags, valable uniquement dans la V3 d’Eleven (alpha) . je vous montre le rendu du meme texte avec des audio tags.

PROMPT avec audio TAGS: Bonjour à toutes, bonjour à tous, Vous allez BIEN depuis la derniere fois ? [laughs harder], Vous êtes CHAUD sur “Santé pour tous” ? C’est l’emission qui peut vraiment changer votre vie au quotidien ! Alors, [whispers]Aujourd’hui, je vous emmène TRÈS loin…[sigh] direction le Japon, et plus précisément une petite île dont vous avez sans doute déjà entendu parler : [happy gasp] Okinawa.

Creer le jingle de ton émission avec l’IA

C’est bien d’avoir votre fichier audio , mais une intro musicale va donner un aspect plus professionnel a votre emission. Il existe de nombreuses IA pour generer de la musique a partir de texte , qu’on appelle prompt. Mon choix va à l’application STABLEAUDIO de stable AI pour sa qualité de rendu musical et son champ créatif. Stable Audio qui a été developpé par Stability.ai à l’origine de stablediffusion pour la generation d’image et avec le succes que l’on connait.

La version gratuite de StableAudio vous permet de creer jusqu’a 10 morceaux par mois, générer jusqu’à 3 minutes par morceau, et 3 minutes de téléchargement ( c’est a dire 10 fichiers de 30 sec) mais sans pourvoir utiliser commercialement vos creations. C’est suffisant pour demarrer !

Pour vous aider a avoir un rendu rapide et propre il est indispensable de comprendre la structure du prompting. je vous prend un exemple simple:

Format: Solo vs Band vs Orchestra
Genre / sous-Genre
Instruments
Humeur
Styles
Tempo
BPM (battements par minutes)

Exemple: Pour un jingle de podcast, je choisi quelquechose de dynamique, moderne, rythmé et qui tourne en boucle .

Prompt : « luxurious indietronica instrumental orchestra, electronic, ambient house, instrumental, keyboards, drums, Synthesizer, steady break drums, smooth electric piano, bpm 110, textural percussion ».

cela vous donnera une base musicale simple, moderneet rythmée que vous pourrez placer a tout moment de votre emission,

Le montage entre votre jingle Stableaudio et votre voix (sans IA)

Je ne suis pas pour une utilisation complete à 100 % de l’IA mais plûtot savoir l’utiliser comme un partenaire de travail. L’IA doit être au service de votre pensée et pas penser à votre place ! Pour realiser un montage parfait rien de mieux que d’utiliser Audacity. Il suffit simplement de placer votre ficher voix et votre fichier musical et de les mixer. j’ai fais une vidéo tutoriel simple.

Conclusion :

Rien ne vaut la creation humaine ! l’IA genererative audio a partir du texte ouvre un nouveau champ creatif. On le voit notamment avec Midjourney pour l’image mais rien pour l’instant n’a d’egal que la creation de podcast realisé par l’homme. Il faut voir tous ces outils comme des partenaires de créations afin soit d’ouvrir son champ créatif car il y a une bonne part d’aléatoire, ou bien de partenaires de production si l’on est solo, que l’on veut tester un concept d’emission sans trop investir au début, et de realiser une maquette.