Standard de l'industrie : 96–128 kbps CBR mono
Si vous voulez la réponse courte : encodez votre podcast en MP3, 96–128 kbps, CBR, mono, 44,1 kHz. C'est ce que recommande Apple Podcasts, ce qu'accepte Spotify et ce qu'attendent pratiquement toutes les plateformes d'hébergement de podcasts.
| Paramètre | Valeur recommandée | Pourquoi |
|---|---|---|
| Format | MP3 | Compatibilité universelle sur toutes les applis podcast |
| Bitrate | 96–128 kbps | 96 pour la voix pure ; 128 si des passages musicaux sont présents |
| Mode de bitrate | CBR (bitrate constant) | Navigation fiable, taille de fichier prévisible |
| Canaux | Mono | La voix est mono ; divise par deux la taille par rapport au stéréo |
| Sample rate | 44,1 kHz | Standard du CD, compatibilité maximale |
| Loudness | -16 LUFS | Standard pour les plateformes de podcast |
Règle rapide : 96 kbps mono pour les émissions 100 % parlées. 128 kbps mono si votre podcast comporte des passages musicaux significatifs (jingles d'intro/outro, musiques de fond). Aller au-delà de 128 kbps pour un podcast gaspille stockage et bande passante sans bénéfice audible pour la voix.
Pourquoi CBR plutôt que VBR ?
Pour la musique, le VBR (bitrate variable) est généralement préféré car il alloue plus de bits aux passages complexes et moins aux silences, améliorant la qualité par octet. Pour les podcasts en revanche, le CBR est le choix le plus sûr pour plusieurs raisons pratiques :
- Navigation fiable : les fichiers CBR permettent aux lecteurs de podcast de calculer n'importe quelle position temporelle à partir de l'offset en octets. Le VBR nécessite une table de navigation séparée (en-tête Xing/VBRI), et certaines anciennes applis podcast la gèrent mal — conduisant à des durées inexactes ou à un saut vers une mauvaise position.
- Estimation précise de la durée : les flux RSS incluent une taille de fichier (enclosure length). Avec CBR, les applis peuvent estimer la durée de l'épisode à partir de la seule taille. Le VBR rend cela impossible sans analyser l'en-tête du fichier.
- Tailles de fichier prévisibles : avec CBR, vous pouvez calculer la taille exacte avant encodage. À 96 kbps, chaque minute pèse exactement 720 Ko. Cela simplifie la planification de stockage sur votre compte d'hébergement.
- Fiabilité du streaming : le CBR diffuse à débit constant, plus facile à gérer par les algorithmes de mise en mémoire tampon des applis podcast, en particulier sur des connexions cellulaires lentes.
L'avantage qualitatif du VBR sur le CBR est minimal pour du contenu parlé. La voix est bien moins complexe que la musique, donc le VBR économiserait surtout des bits durant les silences — où la qualité n'a de toute façon aucune importance. Les bénéfices pratiques du CBR l'emportent sur le gain d'efficacité marginal du VBR pour les podcasts.
Pourquoi le mono pour les podcasts ?
Un podcast avec un seul narrateur est intrinsèquement un audio mono. La voix vient d'une seule source et ne porte aucune information stéréo significative. L'encoder en stéréo double la taille du fichier pour zéro bénéfice audible.
- Fichiers 50 % plus petits : un épisode d'1 heure à 96 kbps mono pèse ~42 Mo. Le même épisode à 96 kbps stéréo pèserait ~42 Mo aussi, mais avec le bitrate réparti entre deux canaux identiques, réduisant la qualité par canal.
- Recommandation d'Apple : Apple Podcasts recommande explicitement le mono pour les podcasts parlés dans ses directives aux podcasteurs.
- Meilleure qualité par bit : à bitrate égal, le mono alloue tous les bits à un seul canal. À 96 kbps mono, chaque seconde reçoit 96 kbits de données. À 96 kbps stéréo, chaque canal ne reçoit que ~48 kbits. La version mono sonne nettement mieux.
- Lecture universelle : l'audio mono sort identiquement des deux haut-parleurs/écouteurs. Les auditeurs entendent la même chose qu'ils utilisent un seul écouteur ou les deux.
Émissions d'interview : même les interviews à deux personnes sont typiquement distribuées en mono. Vous pourriez panoramiser l'hôte et l'invité à gauche et à droite, mais cela crée une expérience désagréable pour les auditeurs n'utilisant qu'un seul écouteur. La plupart des podcasteurs professionnels mixent toutes les voix au centre et exportent en mono.
Sample rate : restez sur 44,1 kHz
Pour la distribution de podcasts, 44,1 kHz est le bon sample rate. Voici pourquoi :
- Standard du CD : le 44,1 kHz est le standard audio numérique depuis 1982. Tout appareil, toute appli et toute plateforme le gère sans rééchantillonnage.
- Dépasse les besoins de la voix : la voix humaine va d'environ 85 Hz à 8 kHz (avec la sibilance jusqu'à ~12 kHz). 44,1 kHz capte jusqu'à 22,05 kHz — bien au-delà de tout contenu vocal.
- Compatibilité maximale : certains anciens décodeurs MP3 et systèmes embarqués peuvent mal gérer les fichiers MP3 48 kHz. 44,1 kHz fonctionne partout.
- Aucun bénéfice à monter plus haut : 48 kHz, 96 kHz ou plus captent des fréquences ultrasoniques absentes de la voix et qui ne sont de toute façon pas préservées par l'encodage MP3.
Si votre logiciel d'enregistrement capte en 48 kHz (courant pour les STAN orientées vidéo), la conversion vers 44,1 kHz pendant l'encodage MP3 est automatique et sans perte audible pour la voix. Les encodeurs modernes gèrent ce rééchantillonnage de façon transparente.
Planification de la taille des fichiers pour les hébergeurs de podcasts
Les offres d'hébergement podcast sont souvent limitées en stockage (par exemple les offres de Libsyn reposent sur un quota mensuel d'upload). Connaître à l'avance la taille de vos fichiers aide à choisir la bonne offre et à éviter les dépassements.
| Durée | 96 kbps mono | 128 kbps mono | 128 kbps stéréo | 192 kbps stéréo |
|---|---|---|---|---|
| 15 min | 10,5 Mo | 14 Mo | 14 Mo | 21 Mo |
| 30 min | 21 Mo | 28 Mo | 28 Mo | 42 Mo |
| 1 heure | 42 Mo | 56 Mo | 56 Mo | 84 Mo |
| 2 heures | 84 Mo | 112 Mo | 112 Mo | 168 Mo |
Pour une émission hebdomadaire publiant 4 épisodes d'une heure par mois :
- 96 kbps mono : ~168 Mo/mois — tient dans l'offre de base de Libsyn (250 Mo)
- 128 kbps mono : ~224 Mo/mois — juste à la limite de l'offre 250 Mo
- 192 kbps stéréo : ~336 Mo/mois — nécessite une offre plus grande
Formule rapide : taille (Mo) = bitrate (kbps) × durée (secondes) ÷ 8 000. Par exemple, 96 kbps × 3 600 secondes ÷ 8 000 = 43,2 Mo pour un épisode d'1 heure.
Tags ID3 pour les podcasts
Les tags ID3 sont des métadonnées intégrées au fichier MP3. Les applis podcast lisent ces tags pour afficher les informations de l'épisode. Des fichiers correctement tagués paraissent professionnels et aident les auditeurs à naviguer dans votre contenu.
- Titre (TIT2) : le titre de l'épisode. Gardez-le concis — les titres longs sont tronqués dans les interfaces des applis podcast.
- Artiste (TPE1) : le nom de votre podcast/émission.
- Album (TALB) : le nom de votre podcast/émission (identique à l'artiste pour la plupart des podcasts).
- Numéro de piste (TRCK) : numéro d'épisode (utile au tri dans certaines applis).
- Genre (TCON) : réglez sur « Podcast ».
- Année (TDRC) : année de publication.
- Pochette (APIC) : visuel de l'épisode ou de l'émission. Gardez-la sous 500 Ko — de grandes images alourdissent chaque fichier d'épisode. Utilisez du JPEG 1400×1400 ou 3000×3000 pixels compressé à une qualité 70–80.
Bien que les flux RSS portent également ces métadonnées, les tags ID3 intégrés garantissent que l'information reste avec le fichier, même téléchargé séparément ou partagé en dehors d'une appli podcast.
Normalisation pour un volume constant
La normalisation de loudness garantit que votre podcast se joue à un volume constant — pas de sauts ni de chutes soudaines qui forcent les auditeurs à toucher au volume.
L'industrie du podcast a adopté -16 LUFS (Loudness Units Full Scale) comme cible :
- -16 LUFS : le standard de la plupart des plateformes de podcast. Assez fort pour rester clair en milieu bruyant, assez doux pour éviter la distorsion.
- -14 LUFS : utilisé par Spotify pour la musique. Certains podcasteurs visent cette valeur pour une lecture légèrement plus forte, mais cela laisse moins de marge.
- Limite de crête vraie : maintenez les crêtes à ou sous -1 dBTP (décibels True Peak). Cela évite les artefacts de clipping dus aux crêtes inter-échantillons durant l'encodage MP3 et la reconstruction DAC.
| Plateforme | Loudness cible | Limite de crête vraie |
|---|---|---|
| Apple Podcasts | -16 LUFS | -1 dBTP |
| Spotify | -14 LUFS (musique) / -16 LUFS (voix) | -1 dBTP |
| YouTube | -14 LUFS | -1 dBTP |
| EBU R128 (diffusion) | -23 LUFS | -1 dBTP |
Appliquez la normalisation de loudness avant l'encodage MP3, lors de votre étape d'édition/mastering. Normaliser après encodage peut introduire une perte de qualité supplémentaire. La plupart des logiciels d'édition podcast (Audacity, Hindenburg, Adobe Audition, Descript) incluent la normalisation de loudness en fonctionnalité standard.
La constance compte plus que le chiffre exact. Un podcast constamment à -18 LUFS sonne mieux pour l'auditeur qu'un podcast qui oscille entre -12 et -22 LUFS d'un épisode à l'autre. Choisissez une cible et tenez-vous-y sur tous les épisodes.