Qu'est-ce que la fréquence d'échantillonnage ?
La fréquence d'échantillonnage (ou sample rate) est le nombre de fois par seconde où un signal audio analogique est mesuré et enregistré sous forme de valeur numérique. Chaque mesure est appelée un échantillon. À 44 100 Hz (44,1 kHz), l'audio est mesuré 44 100 fois par seconde.
Pensez-y comme à la fréquence d'images d'une vidéo : un film à 24 images par seconde capture 24 images fixes chaque seconde. Des fréquences plus élevées capturent un mouvement plus fluide. De même, des fréquences d'échantillonnage plus élevées capturent plus de détails dans la forme d'onde audio.
Le concept clé est le théorème de Nyquist : un système numérique peut reproduire parfaitement n'importe quelle fréquence jusqu'à la moitié de sa fréquence d'échantillonnage. Ce plafond fréquentiel est appelé fréquence de Nyquist :
- 44,1 kHz → capte jusqu'à 22,05 kHz
- 48 kHz → capte jusqu'à 24 kHz
- 96 kHz → capte jusqu'à 48 kHz
- 192 kHz → capte jusqu'à 96 kHz
L'audition humaine plafonne à environ 20 kHz (et plus réalistement 15–17 kHz pour la plupart des adultes). Cela signifie que 44,1 kHz capte déjà toutes les fréquences audibles, avec une petite marge supplémentaire.
Les maths sont claires : le théorème de Nyquist n'est ni une approximation ni une simplification. Il est mathématiquement prouvé qu'une fréquence d'échantillonnage de 2× la fréquence la plus élevée fournit une reconstruction parfaite du signal d'origine — pas « presque parfaite », mais mathématiquement identique. Des fréquences d'échantillonnage plus élevées n'améliorent pas la reproduction des fréquences audibles.
44,1 kHz — Le standard du CD
Le 44,1 kHz a été choisi comme standard du CD en 1980 par Sony et Philips. Le chiffre n'était pas arbitraire — il découle de la nécessité de capter les fréquences jusqu'à 20 kHz (exigeant au moins 40 kHz selon Nyquist) plus une petite bande de garde pour le filtre anti-aliasing. La valeur précise de 44 100 provenait de la compatibilité avec les systèmes d'enregistrement PCM basés sur la vidéo utilisés à l'époque.
- Fréquence de Nyquist : 22,05 kHz — confortablement au-dessus de la limite supérieure de 20 kHz de l'audition humaine
- Standard depuis : 1982 (CD Red Book)
- Utilisé par : CD, la plupart des téléchargements musicaux, les fichiers source iTunes/Apple Music, les fichiers source Spotify
- Bitrate non compressé (stéréo, 16-bit) : 1 411 kbps
Après plus de 40 ans en tant que format musical dominant, le 44,1 kHz bénéficie d'une compatibilité universelle. Tous les lecteurs MP3, téléphones, autoradios, enceintes Bluetooth et DAC de la planète le gèrent correctement. C'est le choix le plus sûr pour la distribution musicale.
48 kHz — Le standard vidéo/diffusion
Le 48 kHz a été adopté comme standard pour l'audio vidéo professionnel et la diffusion. Il a été choisi par l'AES (Audio Engineering Society) et standardisé dans les enregistreurs DAT (Digital Audio Tape).
- Fréquence de Nyquist : 24 kHz — légèrement supérieure au 44,1 kHz, bien que les 2 kHz supplémentaires soient inaudibles
- Standard depuis : 1985 (DAT), 1995 (DVD)
- Utilisé par : YouTube, la plupart des STAN (Pro Tools, Logic, projets Ableton par défaut), DVD/Blu-ray, télévision diffusée, cinéma
- Bitrate non compressé (stéréo, 16-bit) : 1 536 kbps
La raison pour laquelle la vidéo utilise 48 kHz au lieu de 44,1 kHz est largement historique : les fréquences d'images vidéo (24, 25, 30 ips) se divisent uniformément dans 48 000 mais pas dans 44 100. Cela simplifie la synchronisation audio-vidéo dans les workflows de diffusion et de post-production.
Pour la sortie MP3 : la différence audible entre 44,1 kHz et 48 kHz est nulle. Les deux capturent toute la plage de l'audition humaine. Le choix entre les deux concerne la compatibilité du workflow, pas la qualité audio.
96 kHz et au-delà — Marketing vs réalité
L'audio haute résolution à 96 kHz et 192 kHz est largement promu par les fabricants d'équipement et les services de musique « hi-res ». Ces fréquences d'échantillonnage capturent des fréquences ultrasoniques bien au-dessus de l'audition humaine :
| Fréquence d'échantillonnage | Fréquence de Nyquist | Taille fichier (1 min, 16-bit stéréo) | Bénéfice audible ? |
|---|---|---|---|
| 44,1 kHz | 22,05 kHz | 10,1 Mo | Toute la plage audible |
| 48 kHz | 24 kHz | 11 Mo | Identique à 44,1 kHz |
| 96 kHz | 48 kHz | 22 Mo | Aucun — ultrasonique |
| 192 kHz | 96 kHz | 44 Mo | Aucun — ultrasonique |
Il existe des raisons légitimes en production d'enregistrer en 96 kHz :
- Filtre anti-aliasing plus doux : la bande de transition entre la fréquence de passage et la fréquence de Nyquist est plus large, permettant des filtres plus doux avec moins de distorsion de phase dans la plage audible. À 44,1 kHz, le filtre doit être très raide pour couper tout ce qui dépasse 22 kHz.
- Marge pour le pitch shifting : ralentir l'audio de 50 % divise toutes les fréquences par deux. Un enregistrement en 96 kHz baissé d'une octave conserve encore 48 kHz de contenu — tout reste au-dessus du seuil audible.
- Suréchantillonnage durant le traitement : certains plugins traitent en interne à des fréquences plus élevées pour éviter l'aliasing dû aux effets non linéaires (distorsion, saturation).
Cependant, pour la sortie MP3, les fréquences d'échantillonnage élevées n'apportent aucun bénéfice. L'encodeur MP3 utilise un filtre passe-bas qui supprime tout au-dessus d'environ 16–20 kHz (selon le bitrate), et le modèle psychoacoustique n'opère que sur les fréquences audibles. Tout contenu au-dessus de 22 kHz dans une source 96 kHz est rejeté avant l'encodage.
Quelle fréquence d'échantillonnage pour MP3 ?
Pour la grande majorité des cas d'usage, la réponse est simple : 44,1 kHz.
| Cas d'usage | Fréquence recommandée | Raison |
|---|---|---|
| Distribution musicale | 44,1 kHz | Standard CD, compatibilité maximale |
| Podcasts | 44,1 kHz | Standard de l'industrie, fonctionne sur tous les lecteurs |
| Bande-son vidéo (YouTube) | 48 kHz | Correspond à la timeline vidéo, évite le rééchantillonnage |
| Audio de jeu vidéo | 44,1 ou 48 kHz | Dépend du moteur ; Unity par défaut 44,1, Unreal 48 |
| Sonneries / alertes | 44,1 kHz | Compatibilité maximale avec les téléphones |
| Livres audio | 44,1 kHz | Standard pour toutes les plateformes de livres audio |
Le seul scénario où 48 kHz a du sens pour MP3 est lorsque l'audio fait partie d'un projet vidéo où toute la chaîne (caméra, timeline de montage, export) tourne en 48 kHz. Dans ce cas, garder l'audio en 48 kHz évite une étape de rééchantillonnage inutile. Pour tout audio autonome — musique, podcasts, enregistrements vocaux — 44,1 kHz est le bon choix.
Que se passe-t-il quand vous changez la fréquence d'échantillonnage
Changer la fréquence d'échantillonnage d'un fichier audio s'appelle le rééchantillonnage. C'est un processus mathématique qui recalcule la forme d'onde audio à la nouvelle fréquence.
Sous-échantillonnage (ex. 96 kHz vers 44,1 kHz)
Le sous-échantillonnage est sûr et effectivement sans perte à l'écoute. Le rééchantillonneur applique un filtre passe-bas pour supprimer les fréquences au-dessus de la nouvelle fréquence de Nyquist (22,05 kHz pour 44,1 kHz), puis recalcule les échantillons. Comme les fréquences supprimées étaient de toute façon au-dessus de l'audition humaine, le résultat audible est identique.
- 96 → 44,1 kHz : supprime le contenu au-dessus de 22 kHz (inaudible), fichier ~54 % plus petit
- 48 → 44,1 kHz : supprime le contenu au-dessus de 22 kHz (inaudible), fichier ~8 % plus petit
Suréchantillonnage (ex. 44,1 kHz vers 96 kHz)
Le suréchantillonnage est mathématiquement valide mais inutile pour améliorer la qualité. Le rééchantillonneur crée de nouveaux échantillons en interpolant entre les existants. Le fichier résultant est plus volumineux (plus d'échantillons par seconde) mais ne contient aucune nouvelle information audio. Les fréquences au-dessus de 22 kHz n'ont jamais été captées par l'enregistrement original 44,1 kHz, elles ne peuvent donc pas être reconstruites.
- 44,1 → 96 kHz : taille du fichier doublée, aucun nouveau contenu audio
- 44,1 → 48 kHz : fichier légèrement plus volumineux, aucune différence audible
L'analogie de la photo : le sous-échantillonnage, c'est comme recadrer une image pour supprimer les pixels que vous ne verrez jamais à l'écran. Le suréchantillonnage, c'est comme agrandir une petite photo — vous obtenez plus de pixels, mais pas plus de détails. Les nouveaux pixels sont déduits mathématiquement, pas captés depuis la réalité.
Lors de la conversion WAV vers MP3, l'encodeur gère automatiquement le rééchantillonnage si nécessaire. Si votre WAV source est en 96 kHz et que vous encodez en MP3 à 44,1 kHz, l'encodeur sous-échantillonne durant le processus d'encodage. Inutile de rééchantillonner le fichier WAV séparément au préalable.