Comment supprimer la musique de fond
Supprimer la musique de fond d'un enregistrement se fait en trois étapes. L'IA fait tout le travail — il suffit de charger le fichier, choisir le bon mode, et télécharger.
- Chargez votre fichier audio. Glissez-déposez votre enregistrement dans le convertisseur ci-dessus, ou cliquez pour parcourir. L'outil accepte MP3, WAV, FLAC, OGG, M4A, AAC, WMA et AIFF. Utilisez le fichier source de la meilleure qualité disponible — un WAV ou FLAC sans perte produira une séparation plus propre qu'un MP3 compressé.
- Sélectionnez le mode « Voix uniquement ». C'est l'étape cruciale. L'IA Demucs sépare votre audio en quatre stems : voix, batterie, basse et autres instruments. Le mode Voix uniquement extrait uniquement le stem vocal — qui contient toute la parole et le chant humains — et écarte les trois stems instrumentaux. La musique de fond se retrouve dans ces stems écartés, vous laissant avec un dialogue net.
- Téléchargez la piste vocale. Une fois le traitement terminé, téléchargez le résultat. Le fichier de sortie contient votre parole ou chant avec la musique de fond supprimée. Vous pouvez l'utiliser directement ou l'importer dans votre éditeur audio ou vidéo pour remplacer la piste mixée d'origine.
Point clé : le mode « Voix uniquement » conserve toutes les voix humaines — aussi bien celle du locuteur principal que toute voix de fond. Si quelqu'un parle à la télévision en arrière-plan, cette parole peut rester dans le résultat en même temps que votre voix principale. L'IA traite toute vocalisation humaine de la même manière.
Quand vous avez besoin de supprimer la musique de fond
Cet outil résout un problème spécifique : vous avez un enregistrement où la parole est bonne, mais une musique indésirable joue en arrière-plan. Voici les scénarios les plus courants.
- Nettoyage de podcast. Un invité a enregistré sa partie de la conversation avec de la musique dans sa pièce, ou un co-animateur avait une playlist Spotify qui débordait sur son microphone. La parole est parfaitement exploitable, mais la musique de fond rend l'épisode peu professionnel et crée de potentiels problèmes de droits d'auteur. Passer l'audio en mode Voix uniquement retire la musique tout en préservant la conversation.
- Enregistrements d'interviews. Les interviews réalisées dans des cafés, restaurants ou événements captent souvent la musique de fond de la sonorisation du lieu. Les réponses de la personne interviewée sont suffisamment claires pour être comprises, mais la musique ambiante est distrayante et rend l'enregistrement difficile à utiliser dans un documentaire, un reportage ou un article. La séparation par IA isole les voix de la bande sonore du lieu.
- Narration vidéo avec bande sonore. Vous avez enregistré une voix off ou une narration sur une vidéo qui avait déjà de la musique de fond intégrée à la piste audio. Vous avez maintenant besoin de la narration sans la musique — peut-être pour remonter la vidéo avec une autre musique, ou pour utiliser la narration dans un autre contexte. Demucs sépare la narration parlée de la bande sonore sous-jacente.
- Extraction de voix off depuis une vidéo. Une vidéo de formation, un explainer ou une présentation contient un narrateur parlant sur de la musique de fond. Vous souhaitez réutiliser la narration dans un nouveau projet, la traduire ou la transcrire avec précision. Extraire une parole nette sans la musique rend la transcription beaucoup plus précise et vous offre une piste de voix off isolée utilisable.
- Nettoyer des enregistrements avec TV ou radio en arrière-plan. Quelqu'un a enregistré un mémo vocal, un appel téléphonique ou une vidéo familiale pendant qu'une émission TV, une station de radio ou un flux musical jouait en arrière-plan. L'audio de fond est distrayant et peut contenir du contenu protégé par des droits d'auteur. L'IA peut supprimer les composantes musicales, nettoyant ainsi significativement l'enregistrement.
Séparation parole vs musique
Comprendre comment l'IA sépare l'audio vous aide à avoir des attentes réalistes concernant la qualité du résultat.
Demucs est un réseau neuronal profond entraîné sur des milliers d'heures de musique. Il a appris à décomposer l'audio mixé en quatre stems : voix (toute voix humaine — chantée ou parlée), batterie (percussions), basse (basse, synthé basse, instruments à basse frequency) et autres (tout le reste — guitares, claviers, cordes, synthés, effets sonores). Lorsque vous sélectionnez Voix uniquement, le modèle reconstruit uniquement le stem vocal et écarte le reste.
Cela signifie que l'IA supprime tous les sons non vocaux, pas seulement la « musique » au sens traditionnel. Voici ce qui est séparé :
- Supprimés : musique de fond, boucles instrumentales, bande sonore, jingles, guitare, piano, synthétiseurs, rythmes de batterie, lignes de basse, nappes musicales d'ambiance.
- Conservés : parole, chant, fredonnement, rires, souffles vocaux, bruits de lèvres — tout ce qui est produit par la voix humaine.
- Partiellement supprimés : bruit ambiant, réverbération de la pièce, vent, circulation, ronflement de climatisation. Ces sons non musicaux et non vocaux ne rentrent pas parfaitement dans l'une des quatre catégories de stems. L'IA les gère de manière inconstante — une partie du bruit ambiant se retrouve dans le stem vocal, une autre dans le stem « autres ». Vous obtiendrez un enregistrement plus propre, mais ne vous attendez pas à une élimination totale du bruit ambiant.
Conclusion pratique : si votre enregistrement contient de la parole mêlée à de la musique, la séparation sera très efficace. Si le son indésirable est un bruit ambiant non musical (circulation, vent, CVC), les résultats seront partiels. Pour une pure noise reduction sans séparation musicale, un outil dédié de noise reduction est plus approprié.
Conseils pour une extraction de parole nette
L'IA fait l'essentiel du travail, mais la qualité de votre entrée affecte directement la qualité du résultat. Suivez ces recommandations pour l'extraction de parole la plus nette possible.
- Utilisez le fichier source de la meilleure qualité. Les fichiers WAV et FLAC préservent tous les détails audio, donnant au réseau neuronal le maximum d'informations avec lesquelles travailler. Si vous n'avez qu'un MP3, utilisez la version avec le bitrate le plus élevé disponible. Un MP3 à 320 kbps se sépare mieux qu'une version à 128 kbps du même enregistrement, car il conserve plus d'informations spectrales que l'IA utilise pour distinguer la parole de la musique.
- Assurez-vous que la parole est plus forte que la musique. La séparation par IA fonctionne au mieux lorsque le signal cible (la parole) est la composante dominante. Les enregistrements où parole et musique sont à des niveaux de volume similaires produisent de bons résultats. Les enregistrements où la musique est nettement plus forte que la parole sont plus difficiles — l'IA peut perdre certains détails de la parole en même temps que la musique. Si possible, ajustez le mixage avant traitement pour que la parole soit au-dessus de la musique.
- Minimisez les autres sources de bruit. La musique de fond est ce que vous voulez retirer, mais les autres couches de bruit (écho de pièce, vent, souffle) ajoutent de la complexité. L'IA gère très bien une tâche de séparation — séparer les voix des instruments. Ajouter du bruit par-dessus de la musique par-dessus de la parole rend les trois plus difficiles à démêler. Enregistrez dans un environnement calme quand c'est possible, même si la musique est inévitable.
- Recadrez sur la section pertinente. Si seule une partie de votre enregistrement a le problème de musique de fond, rognez le fichier sur cette section avant de le charger. Les fichiers plus courts se traitent plus vite et vous évitez de retraiter des sections déjà propres. Vous pourrez rejoindre les segments ensuite dans n'importe quel éditeur audio.
- Vérifiez à la fois les sorties voix et instrumentale. Parfois une petite quantité de parole fuit dans le stem instrumental, ou une petite quantité de musique fuit dans le stem vocal. Écouter les deux sorties vous aide à identifier d'éventuels artefacts de séparation. Si le stem vocal contient des fuites de musique, essayez de retraiter le fichier — l'IA peut produire des résultats légèrement différents d'un passage à l'autre.
Alternative : extraire d'abord l'audio de la vidéo
Si votre matériau source est un fichier vidéo (MP4, MOV, AVI, MKV), il faut une étape supplémentaire avant que le suppresseur de voix puisse vous aider. L'outil traite des fichiers audio, pas de la vidéo. Voici le déroulé :
- Extrayez la piste audio de votre vidéo. Utilisez un outil comme FFmpeg (
ffmpeg -i video.mp4 -vn -acodec pcm_s16le audio.wav) ou tout convertisseur vidéo-vers-audio en ligne. Extrayez en WAV pour la meilleure qualité. Si la vidéo possède plusieurs pistes audio (par ex. narration sur la piste 1, musique sur la piste 2), vous avez peut-être déjà une séparation propre et n'avez pas besoin d'IA — vérifiez d'abord les réglages de pistes audio dans votre éditeur vidéo. - Chargez l'audio extrait dans le suppresseur de voix. Sélectionnez le mode Voix uniquement et lancez le traitement. L'IA séparera la parole de la musique de fond dans la piste audio extraite.
- Remplacez l'audio dans votre éditeur vidéo. Importez la piste vocale nettoyée dans votre logiciel de montage vidéo (Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut, ou tout autre éditeur). Coupez ou supprimez la piste audio d'origine et synchronisez la piste vocale propre à sa place. La plupart des éditeurs permettent d'accrocher le nouvel audio au début de la timeline pour un alignement parfait.
Ce déroulé en trois étapes est standard pour les producteurs vidéo qui doivent nettoyer des rushes d'interview, supprimer la musique sous droits d'auteur du contenu généré par les utilisateurs ou isoler la narration pour un remontage. L'étape supplémentaire d'extraction audio est nécessaire car les fichiers vidéo contiennent des données visuelles dont l'IA n'a pas besoin et qu'elle ne peut pas traiter.