Cómo eliminar la música de fondo
Eliminar la música de fondo de una grabación requiere tres pasos. La IA hace todo el trabajo pesado — tú solo subes el archivo, eliges el modo correcto y descargas.
- Sube tu archivo de audio. Arrastra y suelta tu grabación en el convertidor de arriba, o haz clic para buscarlo. La herramienta acepta MP3, WAV, FLAC, OGG, M4A, AAC, WMA y AIFF. Utiliza el archivo fuente de la mayor calidad posible — un WAV o FLAC sin pérdida producirá una separación más limpia que un MP3 comprimido.
- Selecciona el modo «Solo voces». Este es el paso crítico. La IA Demucs separa tu audio en cuatro stems: voces, batería, bajo y otros instrumentos. El modo Solo voces extrae únicamente el stem vocal — que contiene toda el habla y el canto humanos — y descarta los tres stems instrumentales. La música de fondo acaba en esos stems descartados, dejándote con un diálogo limpio.
- Descarga la pista de voces. Una vez completado el procesamiento, descarga el resultado. El archivo de salida contiene tu habla o canto con la música de fondo eliminada. Puedes usarlo directamente o importarlo a tu editor de audio o vídeo para sustituir la pista mezclada original.
Punto clave: el modo «Solo voces» conserva todas las voces humanas — tanto la del hablante principal como cualquier voz de fondo. Si alguien está hablando en una televisión al fondo, ese habla puede permanecer en la salida junto con tu voz principal. La IA trata toda vocalización humana del mismo modo.
Cuándo necesitas eliminar música de fondo
Esta herramienta resuelve un problema específico: tienes una grabación donde el habla es buena, pero hay música no deseada sonando al fondo. Estos son los escenarios más comunes.
- Limpieza de podcast. Un invitado grabó su parte de la conversación con música sonando en su habitación, o un copresentador tenía una playlist de Spotify que se colaba en su micrófono. El habla es perfectamente utilizable, pero la música de fondo hace que el episodio suene poco profesional y crea posibles problemas de derechos de autor. Pasar el audio por el modo Solo voces elimina la música mientras preserva la conversación.
- Grabaciones de entrevistas. Las entrevistas realizadas en cafeterías, restaurantes o eventos a menudo captan la música de fondo del sistema de sonido del lugar. Las respuestas del entrevistado son lo suficientemente claras como para entenderse, pero la música ambiental distrae y hace que la grabación sea difícil de utilizar en un documental, un reportaje o un artículo. La separación por IA aísla las voces de la banda sonora del local.
- Narración de vídeo con banda sonora. Grabaste una voz en off o narración sobre un vídeo que ya tenía música de fondo incrustada en la pista de audio. Ahora necesitas la narración sin la música — quizá para volver a editar el vídeo con otra música, o para usar la narración en otro contexto. Demucs separa la narración hablada de la banda sonora subyacente.
- Extracción de voz en off de un vídeo. Un vídeo de formación, un explicativo o una presentación tiene un narrador hablando sobre música de fondo. Quieres reutilizar la narración en un nuevo proyecto, traducirla o transcribirla con precisión. Extraer un habla limpia sin la música hace que la transcripción sea mucho más precisa y te proporciona una pista de voz en off aislada y utilizable.
- Limpiar grabaciones con TV o radio de fondo. Alguien grabó una nota de voz, una llamada telefónica o un vídeo casero mientras se reproducía un programa de TV, una emisora de radio o un stream de música al fondo. El audio de fondo distrae y puede contener contenido protegido por derechos de autor. La IA puede eliminar los componentes musicales, limpiando significativamente la grabación.
Separación de habla vs. música
Comprender cómo la IA separa el audio te ayuda a establecer expectativas realistas sobre la calidad del resultado.
Demucs es una red neuronal profunda entrenada con miles de horas de música. Ha aprendido a descomponer el audio mezclado en cuatro stems: voces (cualquier voz humana — cantada o hablada), batería (percusión), bajo (bajo eléctrico, sintetizador de bajo, instrumentos de baja frequency) y otros (todo lo demás — guitarras, teclados, cuerdas, sintes, efectos de sonido). Cuando seleccionas Solo voces, el modelo reconstruye solo el stem vocal y descarta el resto.
Esto significa que la IA elimina todos los sonidos no vocales, no solo la «música» en el sentido tradicional. Esto es lo que se separa:
- Eliminado: música de fondo, loops instrumentales, banda sonora, jingles, guitarra, piano, sintetizadores, ritmos de batería, líneas de bajo, colchones musicales ambientales.
- Conservado: habla, canto, tarareo, risas, respiraciones vocales, sonidos de labios — cualquier cosa producida por la voz humana.
- Parcialmente eliminado: ruido ambiental, reverberación de la sala, viento, tráfico, zumbido del aire acondicionado. Estos sonidos no musicales y no vocales no encajan del todo en ninguna de las cuatro categorías de stems. La IA los gestiona de manera inconsistente — parte del ruido ambiental acaba en el stem de voces, parte en el stem de otros. Obtendrás una grabación más limpia, pero no esperes una eliminación total del ruido ambiental.
Conclusión práctica: si tu grabación tiene habla mezclada con música, la separación será muy efectiva. Si el sonido no deseado es ruido ambiental no musical (tráfico, viento, HVAC), los resultados serán parciales. Para una noise reduction pura sin separación musical, una herramienta de noise reduction dedicada es más apropiada.
Consejos para una extracción de habla limpia
La IA hace la mayor parte del trabajo, pero la calidad de tu entrada afecta directamente a la calidad de la salida. Sigue estas pautas para obtener la extracción de habla más limpia posible.
- Usa el archivo fuente de mayor calidad. Los archivos WAV y FLAC conservan todo el detalle de audio, dando a la red neuronal la mayor cantidad de información con la que trabajar. Si solo tienes un MP3, usa la versión con la tasa de bits más alta disponible. Un MP3 a 320 kbps se separará mejor que una versión a 128 kbps de la misma grabación porque conserva más información espectral que la IA utiliza para distinguir el habla de la música.
- Asegúrate de que el habla sea más fuerte que la música. La separación por IA funciona mejor cuando la señal objetivo (el habla) es el componente dominante. Las grabaciones donde el habla y la música están a niveles de volumen similares producen buenos resultados. Las grabaciones donde la música es significativamente más fuerte que el habla son más difíciles — la IA puede perder algún detalle del habla junto con la música. Si es posible, ajusta la mezcla antes de procesar para que el habla quede por encima de la música.
- Minimiza otras fuentes de ruido. La música de fondo es lo que quieres eliminar, pero otras capas de ruido (eco de sala, viento, siseo) añaden complejidad. La IA gestiona muy bien una tarea de separación — separar voces de instrumentos. Añadir ruido encima de la música encima del habla hace que las tres sean más difíciles de desenredar. Graba en un entorno silencioso cuando sea posible, incluso si la música es inevitable.
- Recorta hasta la sección relevante. Si solo una parte de tu grabación tiene el problema de música de fondo, recorta el archivo a esa sección antes de subirlo. Los archivos más cortos se procesan más rápido y evitas reprocesar secciones que ya están limpias. Puedes volver a unir los segmentos después en cualquier editor de audio.
- Comprueba tanto la salida de voces como la instrumental. A veces una pequeña cantidad de habla se filtra al stem instrumental, o una pequeña cantidad de música se filtra al stem de voces. Escuchar ambas salidas te ayuda a identificar posibles artefactos de separación. Si el stem de voces tiene filtración de música, intenta procesar el archivo de nuevo — la IA puede producir resultados ligeramente distintos en una segunda pasada.
Alternativa: extraer primero el audio del vídeo
Si tu material fuente es un archivo de vídeo (MP4, MOV, AVI, MKV), necesitas un paso adicional antes de que el eliminador de voz pueda ayudarte. La herramienta procesa archivos de audio, no vídeo. Este es el flujo de trabajo:
- Extrae la pista de audio de tu vídeo. Utiliza una herramienta como FFmpeg (
ffmpeg -i video.mp4 -vn -acodec pcm_s16le audio.wav) o cualquier conversor en línea de vídeo a audio. Extrae como WAV para obtener la mejor calidad. Si el vídeo tiene varias pistas de audio (p. ej., narración en la pista 1, música en la pista 2), es posible que ya tengas una separación limpia y no necesites IA en absoluto — revisa primero los ajustes de pistas de audio de tu editor de vídeo. - Sube el audio extraído al eliminador de voz. Selecciona el modo Solo voces y procesa. La IA separará el habla de la música de fondo en la pista de audio extraída.
- Reemplaza el audio en tu editor de vídeo. Importa la pista vocal limpia de nuevo en tu software de edición de vídeo (Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut o cualquier editor). Silencia o elimina la pista de audio original y sincroniza la pista de voces limpia en su lugar. La mayoría de los editores te permiten alinear el nuevo audio al inicio de la línea de tiempo para una sincronización perfecta.
Este flujo de trabajo de tres pasos es estándar para los productores de vídeo que necesitan limpiar material de entrevistas, eliminar música con derechos de autor de contenido generado por usuarios o aislar la narración para volver a editar. El paso adicional de extraer primero el audio es necesario porque los archivos de vídeo contienen datos visuales que la IA no necesita y no puede procesar.