Cómo transcribir audio
Transcribir audio a texto con nuestra herramienta de IA requiere tres pasos. Sin instalación de software ni creación de cuenta — todo funciona en tu navegador.
Sube tu audio
Arrastra y suelta tu archivo de audio o haz clic para buscarlo. Admite MP3, WAV, FLAC, OGG, M4A, AAC, WMA y archivos de vídeo de hasta 100 MB.
Elige los ajustes
Selecciona el formato de salida (TXT, SRT o VTT), elige el idioma o usa la detección automática, y selecciona el modo Rápido o Mejor calidad.
Obtén tu transcripción
La IA procesa tu audio y entrega una transcripción de texto que puedes previsualizar, copiar o descargar. El procesamiento tarda aproximadamente 1 minuto por cada 5 minutos de audio.
Todo el proceso ocurre en nuestros servidores — tu navegador sube el archivo, la IA lo transcribe y recibes el resultado. No se necesita potencia de procesamiento local, por lo que funciona en cualquier dispositivo, incluidos móviles y tabletas.
Formatos de audio admitidos
Nuestra herramienta de transcripción acepta todos los formatos de audio principales. Aquí tienes qué es cada formato y cuándo es probable que te lo encuentres.
MP3
ComprimidoEl formato de audio más común. Los archivos MP3 son compactos y se usan ampliamente para música, podcasts, grabaciones de voz y audio descargado. La mayoría de las apps de grabadora de voz del móvil exportan MP3 por defecto. Excelente compatibilidad con el motor de transcripción.
WAV
Sin pérdidaFormato de audio sin comprimir usado en grabación profesional. Los archivos WAV son grandes pero conservan todos los detalles de la grabación original. Salida habitual de interfaces de audio, DAWs y equipos de dictado profesional. La mejor calidad de audio para la precisión de la transcripción.
FLAC
Sin pérdidaFormato comprimido sin pérdida — la misma calidad que WAV pero aproximadamente la mitad de tamaño. Lo usan audiófilos y en grabaciones para archivo. Los archivos FLAC ofrecen una excelente precisión de transcripción porque no se descartan datos de audio durante la compresión.
OGG
ComprimidoFormato de audio comprimido de código abierto (normalmente códec Vorbis). Común en videojuegos, software libre y algunas apps de grabación de voz. Calidad similar al MP3 al mismo bitrate. Totalmente compatible con el motor de transcripción.
M4A
Audio AppleFormato de audio por defecto de Apple que usa compresión AAC. Los iPhone, iPad y Mac generan archivos M4A desde la app Notas de Voz, grabaciones de pantalla y otras herramientas integradas. Calidad ligeramente superior a MP3 con el mismo tamaño de archivo.
AAC
ComprimidoAdvanced Audio Coding — el códec dentro de los contenedores M4A. También se usa de forma independiente en servicios de streaming, grabaciones de videoconferencias y algunas grabadoras de voz Android. Mejor eficiencia de compresión que MP3, excelentes resultados de transcripción.
WMA
ComprimidoFormato Windows Media Audio de Microsoft. Presente en grabaciones de voz antiguas de Windows, software de dictado y archivos de audio heredados. Menos común hoy pero aún compatible. Si tienes archivos WMA de herramientas antiguas de dictado de Windows, se transcribirán sin conversión.
También archivos de vídeo: también puedes subir archivos de vídeo (MP4, MKV, AVI, MOV, WebM) directamente. La herramienta extrae automáticamente la pista de audio y transcribe el habla — no hace falta convertir el vídeo a audio primero.
Precisión de la transcripción
La transcripción por IA no es perfecta — ninguna herramienta automatizada lo es. Comprender qué afecta a la precisión te ayuda a obtener los mejores resultados y a tener expectativas realistas sobre tu transcripción.
La precisión típica oscila entre el 85 % y el 95 % palabra por palabra, dependiendo de los siguientes factores:
- Calidad del audio. Es, con diferencia, el factor más importante. Una grabación hecha con un micrófono decente en una sala silenciosa se transcribirá casi a la perfección. Una grabación desde un móvil apoyado en una mesa durante una reunión ruidosa tendrá muchos más errores. Cuanto más limpia sea la señal de audio que llega a la IA, mejor el resultado.
- Ruido de fondo. La música, el tráfico, el zumbido del aire acondicionado, el tecleo y otros sonidos ambientales compiten con el habla por la atención de la IA. Un ruido de fondo bajo y constante (como un ventilador) se gestiona razonablemente bien. Los sonidos fuertes intermitentes (puertas que se cierran, teléfonos que suenan) causan más errores porque la IA puede interpretar el ruido como habla o perder palabras que se solapan con el ruido.
- Número de interlocutores. Un único interlocutor es el caso más sencillo para la transcripción por IA. Cuando hablan varias personas — especialmente si se interrumpen o solapan — la precisión baja. La IA no separa actualmente a los interlocutores por identidad (no hay diarización de locutor), por lo que todo el habla se transcribe como un único flujo continuo.
- Acentos y patrones de habla. El modelo de IA Whisper está entrenado con un conjunto de datos diverso que cubre muchos acentos en inglés (americano, británico, australiano, indio, etc.) y muchos idiomas. Sin embargo, los acentos regionales muy marcados, el habla rápida, el hablar entre dientes o el uso intensivo de jerga reducirán la precisión frente a una pronunciación clara y estándar.
- Vocabulario técnico. Los términos específicos de un campo — terminología médica, jerga legal, nombres de marca, acrónimos — pueden transcribirse fonéticamente en lugar de correctamente si no estaban bien representados en los datos de entrenamiento. Puede que tengas que corregir manualmente términos especializados en la salida.
- Distancia de grabación. Un micrófono de solapa capta el habla mucho más claramente que un teléfono situado al otro lado de la sala. Cuanto más lejos esté el interlocutor del micrófono, menor será la relación señal/ruido y más tendrá que adivinar la IA palabras poco claras.
Casos de uso de la transcripción de audio
La transcripción de audio ahorra horas de mecanografía manual. Estos son los escenarios más comunes donde convertir audio en texto aporta un valor real.
- Grabaciones de reuniones. Graba las reuniones de tu equipo (Zoom, Teams, Google Meet) y transcríbelas después. Una transcripción en texto es buscable, ojeable y fácil de compartir con quienes no pudieron asistir. Extrae tareas y decisiones sin volver a escuchar la grabación completa.
- Clases y conferencias. Los estudiantes pueden grabar las clases y generar transcripciones para sus apuntes. Una transcripción te permite buscar temas concretos, resaltar conceptos clave y repasar la materia a tu ritmo en lugar de reproducir una grabación de 90 minutos para encontrar una explicación.
- Notas de voz y lluvia de ideas. Muchas personas piensan más rápido de lo que escriben. Graba tus ideas como notas de voz y después transcríbelas a texto que podrás organizar, editar y compartir. Especialmente útil para escritores, creadores de contenido y cualquiera que capte ideas sobre la marcha.
- Llamadas y atención al cliente. Transcribe las conversaciones telefónicas grabadas para registros de cumplimiento, control de calidad o referencia personal. Los equipos de call center usan la transcripción para analizar las interacciones con clientes, identificar preguntas frecuentes y formar a los agentes.
- Dictado y escritura. Dicta artículos, informes, correos o escritura creativa en una grabadora de voz y transcribe el audio a texto editable. Para muchas personas es más rápido que escribir, especialmente en borradores donde la velocidad importa más que la perfección.
- Contenido de podcasts y vídeo. Transcribe episodios de podcast o bandas sonoras de vídeo para crear notas del episodio, publicaciones de blog o archivos buscables. Las transcripciones también mejoran el SEO del contenido de audio y vídeo al proporcionar a los buscadores texto para indexar.
Modo Rápido vs Mejor calidad
La herramienta ofrece dos modos de calidad de transcripción, cada uno usando una versión distinta del modelo de IA Whisper de OpenAI. Entender la diferencia te ayuda a elegir el modo adecuado para tu grabación.
Modo Rápido (Whisper base)
Usa el modelo Whisper base con 74 millones de parámetros. Procesa el audio rápidamente — aproximadamente 1 minuto por cada 5 minutos de grabación. Ideal para:
- Grabaciones claras y de alta calidad con un solo interlocutor
- Borradores rápidos que después editarás
- Grabaciones largas donde el tiempo de procesamiento importa
- Acentos estándar en entornos bien grabados
Modo Mejor calidad (Whisper small)
Usa el modelo Whisper small con 244 millones de parámetros — más de 3 veces mayor. Tarda entre 2 y 5 veces más en procesar, pero produce resultados notablemente mejores:
- Mejor puntuación y límites de frase
- Menos errores con habla acentuada e interlocutores rápidos
- Mejor gestión del ruido de fondo
- Más preciso en idiomas distintos al inglés
Como regla general: usa el modo Rápido cuando tu audio sea limpio y claro, y cambia a Mejor calidad cuando trabajes con grabaciones difíciles — entornos ruidosos, varios interlocutores, acentos o idiomas distintos al inglés. Si no estás seguro, prueba primero el modo Rápido. Si el resultado tiene demasiados errores, vuelve a ejecutarlo en Mejor calidad.
Ambos modos admiten 99 idiomas con detección automática de idioma. No hace falta indicarle a la herramienta qué idioma se habla — la IA lo identifica a partir del audio. También puedes seleccionar el idioma manualmente si la detección automática se equivoca.