Como transcrever áudio
Transcrever áudio em texto com a nossa ferramenta de IA faz-se em três passos. Sem instalação de software, sem criação de conta — tudo corre no seu navegador.
Envie o seu áudio
Arraste e largue o seu ficheiro de áudio ou clique para procurar. Suporta MP3, WAV, FLAC, OGG, M4A, AAC, WMA e ficheiros de vídeo até 100 MB.
Escolha as definições
Selecione o formato de saída (TXT, SRT ou VTT), escolha o idioma ou use a deteção automática e escolha o modo Rápido ou Melhor qualidade.
Obtenha a sua transcrição
A IA processa o seu áudio e entrega uma transcrição em texto que pode pré-visualizar, copiar ou descarregar. O processamento demora aproximadamente 1 minuto por cada 5 minutos de áudio.
Todo o processo acontece nos nossos servidores — o seu navegador envia o ficheiro, a IA transcreve-o e recebe o resultado de volta. Não é necessária capacidade de processamento local, pelo que funciona em qualquer dispositivo, incluindo telemóveis e tablets.
Formatos de áudio suportados
A nossa ferramenta de transcrição aceita todos os principais formatos de áudio. Eis o que é cada formato e quando é provável encontrá-lo.
MP3
ComprimidoO formato de áudio mais comum. Os ficheiros MP3 são compactos e amplamente usados para música, podcasts, gravações de voz e áudios descarregados. A maioria das aplicações de gravador de voz no telemóvel exporta em MP3 por predefinição. Excelente compatibilidade com o motor de transcrição.
WAV
Sem perdasFormato de áudio não comprimido usado em gravação profissional. Os ficheiros WAV são grandes, mas preservam todos os detalhes da gravação original. Saída habitual de interfaces de áudio, DAWs e equipamento de ditado profissional. Melhor qualidade de áudio para a precisão da transcrição.
FLAC
Sem perdasFormato comprimido sem perdas — mesma qualidade que o WAV mas com aproximadamente metade do tamanho. Usado por audiófilos e em gravações de arquivo. Os ficheiros FLAC oferecem excelente precisão de transcrição, pois nenhum dado de áudio é descartado durante a compressão.
OGG
ComprimidoFormato de áudio comprimido de código aberto (normalmente codec Vorbis). Comum em jogos, software de código aberto e algumas aplicações de gravação de voz. Qualidade semelhante ao MP3 no mesmo bitrate. Totalmente suportado pelo motor de transcrição.
M4A
Áudio AppleFormato de áudio predefinido da Apple que usa compressão AAC. Os iPhones, iPads e Macs produzem ficheiros M4A a partir da aplicação Notas de Voz, gravações de ecrã e outras ferramentas integradas. Qualidade ligeiramente superior ao MP3 para o mesmo tamanho de ficheiro.
AAC
ComprimidoAdvanced Audio Coding — o codec dentro dos contentores M4A. Também é usado isoladamente em serviços de streaming, gravações de videoconferência e alguns gravadores de voz Android. Melhor eficiência de compressão que o MP3, excelentes resultados de transcrição.
WMA
ComprimidoFormato Windows Media Audio da Microsoft. Encontrado em gravações de voz antigas do Windows, software de ditado e arquivos de áudio antigos. Menos comum atualmente, mas ainda suportado. Se tiver ficheiros WMA de ferramentas de ditado antigas do Windows, serão transcritos sem conversão.
Ficheiros de vídeo também: também pode enviar ficheiros de vídeo (MP4, MKV, AVI, MOV, WebM) diretamente. A ferramenta extrai automaticamente a faixa de áudio e transcreve a fala — não precisa de converter vídeo em áudio primeiro.
Precisão da transcrição
A transcrição por IA não é perfeita — nenhuma ferramenta automatizada é. Compreender o que afeta a precisão ajuda-o a obter os melhores resultados e a definir expectativas realistas para a sua transcrição.
A precisão típica varia entre 85 % e 95 % palavra a palavra, dependendo dos seguintes fatores:
- Qualidade do áudio. Este é de longe o fator mais importante. Uma gravação feita com um microfone decente num ambiente silencioso será transcrita quase perfeitamente. Uma gravação de um telemóvel pousado numa mesa durante uma reunião barulhenta terá significativamente mais erros. Quanto mais limpo o sinal de áudio que chega à IA, melhor o resultado.
- Ruído de fundo. Música, trânsito, zumbido do ar condicionado, escrita ao teclado e outros sons ambiente competem com a fala pela atenção da IA. Ruído de fundo constante e baixo (como uma ventoinha) é razoavelmente bem gerido. Sons fortes intermitentes (portas a bater, telefones a tocar) causam mais erros porque a IA pode interpretar o ruído como fala ou falhar palavras que se sobrepõem ao ruído.
- Número de oradores. Um único orador é o caso mais simples para a transcrição por IA. Quando várias pessoas falam — especialmente se se interrompem ou sobrepõem — a precisão diminui. Atualmente a IA não separa oradores por identidade (sem diarização), pelo que toda a fala é transcrita como um único fluxo contínuo.
- Sotaques e padrões de fala. O modelo de IA Whisper é treinado num conjunto de dados diverso que cobre muitos sotaques em inglês (americano, britânico, australiano, indiano, etc.) e muitos idiomas. No entanto, sotaques regionais muito marcados, fala rápida, murmúrios ou uso intenso de calão e jargão reduzirão a precisão em comparação com pronúncia clara e padrão.
- Vocabulário técnico. Termos específicos de um domínio — terminologia médica, jargão jurídico, marcas, acrónimos — podem ser transcritos foneticamente em vez de corretamente se não estavam bem representados nos dados de treino. Pode ser necessário corrigir manualmente termos especializados no resultado.
- Distância de gravação. Um microfone de lapela capta a fala com muito mais clareza do que um telemóvel pousado do outro lado da sala. Quanto mais afastado estiver o orador do microfone, menor a relação sinal/ruído e mais a IA terá de adivinhar palavras pouco claras.
Casos de uso da transcrição de áudio
A transcrição de áudio poupa horas de escrita manual. Eis os cenários mais comuns em que converter áudio em texto oferece valor real.
- Gravações de reuniões. Grave as reuniões da sua equipa (Zoom, Teams, Google Meet) e transcreva-as depois. Uma transcrição em texto é pesquisável, fácil de percorrer e partilhar com quem faltou. Extraia ações e decisões sem voltar a ouvir a gravação completa.
- Aulas e conferências. Os estudantes podem gravar aulas e gerar transcrições para apontamentos de estudo. Uma transcrição permite-lhe procurar tópicos específicos, realçar conceitos-chave e rever a matéria ao seu ritmo, em vez de reproduzir uma gravação de 90 minutos para encontrar uma explicação.
- Notas de voz e brainstorming. Muitas pessoas pensam mais depressa do que escrevem. Grave as suas ideias como notas de voz e depois transcreva-as para texto que pode organizar, editar e partilhar. Especialmente útil para escritores, criadores de conteúdo e qualquer pessoa que capte ideias em movimento.
- Chamadas e apoio ao cliente. Transcreva chamadas gravadas para registos de conformidade, controlo de qualidade ou referência pessoal. As equipas de call center usam a transcrição para analisar interações com clientes, identificar perguntas frequentes e formar agentes.
- Ditado e escrita. Dite artigos, relatórios, e-mails ou escrita criativa para um gravador de voz e depois transcreva o áudio para texto editável. Mais rápido do que escrever para muitas pessoas, sobretudo em primeiros rascunhos, em que a velocidade importa mais do que a perfeição.
- Conteúdos de podcast e vídeo. Transcreva episódios de podcast ou bandas sonoras de vídeo para criar notas de episódio, publicações de blogue ou arquivos pesquisáveis. As transcrições também melhoram o SEO de conteúdos de áudio e vídeo, dando aos motores de pesquisa texto para indexar.
Modo Rápido vs Melhor qualidade
A ferramenta oferece dois modos de qualidade de transcrição, cada um usando uma versão diferente do modelo de IA Whisper da OpenAI. Compreender a diferença ajuda-o a escolher o modo certo para a sua gravação.
Modo Rápido (Whisper base)
Usa o modelo Whisper base com 74 milhões de parâmetros. Processa o áudio rapidamente — aproximadamente 1 minuto por cada 5 minutos de gravação. Ideal para:
- Gravações claras e de alta qualidade com um só orador
- Rascunhos rápidos que editará depois
- Gravações longas em que o tempo de processamento importa
- Sotaques padrão em ambientes bem gravados
Modo Melhor qualidade (Whisper small)
Usa o modelo Whisper small com 244 milhões de parâmetros — mais de 3 vezes maior. Demora 2 a 5 vezes mais a processar, mas produz resultados visivelmente melhores:
- Melhor pontuação e limites de frase
- Menos erros em fala com sotaque e oradores rápidos
- Melhor gestão de ruído de fundo
- Mais preciso em idiomas além do inglês
Regra geral: use o modo Rápido quando o áudio está limpo e claro, e mude para Melhor qualidade quando lidar com gravações desafiantes — ambientes ruidosos, vários oradores, sotaques ou idiomas além do inglês. Se tiver dúvidas, experimente primeiro o modo Rápido. Se o resultado tiver demasiados erros, volte a correr em Melhor qualidade.
Ambos os modos suportam 99 idiomas com deteção automática de idioma. Não precisa de indicar à ferramenta qual é o idioma falado — a IA identifica-o a partir do áudio. Também pode selecionar o idioma manualmente se a deteção automática fizer uma escolha incorreta.