O que é taxa de amostragem?
A taxa de amostragem (sample rate ou frequência de amostragem) é o número de vezes por segundo que um sinal de áudio analógico é medido e registrado como um valor digital. Cada medição é chamada de amostra. A 44.100 Hz (44,1 kHz), o áudio é medido 44.100 vezes por segundo.
Pense nisso como a taxa de quadros de um vídeo: um filme a 24 quadros por segundo captura 24 imagens estáticas a cada segundo. Taxas de quadros mais altas capturam movimento mais fluido. De forma semelhante, taxas de amostragem mais altas capturam mais detalhes na forma de onda do áudio.
O conceito crítico é o teorema de Nyquist: um sistema digital pode reproduzir perfeitamente qualquer frequência até metade da sua taxa de amostragem. Esse teto de frequência é chamado de frequência de Nyquist:
- 44,1 kHz → capta até 22,05 kHz
- 48 kHz → capta até 24 kHz
- 96 kHz → capta até 48 kHz
- 192 kHz → capta até 96 kHz
A audição humana atinge no máximo cerca de 20 kHz (e realisticamente 15–17 kHz para a maioria dos adultos). Isso significa que 44,1 kHz já capta todas as frequências que você consegue ouvir, com uma pequena margem acima.
A matemática está resolvida: o teorema de Nyquist não é uma aproximação nem uma simplificação. Está matematicamente provado que uma taxa de amostragem de 2× a frequência mais alta proporciona uma reconstrução perfeita do sinal original — não «quase perfeita», mas matematicamente idêntica. Taxas de amostragem mais altas não melhoram a reprodução das frequências audíveis.
44,1 kHz — O padrão do CD
O 44,1 kHz foi escolhido como padrão do CD em 1980 pela Sony e pela Philips. O número não foi arbitrário — derivou da necessidade de captar frequências até 20 kHz (exigindo pelo menos 40 kHz por Nyquist) mais uma pequena banda de guarda para o filtro anti-aliasing. O valor específico de 44.100 surgiu da compatibilidade com os sistemas de gravação PCM baseados em vídeo usados na época.
- Frequência de Nyquist: 22,05 kHz — confortavelmente acima do limite superior de 20 kHz da audição humana
- Padrão desde: 1982 (CD Red Book)
- Usado por: CDs, a maioria dos downloads musicais, arquivos-fonte do iTunes/Apple Music, arquivos-fonte do Spotify
- Bitrate sem compressão (estéreo, 16-bit): 1.411 kbps
Após mais de 40 anos como formato musical dominante, o 44,1 kHz desfruta de compatibilidade universal. Cada tocador MP3, celular, som automotivo, alto-falante Bluetooth e DAC do planeta lida com ele corretamente. É a escolha mais segura para distribuição musical.
48 kHz — O padrão de vídeo/broadcast
O 48 kHz foi adotado como padrão para áudio profissional de vídeo e broadcast. Foi escolhido pela AES (Audio Engineering Society) e padronizado em gravadores DAT (Digital Audio Tape).
- Frequência de Nyquist: 24 kHz — ligeiramente superior a 44,1 kHz, embora os 2 kHz extras sejam inaudíveis
- Padrão desde: 1985 (DAT), 1995 (DVD)
- Usado por: YouTube, a maioria das DAWs (Pro Tools, Logic, projetos padrão do Ableton), DVD/Blu-ray, televisão broadcast, cinema
- Bitrate sem compressão (estéreo, 16-bit): 1.536 kbps
A razão pela qual o vídeo usa 48 kHz em vez de 44,1 kHz é em grande parte histórica: as taxas de quadros de vídeo (24, 25, 30 fps) dividem 48.000 sem resto, mas não 44.100. Isso simplifica a sincronização áudio-vídeo em fluxos de trabalho de broadcast e pós-produção.
Para saída MP3: a diferença audível entre 44,1 kHz e 48 kHz é zero. Ambos cobrem toda a faixa da audição humana. A escolha entre eles é sobre compatibilidade de fluxo de trabalho, não sobre qualidade de áudio.
96 kHz e acima — Marketing vs realidade
Áudio de alta resolução a 96 kHz e 192 kHz é fortemente promovido por fabricantes de equipamentos e serviços de música «hi-res». Essas taxas de amostragem capturam frequências ultrassônicas muito acima da audição humana:
| Taxa de amostragem | Frequência de Nyquist | Tamanho do arquivo (1 min, 16-bit estéreo) | Benefício audível? |
|---|---|---|---|
| 44,1 kHz | 22,05 kHz | 10,1 MB | Toda a faixa audível |
| 48 kHz | 24 kHz | 11 MB | Igual a 44,1 kHz |
| 96 kHz | 48 kHz | 22 MB | Nenhum — ultrassônico |
| 192 kHz | 96 kHz | 44 MB | Nenhum — ultrassônico |
Existem razões legítimas de produção para gravar a 96 kHz:
- Filtro anti-aliasing mais suave: a banda de transição entre a frequência de passagem e a frequência de Nyquist é mais larga, permitindo filtros mais suaves com menos distorção de fase na faixa audível. A 44,1 kHz, o filtro precisa ser muito íngreme para cortar tudo acima de 22 kHz.
- Folga para pitch shifting: diminuir o áudio em 50 % reduz à metade todas as frequências. Uma gravação a 96 kHz abaixada uma oitava ainda tem 48 kHz de conteúdo — tudo permanece acima do limiar audível.
- Sobreamostragem durante o processamento: alguns plugins processam internamente em taxas de amostragem mais altas para evitar aliasing causado por efeitos não lineares (distorção, saturação).
No entanto, para saída MP3, taxas de amostragem altas não trazem nenhum benefício. O codificador MP3 usa um filtro passa-baixa que remove tudo acima de aproximadamente 16–20 kHz (dependendo do bitrate), e o modelo psicoacústico opera apenas em frequências audíveis. Qualquer conteúdo acima de 22 kHz numa fonte de 96 kHz é descartado antes da codificação.
Qual taxa de amostragem usar para MP3?
Para a grande maioria dos casos de uso, a resposta é simples: 44,1 kHz.
| Caso de uso | Taxa recomendada | Razão |
|---|---|---|
| Distribuição musical | 44,1 kHz | Padrão CD, máxima compatibilidade |
| Podcasts | 44,1 kHz | Padrão da indústria, funciona em todos os players |
| Trilha sonora de vídeo (YouTube) | 48 kHz | Combina com a linha do tempo do vídeo, evita reamostragem |
| Áudio de jogos | 44,1 ou 48 kHz | Depende do motor; Unity por padrão 44,1, Unreal 48 |
| Toques / alertas | 44,1 kHz | Máxima compatibilidade com celulares |
| Audiolivros | 44,1 kHz | Padrão para todas as plataformas de audiolivros |
O único cenário em que 48 kHz faz sentido para MP3 é quando o áudio faz parte de um projeto de vídeo em que toda a cadeia (câmera, linha do tempo de edição, exportação) opera a 48 kHz. Nesse caso, manter o áudio a 48 kHz evita uma etapa de reamostragem desnecessária. Para todo áudio independente — música, podcasts, gravações de voz — 44,1 kHz é a escolha correta.
O que acontece quando você muda a taxa de amostragem
Mudar a taxa de amostragem de um arquivo de áudio chama-se reamostragem (resampling). É um processo matemático que recalcula a forma de onda do áudio na nova taxa.
Downsampling (ex.: 96 kHz para 44,1 kHz)
O downsampling é seguro e efetivamente sem perdas para fins de escuta. O reamostrador aplica um filtro passa-baixa para remover frequências acima da nova frequência de Nyquist (22,05 kHz para 44,1 kHz) e depois recalcula as amostras. Como as frequências removidas estavam de qualquer forma acima da audição humana, o resultado audível é idêntico.
- 96 → 44,1 kHz: remove conteúdo acima de 22 kHz (inaudível), arquivo ~54 % menor
- 48 → 44,1 kHz: remove conteúdo acima de 22 kHz (inaudível), arquivo ~8 % menor
Upsampling (ex.: 44,1 kHz para 96 kHz)
O upsampling é matematicamente correto, mas inútil para melhorar a qualidade. O reamostrador cria novas amostras interpolando entre as existentes. O arquivo resultante é maior (mais amostras por segundo), mas não contém nenhuma nova informação de áudio. Frequências acima de 22 kHz nunca foram capturadas pela gravação original a 44,1 kHz, então não podem ser reconstruídas.
- 44,1 → 96 kHz: arquivo dobra de tamanho, nenhum novo conteúdo de áudio
- 44,1 → 48 kHz: arquivo ligeiramente maior, nenhuma diferença audível
A analogia da foto: o downsampling é como recortar uma imagem para remover pixels que você nunca verá na sua tela. O upsampling é como ampliar uma foto pequena — você obtém mais pixels, mas não mais detalhes. Os novos pixels são deduzidos matematicamente, não capturados da realidade.
Ao converter WAV para MP3, o codificador trata da reamostragem automaticamente, se necessário. Se o seu WAV de origem é 96 kHz e você codifica para MP3 a 44,1 kHz, o codificador faz o downsampling durante o processo de codificação. Não é necessário reamostrar o arquivo WAV separadamente antes.