Was ist Audio-Resampling?
Wenn Sie Audio von einer Abtastrate in eine andere konvertieren (z. B. 44,1 kHz MP3 → 48 kHz WAV für die Videobearbeitung), muss jeder einzelne Sample auf einem neuen Zeitraster neu berechnet werden. Dieser Vorgang wird als Resampling bezeichnet.
Ein naiver Ansatz — einfaches Weglassen oder Duplizieren von Samples — erzeugt hörbare Klicks und Aliasing. Professionelle Resampler verwenden mathematische Interpolation (typischerweise Polyphasen-FIR-Filter), um aus diskreten Samples ein kontinuierliches Signal zu rekonstruieren und es dann mit der neuen Rate neu abzutasten. Die Qualität dieser Interpolation entscheidet, ob Ihr Audio transparent bleibt oder Artefakte aufweist.
Schlüsselkonzept: Laut dem Nyquist-Shannon-Theorem kann jedes bandbegrenzte Signal, das mit mehr als der doppelten Frequenz seiner höchsten Komponente abgetastet wird, perfekt rekonstruiert werden. Resampling nutzt dieses Theorem — ein hochwertiger Resampler kann Raten ohne hörbare Qualitätsverluste ändern.
Was ist SoXr?
Die SoXr (SoX Resampler Library) ist eine Open-Source-Resampling-Engine in Audiophile-Qualität, die ursprünglich für das SoX (Sound eXchange) Kommandozeilen-Audiotool entwickelt wurde. Sie verwendet einen FFT-basierten Polyphasen-Algorithmus, der Ergebnisse liefert, die vom Originalsignal praktisch nicht zu unterscheiden sind.
SoXr wird von professioneller Audiosoftware wie foobar2000, JRiver Media Center, MPV und VLC eingesetzt. CleverUtils.com integriert SoXr über den aresample-Filter von FFmpeg und wendet ihn bei jeder WAV-Konvertierung automatisch an.
| Parameter | Wert | Funktion |
|---|---|---|
| Engine | SoXr (CR64) | 64-Bit-Gleitkommaberechnung mit doppelter Genauigkeit |
| Präzision | 28-Bit | ~168 dB Signal-Rausch-Verhältnis — weit unterhalb des hörbaren Rauschpegels |
| Dithering | Shibata | Psychoakustisch geformtes Rauschen, das Quantisierungsartefakte aus dem empfindlichsten Hörbereich von 1–5 kHz herausschiebt |
| Anti-Aliasing | Automatisch | Steiles Tiefpassfilter verhindert Aliasing beim Downsampling |
SoXr vs. FFmpegs Standard-Resampler
FFmpeg enthält zwei Resampling-Backends: das Standard-Backend swresample (SWR) und das optionale soxr. Hier ein Vergleich:
| Aspekt | swresample (Standard) | SoXr |
|---|---|---|
| Algorithmus | Kaiser-gefenstertes Sinc (lineare Phase) | FFT-basiertes überabgetastetes Polyphasen-Verfahren |
| Interne Präzision | 16-Bit (Standard) oder 32-Bit-Float | 64-Bit-Double (CR64-Engine) |
| Aliasing-Unterdrückung | Gut (−100 dB typisch) | Ausgezeichnet (−168 dB bei precision=28) |
| Dithering | Dreieckig (flaches Spektrum) | Shibata (rauschgeformt, weniger hörbar) |
| Geschwindigkeit | Schneller | Geringfügig langsamer (~10–15 % mehr CPU) |
| Durchlassbereich-Welligkeit | Messbar nahe Nyquist | Vernachlässigbar |
| Beste Verwendung | Echtzeit-Streaming, Videowiedergabe | Mastering, Archivierung, Distribution |
Fazit: swresample ist auf Geschwindigkeit optimiert und für die Echtzeit-Wiedergabe völlig ausreichend. SoXr ist auf Qualität optimiert und die richtige Wahl, wenn eine Datei gespeichert, verteilt oder weiterbearbeitet werden soll — genau das, wofür ein Konverter gedacht ist.
Shibata-Dithering erklärt
Wenn Audio zwischen Bittiefen konvertiert wird (z. B. 32-Bit-Float intern → 16-Bit-WAV-Ausgabe), entstehen durch Rundungsfehler Quantisierungsrauschen. Dithering fügt vor dem Runden eine winzige Rauschkomponente hinzu, um die unangenehmen Verzerrungsmuster zu eliminieren.
Nicht alle Dithering-Methoden sind gleichwertig. Standard-Dreiecksdithering (TPDF) verteilt das Rauschen gleichmäßig über das Frequenzspektrum. Shibata-Dithering verwendet psychoakustische Rauschformung, um dieses Rauschen in Frequenzbereiche zu verschieben, wo das menschliche Gehör am wenigsten empfindlich ist:
| Dither-Typ | Rauschverteilung | Hörbarkeit |
|---|---|---|
| Keins (Abschneiden) | Kein Rauschen hinzugefügt | Schlechteste Option — hörbarer Klirrfaktor |
| Rechteckig (RPDF) | Flach, zufällig | Beseitigt Verzerrung, flacher Rauschpegel |
| Dreieckig (TPDF) | Flach, unkorreliert | Besser — kein Modulationsrauschen |
| Shibata (rauschgeformt) | Aus dem Bereich 1–5 kHz verschoben | Am wenigsten hörbar — nutzt die Hörkurve aus |
Warum das wichtig ist: Das menschliche Gehör ist zwischen 1–5 kHz am empfindlichsten (Fletcher-Munson-Kurve). Shibata-Dithering verschiebt Quantisierungsrauschen in den weniger empfindlichen Hochfrequenzbereich oberhalb von 10 kHz und macht es dadurch selbst auf High-End-Monitoring-Equipment praktisch unhörbar.
Wann findet Resampling statt?
SoXr wird bei jeder WAV-Konvertierung auf CleverUtils.com automatisch angewendet, hat aber in folgenden Szenarien den größten Einfluss:
| Szenario | Beispiel | SoXr-Einfluss |
|---|---|---|
| Downsampling von Hi-Res | 96 kHz FLAC → 44,1 kHz WAV | Kritisch — verhindert Aliasing-Artefakte |
| Musik → Video-Rate | 44,1 kHz MP3 → 48 kHz WAV | Wichtig — saubere Ratenkonvertierung |
| Sprach-Downsampling | 48 kHz Podcast → 22,05 kHz WAV | Wichtig — erhält Sprachklarheit |
| Gleiche Rate | 44,1 kHz MP3 → 44,1 kHz WAV | Minimal — Dithering wird bei Bittiefenänderungen weiterhin angewendet |
Der größte Qualitätsunterschied zeigt sich beim Downsampling — wenn die Zielrate niedriger als die Quellrate ist. Ohne ordnungsgemäßes Anti-Aliasing (das SoXr automatisch übernimmt) falten sich Frequenzen oberhalb der neuen Nyquist-Grenze als Verzerrungen in den hörbaren Bereich zurück.
28-Bit-Präzision: Was das bedeutet
SoXrs Parameter precision=28 legt die interne Berechnung auf 28 effektive Bits unter Verwendung der CR64-Engine (constant-rate, 64-Bit) fest. Dies entspricht einem Signal-Rausch-Verhältnis von ca. 168 dB.
Zum Vergleich:
- 16-Bit-Audio hat ~96 dB Dynamikumfang
- 24-Bit-Audio hat ~144 dB Dynamikumfang
- SoXr bei precision=28 rechnet mit ~168 dB — 24 dB unterhalb des Rauschpegels selbst von 24-Bit-Audio
Das bedeutet, dass der Resampling-Prozess selbst kein hörbares Rauschen einführt, nicht einmal bei 24-Bit-Mastern. Die interne Berechnung des Resamplers ist leiser als das leiseste Geräusch, das eine Aufnahme in der realen Welt erfassen kann.
Warum nicht precision=32? Höhere Präzisionswerte erhöhen die CPU-Zeit mit abnehmenden Erträgen. Bei precision=28 arbeitet SoXr bereits 24 dB unterhalb des Rauschpegels von 24-Bit-Audio — eine weitere Erhöhung wäre unhörbar und unpraktisch. Dies ist der Sweetspot, den die meisten professionellen Audio-Tools verwenden.
So verwendet CleverUtils SoXr
Jede WAV-Konvertierung auf CleverUtils.com durchläuft diese Pipeline:
- Upload — Ihre Audiodatei wird über HTTPS empfangen
- Dekodieren — FFmpeg liest das Quellformat (MP3, FLAC, M4A, OGG usw.)
- Resampling — SoXr konvertiert zu Ihrer gewählten Abtastrate und Bittiefe
- Dithering — Shibata-Rauschformung wird bei der Bittiefen-Konvertierung angewendet
- Kodieren — saubere PCM-Samples werden in den WAV-Container geschrieben
- Download — Ihre WAV-Datei ist bereit
Der gesamte Prozess ist automatisch. Sie wählen einfach Ihre Zieleinstellungen (Abtastrate, Bittiefe, Kanäle) und CleverUtils erledigt den Rest mit SoXr im Hintergrund. Keine Konfiguration erforderlich, kein „Qualitätsmodus"-Schalter — jede Konvertierung erhält dasselbe Resampling in Studioqualität.