Was passiert beim Erstellen einer MP3-Datei?
Wenn eine WAV- oder M4A-Datei in MP3 konvertiert wird, führt der Encoder mehrere Schritte der Reihe nach durch. Die Eingabe ist rohes PCM-Audio — unkomprimierte Samples, die den Luftdruck über die Zeit darstellen. Die Ausgabe ist ein Stream komprimierter Frames, von denen jeder wenige Millisekunden Audio umfasst.
Die Pipeline funktioniert folgendermaßen:
- Windowing: Das Audio wird in überlappende Frames von 1.152 Samples aufgeteilt (ca. 26 ms bei 44,1 kHz)
- Frequenzanalyse: Jeder Frame wird mithilfe der Modifizierten Diskreten Kosinustransformation (MDCT) vom Zeitbereich in den Frequenzbereich transformiert
- Psychoakustische Analyse: Der Encoder berechnet, welche Frequenzen in diesem Frame maskiert (unhörbar) sind
- Quantisierung: Maskierte Frequenzen werden entfernt oder erhalten weniger Bits; hörbare Frequenzen bekommen mehr Bits
- Huffman-Codierung: Die quantisierten Daten werden mithilfe von Entropiekodierung verlustfrei komprimiert
- Bitstrom-Zusammensetzung: Frame-Header, Nebeninformationen und kodierte Audiodaten werden in die Ausgabe gepackt
Das Ergebnis: Ein 44,1 kHz, 16-Bit-Stereo-WAV mit 1.411 kbps wird zu einem 320 kbps-MP3 — fast 80 % kleiner — und klingt dabei praktisch identisch.
Das psychoakustische Modell
Das psychoakustische Modell ist der Kern der MP3-Komprimierung. Es ist ein mathematisches Modell der menschlichen Hörwahrnehmung und bestimmt, was der Encoder sicher entfernen kann. Das Modell nutzt drei Arten von Maskierung:
Simultane (Frequenz-)Maskierung
Ein lauter Ton bei einer Frequenz macht benachbarte leisere Töne unhörbar. Ein lauter Beckencrash bei 8 kHz maskiert zum Beispiel eine leise Gitarrenoberton bei 9 kHz. Der Encoder erkennt diese maskierten Frequenzen und weist ihnen weniger Bits (oder keine Bits) zu. Sie würden diese Töne ohnehin nicht hören.
Zeitliche Maskierung
Maskierung wirkt auch über die Zeit. Ein lauter Ton maskiert leisere Töne, die kurz davor auftreten (Vor-Maskierung, ca. 5 ms) und kurz danach (Nach-Maskierung, ca. 50–100 ms). Der Encoder nutzt dies, um Daten bei Übergängen zwischen lauten und leisen Passagen zu reduzieren.
Absolute Hörschwelle
Das menschliche Gehör ist nicht bei allen Frequenzen gleich empfindlich. Wir hören 1–5 kHz am besten und sind unterhalb von 100 Hz und oberhalb von 16 kHz deutlich weniger empfindlich. Der Encoder entfernt jedes Audio unterhalb der absoluten Hörschwelle — Töne, die so leise sind, dass kein Mensch sie unabhängig von anderen Klängen wahrnehmen kann.
Wichtige Erkenntnis: MP3 „wirft" keine Daten einfach weg. Es verwendet ein ausgefeiltes Modell des menschlichen Gehörs, um ausschließlich das Audio zu identifizieren und zu entfernen, das Sie nicht wahrnehmen können. Deshalb klingt ein 320 kbps-MP3 in Blindtests nicht vom Original unterscheidbar.
Wie Bitrate und Qualität zusammenhängen
Die Bitrate gibt an, wie viele Kilobits der Encoder pro Sekunde verwenden kann. Mehr Bits bedeuten weniger Kompromisse:
| Bitrate | Was entfernt wird | Hörbares Ergebnis |
|---|---|---|
| 320 kbps | Nur wirklich unhörbarer Inhalt | Transparent — vom Original nicht zu unterscheiden |
| 256 kbps | Unhörbarer + Grenzbereichsinhalt | Für 99 % der Hörer transparent |
| 192 kbps | Teilweise hörbarer Inhalt | Gute Qualität; Artefakte auf Consumer-Geräten selten |
| 128 kbps | Spürbare Kompromisse | Akzeptabel für gelegentliches Hören; geschulte Ohren bemerken Verluste |
| 64 kbps | Aggressive Kürzungen über alle Frequenzen | Offensichtliche Artefakte; nur für Sprache geeignet |
Der Zusammenhang ist nicht linear. Der Sprung von 128 auf 192 kbps ist ein enormer Qualitätsgewinn. Der Unterschied zwischen 256 und 320 kbps ist kaum wahrnehmbar. Das liegt daran, dass das psychoakustische Modell den hörbaren Inhalt zuerst priorisiert — die zuletzt eingesparten Bits bei hohen Bitraten sind am wenigsten auffällig.
Eine kurze Geschichte des MP3
MP3 — offiziell MPEG-1 Audio Layer III — wurde am Fraunhofer-Institut in Deutschland entwickelt, hauptsächlich von Karlheinz Brandenburg. Der Standard wurde 1993 als ISO 11172-3 veröffentlicht.
Das Format durchlief mehrere Meilensteine:
- 1993: ISO 11172-3 veröffentlicht. MP3 existiert als Standard, hat aber noch keine guten Encoder
- 1995: Fraunhofer veröffentlicht den ersten MP3-Encoder. File-Sharing beginnt in Universitätsnetzwerken
- 1998: Das LAME-Projekt beginnt als „LAME Ain't an MP3 Encoder" — ein Patch zur Verbesserung des Referenz-Encoders
- 1999: Napster startet. MP3 wird das weltweit dominierende Musikformat
- 2003: Der iTunes Store startet und verkauft AAC-Dateien (den geplanten Nachfolger von MP3)
- 2017: Alle MP3-Patente laufen ab. Das Format ist vollständig lizenzfrei nutzbar
Obwohl AAC und Opus technisch überlegen sind, bleibt MP3 das am weitesten verbreitete Audioformat überhaupt. Jedes Gerät, jeder Player, jedes Betriebssystem unterstützt MP3.
Warum LAME der beste MP3-Encoder ist
LAME (LAME Ain't an MP3 Encoder) ist ein Open-Source-MP3-Encoder, der seit 1998 kontinuierlich weiterentwickelt wird. Er ist der Encoder, der innerhalb von FFmpeg als libmp3lame eingesetzt wird, und er ist das, was CleverUtils für jede MP3-Konvertierung verwendet.
Was LAME besonders macht:
- Über 25 Jahre Optimierung. Das psychoakustische Modell, die Quantisierung und das VBR-Tuning wurden durch Tausende von Hörtests und Code-Verbesserungen verfeinert.
- VBR-Qualitätsstufen. LAMEs VBR-Presets V0 bis V9 weisen jedem Frame dynamisch Bitrate zu. V0 (höchste, ca. 245 kbps Durchschnitt) bis V9 (niedrigste, ca. 65 kbps Durchschnitt) decken jedes Qualitätsziel ab.
- Automatisches Joint Stereo. LAME analysiert jeden Frame und wechselt automatisch zwischen Mid/Side-Stereo und vollständiger Stereo-Kodierung, wobei jeweils die effizientere Methode gewählt wird. Deshalb liefert der Standardmodus optimale Ergebnisse.
- Lückenloses Wiedergabe-Info. LAME schreibt Encoder-Verzögerungs- und Auffüllinformationen in die MP3, was auf unterstützenden Playern nahtlose Titelübergänge ermöglicht.
Unser Backend: CleverUtils verwendet FFmpeg mit libmp3lame. Wenn Sie VBR wählen, verwendet der Befehl -q:a (Qualitätsstufe 0–9). Wenn Sie CBR wählen, wird -b:a 320k (konstante Bitrate) verwendet. Beide durchlaufen die vollständige LAME-psychoakustische Pipeline.
Generationsverlust: Warum erneutes Encodieren schlecht ist
Jedes Mal, wenn Sie Audio in ein verlustbehaftetes Format kodieren, trifft der Encoder Entscheidungen darüber, was verworfen werden soll. Wenn Sie ein MP3 erneut in MP3 konvertieren, verwirft der zweite Encoder zusätzliche Daten — einschließlich Daten, die der erste Encoder für wichtig genug hielt, um sie zu behalten.
Dies nennt sich Generationsverlust, und er ist kumulativ:
- 1. Kodierung: Originalqualität (unhörbarer Inhalt entfernt)
- 2. Kodierung: Leichte Verschlechterung (Grenzbereichsinhalt entfernt, der in Durchgang 1 behalten wurde)
- 5. Kodierung: Merkliche Artefakte in komplexen Passagen
- 10. Kodierung: Klar hörbare Verzerrungen, Frequenzverlust, Stereo-Kollaps
Die praktische Regel: Kodieren Sie immer von der originalen verlustfreien Quelle (WAV, FLAC oder ALAC). Wenn Sie eine andere Bitrate benötigen, kehren Sie zur Originalaufnahme zurück und kodieren Sie erneut — kodieren Sie niemals ein vorhandenes MP3 um. Dies gilt auch für M4A-(AAC-)Quellen: Einmal in MP3 konvertieren, das Ergebnis nicht erneut konvertieren.
Häufiger Fehler: Ein 128 kbps-MP3 auf 320 kbps zu konvertieren verbessert die Qualität nicht. Die fehlenden Daten aus der 128 kbps-Kodierung sind dauerhaft verloren. Sie erhalten lediglich eine größere Datei mit gleicher (oder leicht schlechterer) Qualität aufgrund eines zweiten Kodierungsdurchgangs.