Die Audiokompression¶

Auf dieser Seite

Maskierung
Leise Töne
Hohe Frequenzen
Kanalgemeinsamkeiten
Variable und konstante Bitrate

Genauso wie fürs Bild existieren für den Ton sowohl verlustlose als auch verlustbehaftete Kompressionsverfahren. Da die Details genauso schnell wie beim Bild in die höheren Gefilde von Technik und Mathematik abdriften, soll hier eine kurze Beschreibung der prinzipiellen Methoden genügen. Schließlich wollen wir irgendwann ja auch tatsächlich dem ersten Film an die Gurgel gehen, oder?

Maskierung¶

Ansatzpunkt sind wieder einmal die beschränkten Fähigkeiten der menschlichen Sinnesorgane. Im Fall der Maskierung geht es darum, dass das Ohr manche Töne nicht wahrnimmt, weil sie von einem ähnlich klingenden und/oder lauteren Ton überlagert werden. Der Audiocodec versucht anhand eines psychoakustischen Modells solche Überlagerungen zu erkennen und nur die Töne zu speichern, die tatsächlich hörbar sind.

Leise Töne¶

Jedes Audioformat – egal ob analog oder digital – enthält einen gewissen Anteil an Rauschen. Je leiser ein Ton ist, desto weniger unterscheidet er sich von diesem Grundrauschen, bis er schließlich völlig darin untergeht und unhörbar wird. Solche Töne kann der Codec natürlich weglassen, ohne dass es zu hörbaren Qualitätseinbußen kommt.

Hohe Frequenzen¶

Die auf der DVD übliche Samplingrate erlaubt es, Tonhöhen bis zu ca. 24 kHz zu speichern, was die Hörfähigkeit der meisten Menschen deutlich übersteigt. Kinder hören in der Regel sehr gut (grob bis 20, vielleicht auch 22 kHz). Bis ins Erwachsenenalter sinkt dieser Wert deutlich bis in die Region um 15–17 kHz und kann noch deutlich weiter zurückgehen, je näher die Rente rückt. Deswegen können meine Eltern seelenruhig vor ihrem uralten Fernseher sitzen, während ich das Teil durch die geschlossene Tür bis auf den Flur grauenhaft pfeifen höre.

Dazu kommt, dass ein isolierter hoher Ton viel einfacher auszumachen ist als einer, der sich in den vielen anderen Tönen einer Filmtonspur versteckt. Auch hier besteht also Einsparpotenzial.

Kanalgemeinsamkeiten¶

Eine Tonspur besteht nicht aus einem einzelnen Kanal, sondern in den meisten Fällen entweder aus zwei (Stereo) oder sechs (5.1). Zwischen den Kanälen bestehen dabei mehr oder weniger starke Gemeinsamkeiten, die sich für die Kompression ausnutzen lassen (Channel Coupling).

MP3 z.B. tut das unter dem Begriff Joint Stereo. Dabei werden die Daten der Kanäle aufgeteilt in eine gemeinsame und eine unterschiedliche Komponente. Die Gemeinsamkeiten speichert der Codec nur einmal für alle Kanäle, den unterschiedlichen Anteil separat für jeden Kanal. Das Ergebnis ist eine kleinere Datei.

Gerade Joint Stereo ist als Qualitätskiller in Verruf geraten, was weniger an der Methode an sich als an der schlechten Implementierung mancher Codecs liegt. Modernes und anständig programmiertes Channel Coupling, wie es z. B. LAME und AC-3 verwenden, arbeitet komplett verlustlos.

Neben diesen Standardverfahren verwenden verschiedene Codecs noch andere Methoden, um weiter zu komprimieren. Als Stichwort sei nur die SBR-Technik (Spectral Band Replication) erwähnt, die die zentrale Rolle bei HE-AAC spielt.

Variable und konstante Bitrate¶

Wie brutal der Audiocodec Details entfernen muss, hängt neben der Komplexität des Audiomaterials entscheidend davon ab, wie viel Speicherplatz wir der Datei gönnen. Üblicherweise wird das als Bitrate in Kilobit pro Sekunde (kbit/s) angegeben. Dabei gibt es drei verschiedene Modi.

Constant Bitrate (CBR) verteilt die Bitrate ohne Schwankungen gleichmäßig über die Datei. Bei 128 kbit/s erhält jede Sekunde auch diese 128 kbit, egal ob mehr nötig wären oder weniger ausreichen würden. Deswegen hat CBR mit voller Berechtigung mit dem Vorwurf zu kämpfen, ineffizient zu arbeiten. Allerdings ist das Verfahren sehr simpel und war deswegen besonders in der Anfangszeit der digitalen Kompression beliebt. Aktuelle Codecs setzen allerdings aus gutem Grund stark auf VBR.
Variable Bitrate (VBR) hat als Ziel nicht eine gleichmäßige Datenrate, sondern konstante Qualität. Je nach Codectechnologie darf die Bitrate im Verlauf des Tracks beliebig schwanken. So können schwierig zu komprimierenden Stellen viele Bits zugeteilt werden und weniger komplexen Stellen wenig Bits; im Idealfall immer genau so viel, um die gewünschte Qualität zu erhalten. Nachteil dieser Methode ist, dass man die genaue Dateigröße vor dem Encoding nicht kennt. Entsprechend kann man einem VBR-Codec auch keine Bitrate angeben, sondern ein Qualitätslevel. Die Bitrate einer VBR-Datei ist lediglich das Rechenergebnis aus der Dateigröße geteilt durch die Spielzeit.
Average Bitrate (ABR) versucht einen Kompromiss zwischen VBR und CBR. Zwar ist die Bitrate nicht mehr exakt festgelegt wie bei CBR, sondern darf schwanken. Allerdings achtet der Codec darauf, im gesamten Durchschnitt die angegebene Datenrate zu erreichen. Ergebnis ist eine Datei, die die gewünschte Dateigröße recht genau trifft, deren Datenrate aber weniger freizügig als bei echtem VBR schwankt, also weniger effizient komprimiert ist.