Die Bestandteile eines Films

Ein digitaler Film ist kein einziger großer Batzen Daten, sondern ein gut geschnürtes Paket einzelner Datenhäppchen. Zu verstehen, was diese einzelnen Happen bedeuten und wie sie zusammenspielen, ist einer der wichtigsten Punkt an der ganzen Thematik des digitalen Videos.

Datenspuren

Die wichtigsten Elemente eines Films sind die Datenspuren. Jede Spur ist ein abgeschlossenes Ganzes und besitzt einen genau definierten Typ. Auf der allgemeinsten Ebene fällt der in eine der drei Kategorien Video, Audio oder Untertitel. Diese Anforderung an die Eindeutigkeit setzt sich auch im Detail fort. z.B. kann eine Audiospur kein Mix aus MP3 und Vorbis sein, sondern muss sich auf ein Format beschränken.

Unser typischer Film am Ende des Encodings besteht aus einer Videospur im MPEG-4-Format, ein bis zwei Audiospuren und vielleicht ein bis zwei Untertitelspuren, die alle entweder parallel abgespielt oder übersprungen werden. Diese einfache Struktur lässt sich schnell verkomplizieren. Dazu brauchen wir nur an die Menüs der DVD denken. Dort müssen die zum Menü gehörenden Audio- und Videoelemente zum einen miteinander verknüpft werden. Außerdem muss ein System existieren, das Interaktionen definiert. Sonst wüsste der Player nicht, welcher Teil des Bilds ein Button ist, auf den man drücken kann.

Metadaten

Ganz allgemein sind Metadaten »Daten über Daten«, also Daten, die andere Daten näher beschreiben. Der typischste Fall für einen digitalen Film ist die Kapitelliste der DVD. Diese bietet ja Zusatzinformationen zur Videospur. Ähnlich typisch ist die Angabe der Sprache einer Spur. Moderne Container bieten darüber hinaus ein umfangreiches System an Metadaten an, das weite Anwendungsbereiche abdeckt. Da man einen Film aber nach wie vor in erster Linie startet, ansieht und die Datei wieder schließt, werden diese Möglichkeiten wenig genutzt und entsprechend von den Softwaretools nicht allzu enthusiastisch unterstützt.

Container und Interleaving

Jeder Anfänger stolpert recht bald über den Begriff Container. Die meisten dürften keine genau Vorstellung haben, was damit gemeint ist. Dass ein Film aus einzelnen Spuren und zusätzlichen Metadaten besteht, haben wir gerade gesehen. Wäre das alles, müssten wir uns pro Spur mit einer eigenen Datei herumschlagen. Und obwohl man das früher bei AVI und Untertiteln beobachten konnte, ist es unschön, unpraktisch und lästig. Deswegen verpackt man die Spuren in einen Container.

Bildlich gesprochen stellt der Container die Schuhschachtel dar, in der Filmrolle und Tonband aufbewahrt werden, also die Verpackung um Bild und Ton außen herum. Das Format des Containers lässt noch nicht unbedingt auf das Format des Inhalts schließen. Begriffe wie MKV-Video sind streng genommen nicht richtig und auch nicht besonders aussagekräftig: MKV (Matroska) ist kein Video-, sondern ein Container-Format. Innerhalb der MKV können Bild- und Tonspuren verschiedenster Formate liegen. Möglichkeiten für das Bild sind natürlich MPEG-4 ASP (Xvid, DivX) und H.264, aber auch Huffyuv oder Theora und viele andere. Analog gilt die Vielfalt für den Ton. Von MP3 bis AC-3 ist eine ganze Reihe von Formaten denkbar. Exakt müsste man also beispielsweise von H.264 und AC-3 in MKV sprechen. Da das heftig umständlich ist, werden im Alltag die Begriffe wild durcheinander geworfen. Man sollte sich trotzdem immer im Klaren darüber sein, was eigentlich dahinter steckt.

So nett der Schuhkarton-Vergleich auch ist, er beinhaltet die Gefahr, dass man sich die Spuren parallel nebeneinander in einer Art Schachtel liegend vorstellt. Etwa so wie im Bild unten.

Videospur und zwei Audiospuren, die parallel nebeneinander liegen und vom Container umschlossen werden.

Das ist in der Praxis unmöglich. Ein Filmcontainer ist nichts anderes als eine ganz normale Computerdatei, im Wesentlichen also eine schier endlose Abfolge von Nullen und Einsen. Von Parallelität keine Spur. Daten können in einer Datei eben nur hintereinander gespeichert werden. Korrigieren wir also das Bild durch das kleine Beispiel eines Films mit einer Videospur (100 MB) und zwei Audiospuren (20 und 15 MB). Dass die Containerstruktur selbst Speicherplatz braucht, wollen wir vernachlässigen. Die einfachste denkbare Art, einen solchen Film zu verpacken, wäre die folgende: die Datei beginnt mit den Videodaten, dann folgt die erste und schließlich die zweite Audiospur, alles brav hintereinander wie im Bild.

Container mit Videospur 0-100 MB, Audio 1 100-120 MB, Audio 2 120-135 MB

Es ist praktisch möglich, einen Film so zu speichern. Nur hat diese Methode einen entscheidenden Nachteil. Stellen wir uns vor, wir spielen den obigen Film von einer CD ab. Was würde passieren?

Der Player beginnt, das Video abzuspielen, decodiert die ersten Frames, und das Laufwerk liest von der Disc die nötigen Daten ein, die ganz am Anfang der Datei, also auch am Anfang der Disc, liegen. Gleichzeitig soll die Tonspur anlaufen. Das Laufwerk muss nun seinen Lesekopf 100 MB weit nach hinten positionieren, Audiodaten lesen, flott wieder zurückspringen, um die nächsten Videodaten nicht zu verpassen, genauso flott zurück zur Audiospur und immer so weiter.

Auch wenn das Laufwerk wahrscheinlich schnell genug ist, um diese Tortur mitzumachen, ist es weder materialschonend noch effizient. Von der Geräuschentwicklung ganz abgesehen. Genau das Gleiche passiert auch, wenn der Film auf einem USB-Stick, einer Festplatte oder SSD liegt, nur fällt es bei diesen lautstärkearmen Medien kaum auf.

Die Lösung des Problems ist reichlich simpel: Wir zerlegen alle Spuren in kleine Happen und hängen die abwechselnd aneinander. Das Verfahren nennt sich Interleaving.

Container mit Spurenhäppchen in schneller Abfolge: V, A1, A2, V, A1, A2...

In Wirklichkeit sind die Happen deutlich kleiner als im Bild: deutlich kleiner als eine Sekunde. Läuft alles ideal, können die Daten des Films nahezu linear vom Medium gelesen werden.

zuletzt aktualisiert: 29.05.2016

Kommentare