Die Zielauflösung

Nachdem wir uns in den letzten Kapiteln ausführlich mit schwarzen Balken und Seitenverhältnissen beschäftigt haben, bleibt die Frage, welche Zielauflösung das fertige Encoding haben sollte. Das kommt wie immer darauf an, doch grundsätzlich gilt: Optimal ist die unveränderte Originalauflösung abzüglich der schwarzen Balken.

Alles andere hat Nachteile und braucht einen sehr guten Grund, es trotzdem zu tun! Das Bild zu vergößern ist ungünstig, da wir dadurch keine Details gewinnen und mehr Daten als nötig encodieren. Verkleinern bedeutet dagegen immer einen Detail- und damit Qualitätsverlust. Höchstens bei extrem begrenztem Speicherplatz kann eine verkleinerte Auflösung doch sinnvoll sein. Für moderne Encodings ist damit schon fast alles Wesentliche zur Zielauflösung gesagt.

Auflösungsregeln

Sehen wir uns genauer an, was es bei der Zielauflösung zu beachten gibt. Dabei kommt es vor allem darauf an, ob wir in zwei Encodingdurchläufen eine fest vorgegebene Dateigröße erreichen wollen oder in nur einem Durchlauf auf ein bestimmtes Qualitätsniveau abzielen.

Feste Zielqualität/variable Zielgröße (1-Pass):

  • Schwarze Balken schneiden wir komplett weg, abgesehen von einer Ausnahme bei Blu-rays.
  • Kein Resizing, d.h. abgesehen von den Balken behalten wir die Originalauflösung.
  • Sowohl die endgültige Höhe als auch die Breite müssen gerade Zahlen sein.
  • Ist die Quelle anamorph, müssen wir Encoder und Muxer das richtige Seitenverhältnis mitteilen.

Feste Zielgröße/variable Zielqualität (2-Pass):

  • Grundsätzlich gilt das Gleiche wie für den 1-Pass.
  • Ist die Zielgröße zu klein, um die Originalauflösung in akzeptabler Qualität zu encodieren, kann es sinnvoll sein, auf ein kleineres Bild zu skalieren.
  • Wenn wir anamorphe Quellen skalieren, rechnen wir auch auf quadratische Pixel um.

Gültige Auflösungen

Obwohl wir im fertigen Encoding nicht wie die DVD und Blu-ray auf einige wenige Auflösungen festgelegt sind, können wir doch nicht komplett frei wählen. In den Listen weiter oben steht schon die Minimalanforderung: Höhe und Breite müssen glatt durch 2 teilbar sein (mod-2), optimal ist sogar mod-16. Woher kommen diese Einschränkungen, und können wir sie unter Umständen ignorieren?

Minimalanforderung: mod-2

Die Mod-2-Anforderung geht auf die Eigenschaften des Farbraums YV12 zurück. Mindestens unser fertiges Encoding verwendet auf jeden Fall YV12. Meistens trifft das sogar auf die komplette Verarbeitungskette zu. YV12 viertelt die Farbauflösung. Die kleinste unabhängige Einheit des Bilds ist dadurch nicht mehr ein einzelnes Pixel, sondern 2×2 Pixel große Blöcke. Das macht auch eine ungerade Breite oder Höhe unmöglich.

An mod-2 führt kein Weg vorbei. YV12 benötigt vollständige 2×2-Blöcke. Eine ungerade Breite oder Höhe können wir entweder gar nicht einstellen oder erhalten spätestens vom Encoder eine Fehlermeldung.

Optimal: mod-16

Mod-16 ergibt sich aus der Arbeitsweise des Encoders. Die Bewegungssuche und Bewegungskompensierung aller MPEG-4-Encoder arbeitet mit Makroblocks, die eine Fläche von 16×16 Pixeln zu einer Einheit zusammenfassen. Für einen Encoder besteht das Bild also aus in Zeilen und Spalten angeordneten Makroblocks. Einzelne Pixel spielen nur eine untergeordnete Rolle. Solange das Bild horizontal und vertikal durch 16 teilbar ist (Mod16-Kriterium), funktioniert das auch bestens. Schwierigkeiten tauchen erst bei Nicht-Mod16-Auflösungen auf, wie im folgenden Screenshot aus Big Buck Bunny dargestellt.

Die gestrichelten schwarzen Linien zeigen die Grenzen der 16×16-Makroblocks. Das eigentliche Bild hat eine Auflösung von 458×260, die sich nicht glatt in vollständige Blocks aufteilen lässt. Im Screenshot sind das die beige hinterlegten Pixel, die rechts und unten in die letzte Makroblockspalte bzw. -zeile hineinragen.

Da der Encoder nur mit vollständigen Makroblocks arbeiten kann, muss für die zusätzlichen »angeschnittenen« Blocks eine Lösung her. Für die MPEG-Formate ist direkt im Standard ein offizielles Verfahren definiert. Der Encoder vergrößert intern die Auflösung auf den nächsten vollen Makroblock (im Beispiel 464×272) und füllt die unbenutzte Fläche (hellbeiger Bereich) mit Pseudo-Bildinformationen. Normalerweise wird einfach die letzte Pixelzeile bzw. -spalte des Bildes vervielfacht. Beim Abspielen schneidet der Decoder das erweiterte Stück Bild wieder ab, so dass wir von der ganzen Sache nichts mitbekommen.

Damit dürfte klar sein, woher die Mod-16-Regel stammt. Wir ersparen dem Encoder das Erweitern und Auffüllen des Bildes und verhindern so eine evtl. geringere Encodingeffizienz. Schließlich muss bei Nicht-Mod16-Auflösungen intern ein überflüssiges Stück Bild encodiert werden, was unweigerlich einen kleinen Teil der Bitrate verbrät.

Tendenziell ist der Effizienzverlust um so geringer, je dichter die Bildauflösung unter einer Mod-16-Grenze liegt. Denn dann muss der Encoder nur wenige Pixelzeilen und -spalten ergänzen.

Mod-16 ist im Gegensatz zu mod-2 eine Empfehlung, die wir durchaus missachten können. Wie hoch der Effizienzverlust ausfällt, hängt vom Encoder und den Eigenschaften des Films ab.

  • MPEG-4 ASP (Xvid, DivX) ist anfälliger für nicht-mod-16 als H.264 (x264).
  • Der Effizienzverlust ist auf jeden Fall gering. Er bewegt sich im schlechten Fall im Bereich von wenigen Prozent.
  • Effizienz ist nicht gleichbedeutend mit Qualität! Im 1-Pass-Verfahren steigt durch nicht-mod-16 die Dateigröße ohne dass sich die Qualität verändert. Im 2-Pass sinkt theoretisch die Qualität. Allerdings ist der Verlust so gering, dass er bis auf ganz extreme Ausnahmefälle unsichtbar bleibt.

Unter dem Strich bedeutet das: Wenn wir beim Cropping eine Mod-16-Auflösung erreichen, ist das nett und optimal. Nicht-Mod-16-Auflösungen sind für H.264-Encodings absolut unbedenklich und für ASP zumindest unkritisch. Bleiben evtl. inkompatible Abspielgeräte, was v.a. bei alten Hardwareplayern vorkommen kann.

Skalierte Zielauflösung

Für ein modernes Encoding ist eine skalierte Zielauflösung ungewöhnlich. Wir sehen uns in diesem Abschnitt trotzdem an, wie wir verkleinerte Auflösungen richtig berechnen. Früher war das Resizing der DVD-Quelle zwingend nötig, um auf zwei oder sogar nur einer CD überhaupt brauchbare Qualität unterbringen zu können. Heute taucht es manchmal auf, um Blu-rays extrem platzsparend zu encodieren.

Die Zielauflösung zu berechnen schließt direkt ans Anamorph-Kapitel an, denn wenn wir skalieren, rechnen wir gleichzeitg anamorphe Quellauflösungen auf quadratische Pixel um. Der Hauptvorteil der anamorphen Zielauflösung liegt darin, dass wir aufs Resizing ganz verzichten. Skalierte anamorphe Zielauflösungen haben dagegen keinen nennenswerten Vorteil, so dass wir potenziellen Problemen mit nicht-quadratischen Pixeln gleich ganz aus dem Weg gehen – auch wenn die heute äußerst unwahrscheinlich sind.

Als Beispiel nehmen wir wie schon im Anamorph-Kapitel Die fabelhafte Welt der Amélie her. Sorgfältig beschnitten und auf 608 Pixel Breite skaliert, sieht das folgendermaßen aus:

720×576 - Zuschneiden (Crop) - 714×434 - Skalieren (Resize) - 608×256

Die passende Zielauflösung zu berechnen, funktioniert mit einer einfachen Formel. Wir schneiden alle schwarzen Balken vom Originalbild weg, ändern die Größe und rechnen dabei falls nötig auf quadratische Pixel um.

Zusätzlich zur eigentlichen Berechnung achten wir darauf, dass beide Dimensionen mindestens mod-2 erfüllen müssen, idealerweise sogar mod-16.

Um die endgültige Auflösung zu ermitteln, wählen wir zuerst die Zielbreite, z.B. 608 Pixel (was 38×16 entspricht). Welche Breite sinnvoll ist, hängt hauptsächlich davon ab, wie stark wir den Film schrumpfen wollen. Genaueres dazu weiter unten. Die passende vertikale Auflösung erhalten wir mit dieser Formel:

Zielhöhe = Zielbreite / (AR nach Cropping x PAR)
  • Zielbreite: Kein Problem hier. Diese Zahl haben wir ja gerade selbst festgelegt. An dieser Stelle setzen wir einfach unsere 608 Pixel ein.

  • AR nach Cropping: Bezeichnet das Seitenverhältnis des Bildes nach dem Cropping der schwarzen Balken. An dieser Stelle brauchen wir uns um Verzerrungen noch keine Gedanken machen. AR bedeutet hier einfach das Verhältnis von beschnittener Breite zu beschnittener Höhe: 714/434 in unserem Fall.

  • PAR: Hier kümmern wir uns schließlich darum, das Bild korrekt zu entzerren. Das Amélie-Beispiel ist eine 16:9-PAL-DVD. Das dazu passende Pixel-AR lesen wir aus der DVD-PAR-Tabelle ab: 16/11. Für Blu-ray-Quellen gelten folgende PARs:

    Blu-ray-Seitenverhältnisse
    Original-Auflösung PAR DAR
    1920×1080 1/1 16/9
    1440×1080 4/3 16/9
    1280×720 1/1 16/9

Eingesetzt und ausgerechnet erhalten wir im Beispiel 253,6 Pixel in der Vertikalen.

Zielhöhe = 608 / (712/432 x 16/11) ≈ 253,6

Dass ein Bildschirm natürlich natürlich keine Bruchteile von Pixeln darstellen kann, brauchen wir nicht extra zu beachten, weil die Zielhöhe sowieso das Mod16-Kriterium einhalten soll. Entsprechend runden wir das Ergebnis der Formel noch auf das nächste Vielfache von 16 und erhalten 256 (16×16).

Mod-16 erkaufen wir mit einem kleinen Nachteil. Da wir die Auflösung nicht pixelgenau zurechtrücken können, entsteht eine Abweichung zum eigentlich richtigen Ergebnis. Da wir eine etwas zu hohe vertikale Auflösung gewählt haben, enthält das Bild minimale Eierköpfe. In der Praxis brauchen wir uns darüber keine Gedanken zu machen, denn die Verzerrung ist auf jeden Fall zu gering, um sichtbar zu werden.

Auflösung und Qualität im 2-Pass

Eine verkleinerte Auflösung ist v.a. fürs 2-Pass-Encoding mit vorher festgelegter Zielgröße interessant. Als die CD noch das Standard-Speichermedium war, gab es praktisch keine andere Möglichkeit, einen Film in akzeptabler Qualität auf dem beschränkten Speicherplatz unterzubringen.

In diesem Abschnitt beschäftigen wir uns hauptsächlich mit diesem historischen 2-Pass-Encoding, für das es intensiv erprobte Verfahren und Richtwerte für die Abwägung zwischen Qualität und Auflösung gibt. Die Grundüberlegungen gelten im Wesentlichen genauso für alle Situationen, in denen der Speicherplatz für die Originalauflösung nicht ausreicht. Diese Szenarien sind aber zu unüblich, als dass ich dafür konkrete Empfehlungen abgeben könnte.

Qualitätsindikatoren

Unser Ziel ist es, im vorhandenen Speicherplatz die maximal mögliche visuelle Qualität zu erreichen. Dazu müssen wir Auflösung, Encodingartefakte und Nicht-Videodaten (v.a. Audiospuren) gegeneinander abwägen. Im Wesentlichen stehen uns drei Indikatoren zur Verfügung.

Aussagekraft verschiedener Qualitätsindikatoren
Indikator Aussagekraft
Bitrate pro Sekunde nutzlos
relative Bitrate (BPF) ungenügend
Kompressionstest guter individueller Anhaltspunkt

Obwohl man sofort an die Bitrate pro Sekunde denkt, wenn man einen digitalen Film sieht, interessiert uns die während des gesamten Backupprozesses überhaupt nicht. Die Angabe, wie viele Bits dem Encoder im Durchschnitt pro Sekunde zur Verfügung stehen, ist viel zu ungenau, um eine brauchbare Aussage über die Qualität zu liefern.

Ähnliches gilt für die Bitrate pro Pixel, auch bekannt als relative Bitrate oder BPF-Wert. Die gibt an, wie viele Bits zum Encodieren eines einzelnen Pixels in jedem Bild durchschnittlich zur Verfügung stehen. Das ist zwar etwas aussagekräftiger als die Sekundenbitrate, aber noch immer ungenügend. Denn die visuelle Qualität hängt wesentlich von der Komplexität des Films ab. Z.B. benötigt ein Drama mit vielen langen Dialogen und hauptsächlich langsamen Szenen für die gleiche sichtbare Qualität einen niedrigeren Wert als ein schneller Actionstreifen.

Die individuellen Eigenschaften eines Films berücksichtigt nur der Kompressionstest. Der Test nimmt in regelmäßigen Abständen kurze Schnipsel aus dem Film und encodiert die mit maximaler Qualität. Das Ergebnis ist ein guter Anhaltspunkt für die tatsächlich sichtbare Qualität des Encodings.

Wahl einer sinnvollen Auflösung

Die Herausforderung ist es, schon im Vorfeld die Parameter des Encodings so einzustellen, dass sie in etwa auf den Film passen. Anschließend führen wir den Kompressionstest durch, der uns genauer darüber Aufschluss gibt, wie gut die erste Wahl war. Wenn sich dabei herausstellt, dass wir daneben gelegen waren, passen wir eben noch einmal an.

Je kleiner die Auflösung, desto weniger Details enthält ein Einzelbild unabhängig von jeder Kompression. Abgespielt wird der Film aber im Vollbild. Es ist zwar kein Problem, ein Bild so weit zu strecken, dass es den ganzen Bildschirm ausfüllt, nur lassen sich dadurch die Details nicht zurückgewinnen. Deshalb führt eine kleinere Auflösung zwar zu einer weniger starken Kompression und vermeidet dadurch möglicherweise Makroblock-Artefakte; das erkaufen wir jedoch mit einem Qualitätsverlust an anderer Stelle: weniger Bilddetails. 600 Pixel in der Horizontalen eignet sich gut als Untergrenze, um den Detailverlust im erträglichen Rahmen zu halten. Das Maximum ist Spätestens dann erreicht, wenn sowohl Höhe als auch Breite der zugeschnittenen Originalauflösung entsprechen. Eine weitere erfindet nur Pseudodetails, die auf der DVD nie vorhanden waren. Schöner lässt sich Bitrate nicht verschwenden.

Und damit zu ein paar konkreten Anhaltspunkten für die Auflösungswahl. Wir können uns an der Fläche der Zielauflösung orientieren, so wie in der Tabelle zu sehen. Ungewöhnlich lange/kurze Filmlängen oder ungewöhnlich große/kleine Audiospuren sollten wir dabei natürlich zusätzlich berücksichtigen.

Daumenregeln für die Auflösungswahl bei DVD-Quellen
Zielgröße Auflösung (Fläche)
1 CD Größenordnung 160.000 Pixel
2 CDs Größenordnung 230.000 Pixel, aber nicht mehr als die Originalauflösung
größer Originalauflösung

Die Auflösung ist nicht die einzige Schraube, an der sich drehen lässt. Wir können auch:

  • die Anzahl der Tonspuren ändern,
  • die Tonspuren stärker oder schwächer komprimieren,
  • die Zielgröße verändern.

Die Auswirkungen dieser Anpassungen abzuschätzen, erfordert etwas Erfahrung. Die Tabelle oben geht für 1-CD-Encodings von einer einzelnen kleinen Audiospur aus und für 2-CD-Encodings von einer großen (möglicherweise AC-3) bzw. zwei kleineren.

Das wichtigste an der Auflösungswahl ist, die Grenzen als die fließenden Richtlinien zu sehen, die sie sind. Mit wachsender Erfahrung weiß man irgendwann intuitiv, welcher Film ein paar mehr Bits nötig hat und welchen man ein bisschen mehr quetschen kann. Außerdem ist sowieso alles vorläufig. Nach dem Kompressionstest haben wir einen Indikator, der uns deutlich mehr als einen groben Anhaltspunkt bietet. Da der genaue Ablauf des Tests von der Software abhängt, besprechen wir den später im StaxRip-Kapitel des Praxisteil.

Kommentare