Transcoding mit BeSweet

BeSweet benutzen wir über seine grafische Oberfläche BeLight. Wer lieber an der Konsole tippt, kann das natürlich gerne tun. Was in diesem Kapitel steht, bleibt ohne nette Grafik genauso gültig. Eine ausführliche Referenz der möglichen Parameter bietet die BeSweet-Referenz.

Audio decodieren und bearbeiten

Wir starten BeLight und öffnen per Drag & Drop auf das leere Listenfeld oder über File › Open die Quelldatei. Über File › Save stellen wir die Zieldatei ein. Je nach gewähltem Encoder passt BeLight später automatisch die Dateiendung an. Wir müssen uns also in diesem Dialog noch nicht endgültig für ein Zielformat entscheiden. Nun betrachten wir die linke Seite des BeLight-Fensters.

[x] Dynamic Compression: normal

Der erste Eintrag gehört zu Azid. Azid ist dafür zuständig, die AC-3-Tonspur zu decodieren und eventuell 6-Kanal auf 2-Kanal (Stereo) umzurechnen.

Die Bezeichnungen der Tonformate sind etwas irreführend. 6-Kanal und 5.1 bezeichnet dasselbe. Nur zählt man einmal alle Kanäle (vorne links und rechts, hinten links und rechts, Center und LFE), wogegen bei der 5.1-Schreibweise der Basskanal (LFE) extra dargestellt wird.

Mit Dynamic Compression stellen wir die gewünschte Dynamikkompression für die AC-3 ein. Als Dynamik des Sounds bezeichnet man die Unterschiede zwischen lauten und leisen Passagen. Je höher die Dynamik, desto höher ist der Lautstärken-Unterschied zwischen leisen und lauten Passagen. Die Audio-Spur eines Films hat von Natur aus eine recht hohe Dynamik. Das wird ganz klar, wenn wir uns den Showdown mit knatternden Maschinengewehren und die geflüsterte Liebesszene im Vergleich vorstellen.

Beim Downmix einer 6-Kanal-AC-3 auf Stereo würden wir ohne Kompression eine nervig leise Zieldatei bekommen, deshalb gleichen wir mit der Dynamic Compression die Unterschiede in der Lautstärke an. d.h. im Extremfall hört sich das Flüstern genauso laut an wie die Maschinengewehr-Salve. Mit der Einstellung normal treiben wir es lange nicht so weit und erreichen eine für Stereo angemessene Dynamik-Kompression.

Wollen wir den 6-Kanal-Ton beibehalten, sollten wir eine geringere Dynamic Compression als für Stereo nehmen, um den Sound nicht unnötig zu verfälschen. Da mir die Dynamik der AC-3 manchmal einfach zu hoch ist, bevorzuge ich eine leichte (light) Kompression. Man könnte sie auch ganz deaktivieren (Haken wegklicken). Auch wenn schon die Quell-AC-3 nur in Stereo vorliegt, sollten wir keine Kompression verwenden.

Wer die Dynamikkompression manuell konfigurieren möchte, nimmt Boost anstatt Azids Dynamic Compression. Achtung! Nicht beides zusammen verwenden!

Boost hat es in sich. Wir können damit das letzte bisschen Dynamik aus der Tonspur herauskomprimieren, was in meinen Ohren schon nicht besonders gut klingt. Dazu kommt die Gefahr, durch zu viel Kompression Störgeräusche im Sound zu erzeugen. Deshalb sollten wir uns gut überlegen, ob der Einsatz von Boost wirklich nötig ist. Der Weg über Azids Dynamic Compression ist meistens der bessere. Ich habe Boost noch nie verwendet und das bis jetzt auch noch nicht bereut.

Wenn’s denn sein soll, LigH schlägt im Gleitz-Forum Folgendes vor: Boost Mode LigH hat Sinn, wenn der ursprüngliche Ton schon Stereo ist. Für 6-Kanal-Quellen ist dagegen Dg sinnvoller. Tera eignet sich eher für Experimente.

Mit dem SSRC-Abschnitt weiter oben im Fenster können wir die Abtastfrequenz des Tons von den üblichen 48 kHz in einen anderen Wert umrechnen. Da die Soundkarten inzwischen ausgestorben sind, die mit 48 kHz nicht umgehen können, dürfen wir den Punkt ignorieren.

Damit weiter in den OTA-Abschnitt.

Wir müssen den Sound noch normalisieren, d.h. die Lautstärke auf 100% oder knapp darunter anheben. Durch die Dynamikkompression von oben haben wir zwar schon die Lautstärken-Unterschiede innerhalb der Tonspur angeglichen, insgesamt ist sie aber immer noch viel zu leise. Das Anheben erledigt Mode im OTA-Abschnitt.

Unter Mode sollten wir PreGain wählen, um auf der sicheren Seite zu sein. Im PreGain-Verfahren durchsucht BeSweet in einem ersten Durchgang die komplette Audiospur nach dem höchsten Pegel und hebt anhand dessen die Spur auf 100% Lautstärke an. Am sinnvollsten ist dieses Verfahren deshalb, weil bei den anderen Modi unter Umständen beim Abspielen ein Teil der Lautstärkeanhebung wieder verloren gehen kann.

HybridGain schlägt gleich am Anfang des Transcodings je nach Quelldatei einen festen Wert auf die Lautstärke auf und speichert die Differenz zu 100% in einem PostGain-Tag in der Datei. PostGain arbeitet rein mit diesem Tag. Damit entfällt der Pegelsuchlauf, was das Encoding um ein paar Minuten verkürzt. Allerdings muss der Audiodecoder später beim Abspielen des Films den PostGain-Tag auslesen und die Lautstärke entsprechend erhöhen. Vorbis-Decoder können das normalerweise, AAC-Decoder nicht. Deswegen sind wir beim AAC-Encoding gezwungen, PreGain zu wählen. Doch auch für die anderen Formate ist das die beste Lösung, da die um ein paar Minuten längere Encodingzeit nicht ins Gewicht fällt und wir sämtlichen Abspielproblemen genauso aus dem Weg gehen wie den eher theoretischen Überlegungen in Sachen geringerer Qualität.

BeLight-Fenster mit Quelldatei namens: movie AC3 T01 3_2 384Kbps DELAY 80ms.ac3

Damit kommen wir zum Delay. Das ist der Wert, um den die Audiospur zum Video verschoben sein muss, um exakt synchron zu werden. Diese Angabe steht im Dateinamen, »DELAY 8ms« in unserem Fall. Diesen Wert übernimmt BeLight automatisch. Das funktioniert allerdings nur, wenn im Dateinamen auch eine Angabe im Format »DELAY XXms« vorhanden ist, ansonsten müssen wir den Wert manuell angeben – einschließlich evtl. vorhandenem negativen Vorzeichen.

Das Delay an dieser Stelle schon zu berücksichtigen ist nicht zwingend. Wenn wir später Audio und Video muxen, können wir es auch dort angeben. Wichtig ist: Nur eine der beiden Methoden verwenden! Wer das Delay mit BeSweet abhandelt, darf es später nicht noch ein zweites Mal berücksichtigen. Anders herum genauso: Wer es nicht in BeSweet abhandelt, muss es dann später beim Muxen tun. Empfehlen würde ich die BeSweet-Methode, da man es zum Schluss beim Muxen erfahrungsgemäß gerne vergisst.

Damit kommen wir zu den Advanced Settings.

[x] LFE to LR Channels: -3db; [] Dialog Normalization Reduction; [] Control Rear Channel Filtering; [x] Output Mode: dpl; [] Normalize to 100%

Für den Downmix auf Stereo sollten die Optionen in der Regel so aussehen wie oben. LFE to LR Channels bestimmt, mit welchem Pegel der Basskanal in die vorderen beiden Kanäle gemixt werden soll. Um ein Zuviel an Bass zu vermeiden, stellen wir hier -3db ein. Mit dem Output Mode definieren wir, welche Art von Stereo erzeugt wird: Mono, normales Stereo, Dolby Pro Logic (DPL) oder Dolby Pro Logic II (DPL2). Pro Logic codiert Surroundinformationen in die beiden Stereokanäle, so dass – einen passenden Decoder vorausgesetzt – beim Abspielen zumindest ein Teil der ursprünglichen Surroundinformationen wieder hergestellt werden kann. Behalten wir die ursprünglichen sechs Kanäle bei, entfernen wir sowohl bei LFE to LR Channels als auch bei Output Mode die Haken.

Als letztes aktivieren wir die Dialog Normalization Reduction. 5.1-AC-3-Dateien enthalten in den BSI-Infos eine Angabe, wie weit die subjektiv empfundene Lautstärke der Dialogspur (Center-Kanal) unter dem maximalen Pegel liegt. Die DNR-Funktion ändert den Dialogpegel unter Berücksichtigung der BSI-Info auf –31 dB. Eine Normalisierung wird dadurch nicht beeinträchtigt, da DNR vor allen Normalisierungsfunktionen angewendet wird. Wirklich wichtig ist DNR nur dann, wenn verschiedene 5.1-AC-3s mit unterschiedlichen Dialog­leveln in eine einzelne Zieldatei transcodiert werden sollen, um die unterschiedlichen Level anzugleichen. Beim Transcoding nur einer AC-3 (oder mehrerer AC-3s mit gleichem Dialoglevel) wirkt sich die Funktion nicht aus. Außerdem sind Stereo-AC-3s nicht betroffen, da die keinen Center-Kanal enthalten.

Wenn wir 6-Kanal-Vorbis encodieren wollen, müssen wir Normalize to anhaken und auf 100 setzen; und zwar anstatt der Normalisierungseinstellung unter BeSweet OTA im Hauptfenster.

Dann haken wir noch ganz unten im Fenster Output Log file an und können das Optionenfenster wieder schließen. Danach wählen und konfigurieren wir den Encoder. Die Wahl geschieht einfach, indem wir die passende Registerkarte anklicken.

AAC-Encoding mit Nero

Neros AAC-Encoder stellt die gesamte Palette der Möglichkeiten bereit: sowohl LC- als auch HE-AAC und natürlich Stereo- und 6-Kanal-Unterstützung. Die erzeugten AAC-Dateien sind immer in den MP4-Container verpackt, was später beim Muxen wichtig wird.

Im AAC-Register stellen wir bei Encoding Engine auf Nero Digital - (CLI) und wählen links daneben die passende Anzahl an Output Channels. Dann kümmern wir uns weiter unten um die Details der Konfiguration.

CBR-Encoding (Bitrate) ist wegen der geringeren Qualität wenig empfehlenswert. Deswegen halten wir uns an den VBR-Modus (Quality). Mit dem Schieberegler darunter stellen wir das Qualitätsninveau ein, dessen interessanter Bereich etwa zwischen 0.16 und 0.3 liegt. Mit der folgenden Tabelle können wir grob abschätzen, welche Bitrate wir abhängig von der Kanalanzahl erwarten dürfen. In diesem Bereich zu bleiben, ist eine gute Idee, denn darunter sinkt die Qualität doch schnell spürbar ab und darüber rechtfertigt die größere Datei den geringen Qualitätszuwachs nicht mehr wirklich.

Nero-Bitraten in kbit/s
Qualität 6-Kanal Stereo
0.16 120 35
0.30 275 80

Das gewünschte AAC-Profil wählen wir unter Profiles: Low Complexity (LC), High Efficiency (HE) oder High Efficiency mit Parametric Stereo (HEv2). Letzteres ist nur für Stereo-Ton verfügbar und für extrem niedrige Qualitätseinstellungen unter 0.15 gedacht. Ansonsten sollten wir besser die Finger von HEv2 lassen. Mit der Einstellung Automatic wählt der Nero-Encoder das Profil automatisch je nach Qualitätsniveau. Die Grenzwerte (bis 0.15 HEv2 falls Stereo, dann bis 0.30 HE, darüber LC) sind auch durchaus sinnvoll gewählt. Ich würde lediglich LC etwas mehr zutrauen. Ab ca. Qualitätsstufe 0.25 sollten wir es problemlos verwenden können.

Damit ist die Konfiguration abgeschlossen. Wir können also mit einem Klick auf Start Processing das Transcoding starten.

Vorbis-Encoding

Die Vorbis-Einstellungen sind simpel.

Zuerst wählen wir Stereo oder 5.1, und dann bei Bitrate Management die Einstellung Quality. Vorbis ist auf echtes VBR im Constant-Quality-Modus ausgelegt und bringt nur da seine volle Leistung. Deswegen sind die Bitrate-Modi uninteressant, da wir gegenüber dem Quality-Modus Qualität verlieren würden.

Mit dem Schieberegler stellen wir dann das gewünschte Qualitätslevel ein. 2,00 ist als sehr sichere Untergrenze bestens brauchbar. Am anderen Ende der Skala steht die 5,00. Mehr ist definitiv zu viel des Guten. Für Stereo ergibt ergibt das etwa 80 kbit/s am unteren Rand und etwa 140 kbit/s an der Obergrenze. Fürs 5.1-Encoding ist etwa 3,00 eine gute Einstellung, was auf 250–300 kbit/s hinausläuft.

Mehr gibt es für Vorbis nicht zu beachten. Wir können also mit einem Klick auf Start Processing das Transcoding starten.

MP3-Encoding mit LAME

MP3 ist nicht wie Vorbis und AAC von Anfang an stark auf VBR ausgelegt. Im Gegenteil gab es lange Zeit keinen MP3-Encoder mit vernünftigem VBR-Modus. Heute gehört das allerdings dank LAME der Vergangenheit an, und es gilt auch für MP3: variable Bitrate bringt die beste Qualität und sollte immer verwendet werden.

Da MP3 nur Stereo unterstützt, entfällt die Auswahl der Zielkanäle. Wir brauchen nur im MP3-Register unter Target auf Quality zu klicken, um den VBR-Modus einzustellen.

Im Quality-Abschnitt stellen wir die gewünschte Qualitätsstufe ein. Seit LAME 3.97 gehören die weit bekannten Presets offiziell der Vergangenheit an. Zum Vergleich eine kleine Tabelle, welche Qualitätsstufe für welches Preset steht und welche Bitraten wir erwarten sollten.

Einige Qualitätsstufen von LAME
Quality 100 --preset extreme ca. 200 kbit/s
Quality 80 --preset standard ca. 150 kbit/s
Quality 60 --preset medium ca. 120 kbit/s

Mit Qualität 80 wie im Bild sind wir kompromisslos auf der qualitativ sicheren Seite. In den meisten Fällen sollte 60 allerdings ausreichen. Unter Variable bitrate mode sollten wir außerdem fast wählen, was den früheren Fast-Presets entspricht und inzwischen die empfohlene Einstellung ist. Es gibt auch tatsächlich keinen Grund, auf die deutlich höhere Geschwindigkeit zu verzichten.

Damit kommen wir zum ehemaligen Nachteil von VBR-MP3. Dieser Nachteil gilt ausschließlich für den alten AVI-Container, der mit VBR-Audio (nicht nur MP3) Probleme haben kann. Genau genommen kommt die Einschränkung eigentlich vom ACM-Audioframework, das eng mit AVI verknüpft ist und wegen seines Alters lediglich CBR versteht. Das führt dazu, dass alle Programme, die rein auf ACM setzen, mit VBR in AVI nicht zurechtkommen. Ausnahmen sind im Wesentlichen nur VirtualDubMod und AVI-Mux GUI, die das von Nando entwickelte Verfahren nutzen, um die ACM-Beschränkung zu umgehen. Auch das originale VirtualDub unterstützt seit Version 1.8 VBR-MP3.

Da AVI veraltet ist und auch Hardwareplayer heute i.d.R. keine Probleme mit dem Nando-Verfahren haben, spielt die Sache in der Praxis keine Rolle mehr. Trotzdem: CBR-MP3 erzeugen wir mit den folgenden Einstellungen.

Unter Target wählen wir Bitrate und klicken im Bitrate-Abschnitt Restrict encoder … an. Mit dem Schieberegler stellen wir dann die gewünschte Bitrate ein. Werte unter 96 kbit/s sollten wir dabei der Tonqualität zuliebe besser vermeiden. Genauso dürfte für die meisten Tonspuren mehr als 160 kbit/s eher Platzverschwendung als Qualitätssteigerung sein. Am allerbesten ist natürlich der VBR-Modus.

Damit sind die MP3-Einstellungen beendet und wir können per Start Processing das Transcoding starten.

AC-3-Encoding

Fürs AC-3-Encoding verwenden wir immer Aften, denn der seit jeher in BeSweet enthaltene ac3enc ist für qualitativ sinnvolle Encodings nicht geeignet. Trotzdem bleibt AC-3 ein Format für Spezialfälle. Fürs alltägliche Encoding gibt es mit AAC und Vorbis deutlich effizientere Formate mit ausgereifteren Encodern.

Aften zu konfigurieren funktioniert per BeLight sehr einfach. Zuerst wählen wir im AC3-Register Aften als Engine.

Die Bitrate stellen wir über den Bitrate-Schieberegler ein. Dass 6-Kanal-AC-3s auf der DVD minimal mit 384 kbit/s encodiert sind, hat seinen Sinn. Weniger sollten wir der Tonspur keinesfalls gönnen. 5.1 unter Output Channels behält die sechs Kanäle der Quelldatei bei. Stereo-AC-3s zu encodieren oder gar originale Stereo-AC-3s zu verkleinern, ist unsinnig. Schon MP3 ist für 2-Kanal-Material besser geeignet, von Vorbis oder AAC ganz zu schweigen.

Damit ist die AC-3-Konfiguration auch schon erledigt und wir können mit Start Processing das Transcoding beginnen.

Kommentare