Dynamische Textuntertitel

Dynamisch einblendbare Textuntertitel müssen wir aus den Grafikuntertiteln der DVD oder Blu-ray erst erzeugen. Das geschieht per optischer Texterkennung (OCR) und anschließender Rechtschreibprüfung. Unser Programm dafür ist Subtitle Edit, das für den OCR-Teil hinter den Kulissen Tesseract verwenden. Für uns hat das den Vorteil, dass wir nicht mehr wie beim alten SubRip manuell zuweisen müssen, welche grafische Form welchem Buchstaben entspricht. Subtitle Edit tut das automatisch. Da das nie vollständig fehlerlos klappt, brauchen wir anschließend eine Rechtschreibprüfung.

Subtitle Edit bringt nur Traininsdaten und Wörterbücher für Englisch mit. Wie wir Deutsch und andere Sprachen nachinstallieren, haben wir schon im Softwarekapitel gesehen.

Das alte Kapitel zu SubRip steht auf brother-john.net weiterhin online.

Optische Texterkennung

Wir starten Subtitle Edit und öffnen über Datei › Importiere/OCR Blu-ray einen PGS-Untertitel (.sup-Datei), den wir vorher mit eac3to von der Blu-ray-Disc gerippt haben. DVD-Vobsubs extrahieren wir zuerst wie im Kapitel zu den Grafikuntertiteln erklärt in IDX/SUB-Dateien, damit Subtitle Edit nicht für jede Spur die komplette DVD scannen muss. Für den Import ist der Menüpunkt Datei › Importiere/OCR Vobsub zuständig. Anschließend gelangen wir ins OCR-Fenster.

Oben links unter OCR-Methode wählen wir OCR mittels Tesseract für die automatische Texterkennung. Bei Sprache stellen wir die passende Sprache ein und setzen den Haken bei Kursiv, damit Subtitle Edit versucht, kursiven Text als solchen zu erkennen. Das funktioniert noch nicht perfekt, weshalb wir anschließend kursive Untertitel noch einmal genau überprüfen sollten. Mehr dazu weiter unten.

Direkt während der Texterkennung kann Subtitle Edit schon häufige Fehler erkennen und korrigieren. Dafür ist OCR Auto-Korrektur rechts unten im Fenster zuständig.

Auto-Korrektur-Fenster mit aktiven Optionen: Korrigiere OCR-Fehler – Versuche, unbekannte Wörter zu erraten – Item automatisch trennen

Wir stellen das passende Wörterbuch ein und setzen die Haken wie im Screenshot dargestellt. So korrigiert Subtitle Edit die meisten Erkennungsfehler, führt aber noch keine volle Rechtschreibprüfung durch. Das tun wir besser anschließend.

Oben rechts im Fenster sehen wir die originale Untertitelgrafik, unten links erscheint der Text dazu. Mit dem Button OCR starten beginnen wir die Texterkennung. Nach einigen Minuten ist die Untertitelspur komplett durchgelaufen.

Unter Untertitel-Text ist jeder Eintrag farblich markiert. Grün steht für eine problemlose Erkennung. In gelben Zeilen hat Subtitle Edit unbekannte Wörter bemerkt oder Erkennungsfehler korrigiert. Meistens sind die harmlos, und wenn nicht, stoßen wir später bei der Rechtschreibprüfung wieder darauf. Rote Zeilen dagegen enthalten unkorrigierte Fehler, die wir gleich in diesem Fenster unter die Lupe nehmen und wenn nötig ausbessern.

Wir haben nun eine vollständig erkannte Untertitelspur, können das Importfenster über den OK-Button schließen und zum Subtitle-Edit-Hauptfenster zurückkehren.

Fehlerkorrektur

Subtitle Edits automatische Texterkennung funktioniert zwar sehr gut, aber nicht komplett fehlerlos. Trotz Auto-Korrektur bleiben nach dem Import noch einige häufige Erkennungsfehler übrig. Die lassen sich im fertigen Untertiteltext recht einfach automatisch erkennen und verbessern. Dafür ist der Menüpunkt Werkzeuge › Häufige Fehler korrigieren zuständig. Die Standardeinstellungen sind gut gewählt. Lediglich die Punkte

  • Mit Großbuchstaben beginnen am Anfang … und
  • Entferne '...' am Anfang

sollten wir abschalten, weil sie den Untertitel zu eigenwillig verändern oder mehr Schaden als Nutzen anrichten. Dagegen sind

  • Korrigiere häufige OCR-Fehler … und
  • Entferne Leerzeichen zwischen Zahlen

nützlich genug, dass wir sie zusätzlich einschalten. Mit einem Klick auf Weiter sucht Subtitle Edit alle fehlerhaften Stellen und listet sie im nächsten Fenster auf. Hier können wir uns entscheiden, welche Korrekturen wir tatsächlich übernehmen wollen. Mit dem Button Ausgewählte Korrekturen ändern wir schließlich alle nötigen Stellen.

Der zwei Schritt beim Korrigieren gilt kursivem Text, den Subtitle Edit oft noch nicht zuverlässig als kursiv erkennt. Deswegen suchen wir mit Strg+F oder Bearbeiten › Suchen nach dem Kursiv-Tag: <i>. Der häufigste Fehler ist, dass eine ganze Untertitelzeile als kursiv erkannt wurde, obwohl das eigentlich nur für ein einzelnes Wort zutrifft. Im Text-Bereich unten im Hauptfenster können wir die aktuell ausgewählte Untertitelzeile bearbeiten und die kursiven Anfangs- und Endtags (<i> und </i>) dort hin setzen, wohin sie wirklich gehören.

Dann bleibt nocht die Rechtschreibprüfung, die wir über Strg+Umschalt+S aufrufen. Die Prüfung funktioniert wie von einer Textverarbeitung gewohnt. Subtitle Edit nutzt dafür Hunspell, das z.B. auch von OpenOffice verwendet wird. Sobald die Prüfung auf ein unbekanntes Wort trifft, landen wir in diesem Dialog:

Hier haben wir alle Korrekturmöglichkeiten, wie sie auch jede Textverarbeitung normalerweise anbietet. Zusätzlich interessant ist vor allem der Button Gesamten Text. Bei schweren Fehlern der Texterkennung können wir darüber die gesamte Textzeile frei bearbeiten und auch Probleme beheben, die die Standardfunktionen des Rechtschreibdialogs überfordern.

Mit dem Ende der Rechtschreibprüfung haben wir eine fertig korrigierte Untertitelspur. Natürlich können wir zusätzlich nach Lust und Laune noch andere Dinge aufhübschen. Z.B. hat praktisch keine Untertitelspur typografisch korrekte Apostrophe und Anführungszeichen. Hier sind die wichtigsten Fehler, die sich mit einfachem Suchen & Ersetzen korrigieren lassen.

Die wichtigsten typografischen Fehler in Untertiteln
  schlecht besser
Apostroph ' (Vorsicht, nicht: ´)
deutsche Anführungszeichen "Text" »Text« oder Text
englische Anführungszeichen "Text" Text

Zum Schluss wählen wir oben im Hauptfenster SubRip als Format und UTF-8 als Kodierung – beides ist die Standardeinstellung von Subtitle Edit – und speichern die Datei.

Kommentare