Zum Hauptinhalt springen

100 Mio. Wörter mit EU Council Presidency Translator übersetzt!

EU Council Presidency Translator, EUCPT, Screenshot  DFKI
EU Council Presidency Translator, EUCPT, Screenshot DFKI
Pin It
EU Council Presidency Translator, EUCPT, Screenshot  DFKI
EU Council Presidency Translator, EUCPT, Screenshot DFKI

Interview mit Prof. Dr. Josef van Genabith, Forschungsbereichsleiter
Multilinguale Sprachtechnologien am DFKI in Saarbrücken, über Maschinelle
Übersetzung und den EU Council Presidency Translator, der im Rahmen der
deutschen EU-Ratspräsidentschaft seit Juli 2020 eingesetzt wird.

- Herr Prof. van Genabith, Sie sind Wissenschaftlicher Direktor am DFKI
und leiten seit 2014 den Forschungsbereich Multilinguale
Sprachtechnologien (MLT) in Saarbrücken. Wie sah Ihre wissenschaftliche
Laufbahn aus, bevor Sie nach Saarbrücken gewechselt sind?

Die Erfolge des EU Council Presidency Translators sind ein schöner Anlass
für unser MLT Team und unsere Partner bei DeepL, Tilde und eTranslation!
Ich bin sehr stolz auf die Teams und die Arbeit die sie in enger
Abstimmung mit dem Auswärtigen Amt geleistet haben! Ich selber habe mich
schon sehr lange für Sprache und Technologie interessiert, Elektrotechnik
und Anglistik an der RWTH Aachen studiert und danach großes Glück gehabt:
über ein Stipendium des British Council und später des Foreign &
Commonwealth Office konnte ich an der University of Essex zuerst einen MA
machen und dann bei Louisa Sadler promovieren. Anfang der 90er Jahre war
ich dann als PostDoc bei Hans Kamp am Institut für Maschinelle
Sprachverarbeitung (IMS) in Stuttgart. Eine tolle Zeit! Danach war ich 17
Jahre in Irland an der School of Computing, Dublin City University und
habe dort die ganze Palette von Lecturer, Senior Lecturer und Associate
Professor durchlaufen. In Dublin hatte ich viele Freiheiten und tolle
Kolleginnen und Kollegen an der DCU, den anderen Universitäten in Dublin
und den vielen in Irland ansässigen HighTech-Unternehmen (IBM, Microsoft,
Symantec), und wir konnten diese Freiheiten nutzen: ich habe das National
Center for Language Technology (NCLT) wieder aufgebaut und war der
Gründungsdirektor des CNGL (Center for Next Generation Localisation, nun
ADAPT und von Vinny Wade geleitet). Durch diese Arbeiten und besonders das
CNGL sind wir Anfang der zweiten Hälfte der 2000-2010 Jahre immer mehr in
internationale Projekte z.B. der EU involviert worden, in denen der
vorherige Leiter unseres Labs in Saarbrücken, Hans Uszkoreit, sehr aktiv
war. Durch Hans Uszkoreit, der in der Zwischenzeit das Schwesterlab in
Berlin (heute SLT, von Sebastian Möller geleitet) aufgebaut hatte, bin ich
2014 nach 17 Jahren in Irland nach Saarbrücken und ans DFKI gekommen.

- Neben Ihrer Tätigkeit am DFKI haben Sie auch einen Lehrstuhl an der
Universität des Saarlandes. Wie ergänzen sich die akademischen und die
anwendungsorientierten Arbeiten?

Das wichtigste in unserer Arbeit sind die Mitarbeiterinnen und
Mitarbeiter: durch sie wird unsere Arbeit ein Erfolg! Meine Uni- und DFKI-
Mitarbeitenden arbeiten gemeinsam und bunt gemischt in Teams. In unseren
wöchentlichen gemeinsamen Meetings macht es keinen Unterschied, ob jemand
am DFKI oder an der Uni ist. Wir sind Teil des SFB1102 (Information
Density and Linguistic Encoding) an der Uni, haben ein DFG-Projekt an der
Uni zu multimodalem Post-Editing, wo wir sehr erfolgreich mit Prof.
Antonio Krügers DFKI-Team zusammenarbeiten; ich leite das europäische
Masterprogramm in Language and Communication Technology (LCT, Erasmus+),
das von einer meiner Leitungsmitarbeiterinnen am MLT-Lab (DFKI) über ein
Uniteilzeitstelle vorzüglich gemanagt wird. Alle meine DFKI-
Leitungsmitarbeiter und -Mitarbeiterinnen in den vier MLT-Gruppen Machine
Translation, Question Answering and Information Extraction, Talking Robots
und Data and Resources unterrichten, geben Seminare und bilden PhD-, MSc-
und BSc-Studierende aus. Genauso sind viele Mitarbeitende der MLT-Teams an
der Uni aktiv. Natürlich ist formal und finanziell alles sauber in
Projekte getrennt. Aber die Verbindung zur Uni ist sehr stark. Das
„Language Science and Technology“-Department an der Universität des
Saarlandes ist eines der Besten in Europa. Wir im MLT-Lab am DFKI sind
äußerst forschungsstark: wir haben in 2020 z.B. mehr als 10 Papiere auf
den in unserem Bereich wichtigsten internationalen Hauptkonferenzen (ACL,
ICML, EMNLP, COLING, IJCAI) im Bereich Sprachtechnologie, KI und
Maschinelles Lernen publiziert. Das ist ein großer Erfolg und zeigt die
Qualität der Teams. Auf der anderen Seite ist die anwendungs-orientierte
Forschung des DFKI eine Attraktion für  Studierende, Wissenschaftlerinnen
und Wissenschaftler der Universität: wo sonst wird die eigene Arbeit so
wie z.B. im EU Council Presidency Translator öffentlich für alle sichtbar
so genutzt, dass 100 Million Wörter binnen 4,5 Monaten (bis heute)
übersetzt werden? Das ist schon toll!

- Der EU Council Presidency Translator hat in Deutschland die Sichtbarkeit
für die Leistungen der Maschinellen Übersetzung weiter befördert. Er ist
eine Gemeinschaftsleistung von mehreren Akteuren, aber Sie haben dieses
Projekt geleitet. Wann haben Sie die Arbeit aufgenommen? Wie haben Sie das
Konsortium zusammengestellt? Und wie viele Wissenschaftler waren
eingebunden?

Der EU Council Presidency Translator ist eine sehr europäische Lösung, die
zeigt, dass Europa gemeinsam im Bereich Sprachtechnologie und KI
international auf höchstem Level mehr als konkurrenzfähig ist: sie beruht
auf einer Kombination von herausragender High-Tech- und KI-Expertise in
Deutschland (DeepL, DFKI), Lettland (Tilde) und der EC (eTranslation).
Eine Partnerschaft zwischen Industrie (DeepL, Tilde), der öffentlichen
Hand (EC, eTranslation) und eines Forschungsinstituts (DFKI). Das DFKI
leitet das Projekt, die Förderung kommt vom Auswärtigen Amt, das die
Federführung in der deutschen EU-Ratspräsidentschaft inne hat. Dabei
ergänzen sich die Kompetenzen der Konsortiumsmitglieder ideal: Tilde hat
über viele Jahre mit europäischer Förderung das Grundgerüst des Presidency
Translators, in das die Übersetzungsmaschinen vieler Anbieter integriert
werden, entwickelt und steuert eigene Übersetzungsmaschinen bei. DeepL
bietet für 8 Sprachen Übersetzungsmaschinen in herausragender Qualität an.
eTranslation (der EC) stellt eine maschinelle Übersetzungs-Grundversorgung
für alle 24 offiziellen EU-Sprachen bereit. In enger Zusammenarbeit mit
den Übersetzungsstäben der Ministerien hat das DFKI speziell auf die Daten
und Bedürfnisse der Ministerien abgestimmte maschinelle
Übersetzungssysteme zu Deutsch, Französisch und Spanisch entwickelt. Tilde
macht dies für Englisch, Italienisch und Polnisch. Am DFKI betreut Stephan
Busemann den Presidency Translator administrativ. Ich leite die
wissenschaftlichen und technischen Aspekte. Cristina España Bonet, die
Leiterin des MT-Teams im MLT-Lab und ihre Mitarbeiterin Jingyi Zhang
entwickeln die Systeme. Dabei werden sie von zwei Studentinnen, Damyana
Gateva und Anastasija Amman, aus dem MSc Programm „Language Science and
Technology“ der Universität unterstützt. Das DFKI leitet auch die
Outreach- und Medienarbeit des Presidency Translators. Dies wird von
Eileen Schnur und ihrer Kollegin Marlies Thönnissen im MLT-Team betreut
und von der DFKI-Abteilung für Unternehmenskommunikation tatkräftig
unterstützt.

- Sie verwenden künstliche neuronale Netze für die Übersetzung. Können Sie
bitte skizzieren, wie Ihre Übersetzungsmaschine arbeitet?

Neuronale Modelle haben in den letzten Jahren Quantensprünge in der
Qualität vieler Sprachtechnologien und anderer Anwendungen in der KI
ermöglicht. Unsere Systeme benutzen tiefe neuronale Netze, die auf
Transformer-Modellen beruhen. Diese Modelle nutzen verschiedene Arten von
Attention und sind in weiten Teilen hoch parallelisierbar.

- Künstliche neuronale Netze werden mit sehr großen Mengen von Sprachdaten
trainiert - getestet. Woher kommen diese Trainings- und Testdaten und nur
als Schätzung, um wie viele laufende Wörter handelt es sich dabei?

Für viele Sprachpaare bestehen unsere Trainingsdaten aus Dutzenden von
Millionen von Satzpaaren, wobei jedes Satzpaar einen Ausgangsatz in einer
Sprache und dessen Übersetzung in die andere Sprache beinhaltet. Daraus
lernen die Maschinen, selber zu übersetzen. Diese Daten beruhen auf schon
von Menschen angefertigten Übersetzungen. Die Maschine lernt also von
Menschen. Die Daten kommen aus Datensammlungen der EU, von ELRC (der
European Language Resource Coordination, die wir auch am MLT am DFKI
leiten) und anderen Quellen. Zusätzlich arbeiten wir sehr eng mit den
Übersetzungsteams der Ministerien, um mit Daten der Ministerien
Spezialmaschinen zu erstellen, die besonders auf die Bedürfnisse der
Ministerien ausgerichtet sind. Diese werden von den Übersetzerinnen und
Übersetzern der Ministerien ständig evaluiert, so dass sie im Laufe des
Projekts kontinuierlich verbessert werden können.

- Der Presidency Translator wurde in den letzten 150 Tagen von den
Nutzer*innen intensiv eingesetzt. Dabei wurden über 100 Millionen Wörter
übersetzt. Welches waren die nachgefragtesten Sprachpaare? Und gab es auch
vielleicht auch Sätze, die besonders häufig vorkamen?

Im Gegensatz zu anderen Angeboten ist der Presidency Translator sicher und
abgesichert, alle Server stehen in der EU, Übertragungen sind
verschlüsselt, und nach einer erstellten Übersetzung werden alle Daten
sofort gelöscht. Wir haben also nur High-Level-Information zur Nutzung.
Die Zahlen zeigen dass die Ein-Klick-Übersetzung der deutschsprachigen
Webseite der Ratspräsidentschaft sehr gut angenommen wird: ca 47% der 100
Millionen bisher übersetzten Wörter kommen hierdurch zustande. Bevorzugte
Zielsprachen der maschinellen Übersetzung auf der Webseite der
Ratspräsidentschaft sind Spanisch, Italienisch und Portugiesisch
(französische und englische Fassungen wurden manuell erstellt). Die etwas
größere Hälfte resultiert aus Text- (22%), Dokument- (30%) und
Webseitenübersetzungen (2%) auf der Translator-Seite, und hier wird die
Übersetzung zwischen deutsch und englisch am meisten verlangt.

- Was sagen die Übersetzer*innen zu der neuen Qualität der maschinellen
Übersetzung? Sehen Übersetzer die Maschinen als Konkurrenten oder als
Werkzeuge, die ihre Arbeit unterstützen? Und wie verändert sich das
Berufsbild des Übersetzers?

Wir arbeiten in dem „EU Council Presidency Translator“-Projekt sehr eng
mit den Kolleginnen und Kollegen der Übersetzungsstäbe der Ministerien
zusammen: sie leiten die Datensammlung und -bereitstellung innerhalb der
Ministerien, um die Spezialmaschinen auf die Bedürfnisse der Ministerien
abzustimmen. Zusätzlich testen und evaluieren sie die Spezialmaschinen und
tragen durch ihre Ergebnisse zentral zur Verbesserung der Systeme bei. Im
Arbeitsablauf der Übersetzung sind die Maschinen dann ein Hilfsmittel: bei
einer guten Übersetzungsqualität kann die Maschine helfen, die
Produktivität eines menschlichen Übersetzers zu steigern. Dabei verändert
sich das Berufsbild des Übersetzers hin zu Qualitätskontrolle, zur
Qualitätssicherung durch das Nacheditieren (Berichtigen) von automatisch
erstellten Übersetzungen und zur Zertifizierung von Übersetzungen und
deren Qualität. Die moderne Übersetzerausbildung trägt diesen
Veränderungen Rechnung: der Übersetzungsstudiengang „Translation Science
and Technology“ an der Universität des Saarlandes hat einen hohen
Technologieanteil, in dem die angehenden Übersetzerinnen und Übersetzer
mit Sprachtechnologien vertraut gemacht werden, die von ihren
Mitstudierenden in den Computerlinguistik- (Language Science and
Technology) und Informatikstudiengängen entwickelt werden.

- Die deutsche EU-Ratspräsidentschaft endet am 31.12.2020. Wie wird der
Presidency Translator im Anschluss genutzt? Und unabhängig davon, was sind
Ihre weiteren Pläne?

Der Presidency Translator ist außerordentlich gut angenommen worden und
hat alle bisherigen Rekorde der vorherigen Presidency Translator
übertroffen. Ich bin sehr stolz auf das, was das MLT- Team am DFKI
zusammen mit den Kolleginnen und Kollegen bei DeepL, Tilde und
eTranslation geleistet hat! Es besteht großes Interesse, den Presidency
Translator auf weiteren Ratspräsidentschaften einzusetzen. Gespräche dazu
sind im Gange. Es besteht zudem großes Interesse seitens der Industrie an
deutscher und europäischer Sprachtechnologie: Sprachtechnologie und KI
“made in Europe“. Die maschinelle Übersetzung ist nur eine der Kompetenzen
in unserem MLT-Lab: andere sind die der „Question-Answering and
Information Extraction“-Gruppe (insbesondere im biomedizinischen Bereich),
die der Talking-Robots-Gruppe (die sich auf Dialogsysteme und
Rettungsrobotik konzentriert) und die der „Data and Resources“-Gruppe (die
große EU Projekte wie ELRC seit vielen Jahren leitet). Dazu kommt unser
Schwesterlab SLT (Speech and Language Technology) in Berlin. Die beiden
Labs (MLT in Saarbrücken und SLT in Berlin) arbeiten eng zusammen und
ergänzen sich in ihrer Expertise.