Forscher stellen Software zur Gesichtsmanipulation vor

Screenshot Youtube Video Face2Face
Justus Thies demonstriert im Video von Matthias Niessner (Stanford University), wie die Software funktioniert. (Screenshot youtube.com/watch?v=ohmajJTcpNk)

Mimik fremdgesteuert

Nichts ist mehr, wie es scheint: Forscher der FAU haben zusammen mit Partnern der Universität Stanford und des Max-Planck-Instituts für Informatik in Saarbrücken eine Technologie entwickelt, mit der sich Mimik und Lippenbewegungen eines Menschen erfassen und auf das Videobild eines anderen übertragen lassen – in Echtzeit. Justus Thies, Doktorand am Lehrstuhl für Graphische Datenverarbeitung der FAU, ist der Entwickler der Facial Reenactment Software.

FAU: Herr Thies, was kann Ihre Software?

Justus Thies: Das Ganze ist einfach erklärt: Unser Programm erkennt Mimik und Lippenbewegungen eines Menschen in einem Video und überträgt diese in Echtzeit auf das Videobild eines anderen. Das kann in Zukunft zum Beispiel sehr praktisch sein, wenn bei Videokonferenzen simultan übersetzt werden soll. Weichen Mundbewegung des Redners und die gehörten Worte voneinander ab, erschwert es das Verständnis. Wir verschmelzen die Stimme und die Mimik des Dolmetschers mit dem Gesicht des Redners. Auf den angeschlossenen Monitoren erscheint der Redner wie in einem alltäglichen Gespräch: optisch und akustisch aus einem Guss.

Justus Thies
FAU-Doktorand Justus Thies ist der Entwickler der Facial Reenactment Software. (Bild: Justus Thies)

Wie genau funktioniert das?

Zunächst wird das Gesicht des Sprechers aus drei Richtungen fotografiert. Dabei erfassen wir die Geometrie des Gesichtes, also zum Beispiel die Wölbung von Nase und Stirn, aber auch die Textur, etwa Narben oder Leberflecken. Anschließend wird ein Computerprogramm gestartet, das 80 Parameter so einstellt, dass das 3D-Modell als eine Art Maske optimal auf das jeweilige Gesicht passt.

Genau wie für die Gesichtsform gibt es auch Parameter – etwa 76 Stück – mit denen sich die Mimik erfassen lässt. Wenn nun der Dolmetscher zu übersetzen beginnt, werden die Unterschiede der beiden Gesichter berechnet und dann das Zielgesicht mehrmals pro Sekunde so modifiziert, dass es den gleichen Ausdruck zeigt wie das des Übersetzers.

Die Idee, die Bewegung eines echten Menschen auf eine andere Figur zu übertragen, ist aber nicht neu. In vielen Filmproduktionen kommt diese Technologie seit Jahren zum Einsatz.

Das ist richtig. Die Filmindustrie erweckt auf diese Weise zum Beispiel Avatare zum Leben. Doch bisher war das sehr aufwändig, weil die Schauspieler erst mit Markern beklebt werden müssen, um deren Bewegungen zu vermessen. Außerdem sind die Rechenzeiten am Computer sehr lang, selbst mit modernen Hochleistungsrechnern. Wir sind die ersten, die diese Verschmelzung in Echtzeit und ohne zusätzliche Gesichtsmarker schaffen.

Im nächsten Animationsfilm aus Hollywood könnte also Technik aus Erlangen zum Einsatz kommen?

Unsere Technik ist sicherlich noch verbesserungsfähig. Noch gelingt es uns nicht, feine Mimik zu übertragen.  Deutlichere Bewegungen funktionieren schon recht gut. Das besondere an unserer Technik ist, dass es in Echtzeit funktioniert.

Gibt es noch andere Anwendungsfelder für Ihre Software?

Nahe liegt es natürlich, mit unserer Software nicht nur Videokonferenzen, sondern auch Filme zu synchronisieren. Gerade in Filmen kommt es oft vor, dass die Lippenbewegungen nicht zum Text passen.

Denkbar wären auch medizinische Anwendungen, so könnte man mit der Software psychologische Experimente durchführen oder für Schlaganfallpatienten mit leichten Gesichtslähmungen Übungsprogramme anbieten, mit denen sie wieder eine normale Gesichtsmimik üben können.

Eine Software, mit der sich Bilder verändern lassen, lädt aber auch zu Missbrauch ein …

Natürlich ist die Gefahr von Bildmanipulationen groß. Doch es gibt schon lange Möglichkeiten, Fotos und Videos nachträglich zu bearbeiten – und das in sehr guter Qualität. Das hat zum Beispiel Jan Böhmermanns ausgezeichnetes Varoufakis-Video deutlich gezeigt. Wir hoffen deshalb, dass unsere Veröffentlichung und das zugehörige Youtube-Video die Leute gegenüber diesem Thema noch stärker sensibilisieren. Außerdem sind wir uns unserer Verantwortung als Wissenschaftler durchaus bewusst. Eine der nächsten Doktorarbeiten an unserem Lehrstuhl wird sich mit dem Aufdecken von Videofälschungen beschäftigen.

Mehr zum Thema

Lesen Sie im Beitrag „Der Dolmetscher in mir“ aus unserem Forschungsmagazin friedrich, wie die Forschergruppe die Stimme und die Mimik eines Dolmetschers mit dem Gesicht eines Redners verschmelzen lässt.

Das Paper der Wissenschaftler finden Sie auf der Webseite von Stanford-Forscher Matthias Nießner.

Weitere Informationen:

Justus Thies
Lehrstuhl für Informatik 9 (Graphische Datenverarbeitung)
Tel.: 09131/85-29924
justus.thies@fau.de

Porträtfotos zum Download:

  • Justus Thies, FAU-Doktorand und Entwickler der Facial Reenactment Software. (Bild: Justus Thies)
  • Prof. Dr. Marc Stamminger, Lehrstuhl für Informatik 9 (Graphische Datenverarbeitung), Doktorvater von Justus Thies. (Bild: FAU/Harald Sippel)