Unicorn-Status für Start-Up Synthesia

Symbolbild zum Artikel. Der Link öffnet das Bild in einer großen Anzeige.
Prof. Dr. Matthias Niessner. Foto: Astrid Eckert, Muenchen

Firma von FAU-Alumnus Prof. Dr. Matthias Nießner wird mit einer Milliarde US-Dollar bewertet

Face Capture und Facial Reenactment gehören zu seinen Spezialgebieten und begleiten ihn schon viele Jahre: Prof. Dr. Matthias Nießner, heutiger Leiter des Visual Computing Lab an der TUM, kommt von der FAU, wo er nicht nur sein Diplom gemacht hat, sondern 2013 am Lehrstuhl für Informatik 9 (Graphische Datenverarbeitung) auch promovierte. Gerade hat das Start-Up, welches er 2017 mitbegründete, den Unicorn-Status erreicht. Die AI video creation-Plattform Synthesia wird nun mit einer Milliarde US-Dollar bewertet, nachdem ihre führenden Investoren, darunter Accel, Nvidia und Kleiner Perkins, in der letzten Finanzierungsrunde zusätzliche 90 Millionen Dollar investiert haben. Mit Synthesia lassen sich professionelle Videos entwickeln, in denen AI-Avatare, die Talking Heads, je nach Anforderung Sachverhalte erklären und beschreiben.

Prof. Nießner, herzlichen Glückwunsch zu diesem Erfolg! Nutzerinnen und Nutzer können dank Synthesia Videos ganz von selbst bauen, in denen menschlich aussehende Avatare die gewünschten Inhalte sprechen. Was war denn zuerst da: Die Idee für die Talking Heads oder der Wunsch, ein Unternehmen zu gründen?

Ich hatte mich schon vor der Gründung von Synthesia 2017 stark mit Deep Fake-Technologien auseinandergesetzt. Dabei ist unter anderem das Paper „Face2Face: Real-time Face Capture and Reenactment of RGB Videos“ entstanden, das besonders viel Aufmerksamkeit erhalten hat. Ich wurde daraufhin von verschiedenen Kolleginnen und Kollegen gefragt, ob ich nicht ein Start-Up gründen möchte. Ich hatte an der FAU im Nebenfach außerdem bereits BWL studiert, weil es schon immer ein Wunsch war, ein Projekt aus der Forschungsblase zu holen und als Produkt auf den Markt zu bringen. Somit waren also die Weichen gestellt. Das Gründungsteam, das entstanden ist, ergänzt sich wirklich perfekt: Lourdes Agapito und ich konzentrieren uns auf die Technik und verstehen, wie sie funktioniert. Steffen Tjerrild und Victor Riparbelli sind die Experten, wenn es um die geschäftlichen Aspekte des Unternehmens geht.

Wozu nutzt man denn die mit Synthesia gemachten Videos und wie genau funktioniert die Plattform?

Unsere Plattform ersetzt im Prinzip die traditionelle Produktion von Videos, bei der Personal, Equipment und Bearbeitungssoftware notwendig sind. Eine typische Anwendung wären zum Beispiel Lernvideos, mit denen neue Mitarbeitende eine Einweisung in ihren Arbeitsbereich bekommen. Synthesia ermöglicht hierfür die Erstellung von Videos mithilfe anpassbarer Video-Vorlagen und aktuell 140 diversen Avataren, die Schauspieler/-innen bzw. Sprecher/-innen ersetzen. Dabei kann aus 120 Sprachen und Dialekten gewählt werden, um die Inhalte für das entsprechende Zielpublikum aufzubereiten.

Heute arbeiten Firmen wie Amazon, accenture oder Johnson & Johnson mit der Plattform Synthesia. Auf der Homepage ist fünf Jahre nach Gründung von 50.000 Kunden die Rede. Wie ging das los?

Es gab keine wirklich Markteinführung, sondern nach Gründung haben wir die Software zusammen mit den ersten Kunden gemäß dem Motto „Trial and Error“ getestet. Um herauszufinden, was die Interessen und Bedürfnisse der Firmen sind, haben wir kleine Testprojekte im Rahmen von etwa 20.000 Euro gestartet. So konnten wir auch lernen, wo es noch Verbesserungsbedarf gab. Das Feedback war so gut, dass wir drei Monate nach dem Startschuss bereits drei neue Mitarbeiterinnen bzw. Mitarbeiter einstellen konnten.

Und wo steht Synthesia jetzt? Was kann die KI-Software aktuell alles?

Vor zwei Jahren hatten wir unseren letzten großen Launch und zwar den unserer Cloud-Plattform. Dank dieser ist nun der Zugriff auf Synthesia von überall her möglich. Man kann heute außerdem problemlos den Inhaltstext für die Talking Heads selbst einpflegen und es gibt personalisierte Stimmen. Dafür spricht die gewünschte Person einen Text ein, der alle möglichen Phoneme abdeckt, und die Software lernt daraus und überträgt diesen Klang auf den finalen Sprechtext.

Welche Veränderungen oder Verbesserungen sind mit der neuen Finanzierungsspritze noch geplant?

Das ist noch geheim, aber was ich verraten kann ist, dass wir den Nutzerinnen und Nutzern noch mehr Kontrolle geben wollen. In Zukunft sollen außerdem mehrere Avatare in einem Video möglich sein und auch miteinander reden können. Wir wollen Emotionen und Gesten besser integrieren und die Erstellung eines Avatars erleichtern: Aktuell ist es noch nötig, eine Person komplett abzufilmen, um einen Avatar anhand des Videos nachzustellen. Bald soll ein Bild genügen, um den Talking Head zu generieren.

Vielen Dank für Ihre Zeit! 

 

Mehr über Face Capture und Reenactment

Das oben erwähnte Paper „Face2Face: Real-time Face Capture and Reenactment of RGB Videos“, abrufbar via https://doi.org/10.1145/3292039, hat Prof. Matthias Niessner unter anderem zusammen mit FAU-Alumnus Justus Thies geschrieben.
In einem FAU-Interview von 2016 berichtet Thies bereits von Facial Reenactment und der Software, die er speziell für diesen Zweck entwickelt hat: Forscher stellen Software zur Gesichtsmanipulation vor

Wohin verschlägt es FAU-Alumni?

Reisefotograf, Expertin für Quanten Computing, Wasserstoffexperte, FAU Innovatorin oder Theaterregisseur – die Liste möglicher Berufe und Tätigkeiten nach der Zeit an der FAU ist lang. Wer gerne mehr über ehemalige Absolventinnen und Absolventen der FAU wissen möchte, findet viele spannende Interviews hier: www.fau.de/alumni