Adobe – den meisten bekannt durch den Acrobat Reader, den langsam verschwindenden Flash-Player und die Bildbearbeitungssoftware Photoshop – hat auf seiner Hausmesse #AdobeMax einen Blick in die Entwicklungslabore des Unternehmens gewährt. Dort wird z.Zt. mit «Project VoCo» eine Software entwickelt, mit der die Manipulation von Sprachdateien ein völlig neues Level erreicht. Der Effekt ist verblüffend, beeindruckend und auch ein wenig erschreckend.
An Manipulationen von Bildern haben wir uns ja mittlerweile gewöhnt. Bereits mit ein paar autodidaktisch erlernten Kenntnissen lassen sich beliebige Motive mehr oder weniger täuschend echt verändern, Profis erschaffen vollständig simulierte Szenerien und Charaktere. Auch Videos können mit einem entsprechenden Editor bereits gut manipuliert werden.
Im Bereich Sprache und Sprachmanipulation gibt es bisher Grenzen. Spracherkennungsalgorithmen arbeiten mittlerweile recht zuverlässig und erkennen nach einer gewissen Trainingsphase den größten Teil der gesprochenen Wörter und Sätze. Systeme wie IBM Watson sind bereits in der Lage, über Künstliche Intelligenz weitere Informationen zu erfassen. So lässt sich beispielsweise aus der Stimmlage, der Lautstärke oder der Sprechgeschwindigkeit der Gemütszustand der sprechende Person erkennen, wodurch sich im Kontext eine andere Bedeutung von Wörtern ergeben kann.
Auch die Sprachausgabe entwickelt sich rapide weiter. Kurze, aussagekräftige Sätze und Anweisungen stellen für Apps längst kein Problem mehr dar und klingen in ihrer Beschränktheit weitestgehend natürlich. Längere Texte mit verschachtelten Sätzen und sprachlichen Nuancen bereiten den Algorithmen noch kleinere Schwierigkeiten, doch auch hier macht man in den wichtigsten Sprachen enorme Fortschritte.
Mit Project VoCo gehen Adobe und die an der Entwicklung beteilige Princeton University einen Schritt weiter. Die Software benötigt als Ausgangsmaterial den Mitschnitt einer menschlichen Stimme. Für die Präsentation reichten circa 20 Minuten aus, die man bei einer Show des Comedians Jordan Peele aufgezeichnet hatte. Dem aufgenommenen Text muss – sofern nicht automatisch erkannt – ein Transkript zugeordnet werden, wie man es heutzutage bereits von Untertitel kennt.
Einmal erfasst lassen sich beliebige Sätze in der vorliegenden Sprachdatei manipulieren und mit der Stimme und Sprachcharakteristik des Menschen wiedergeben. Ein simpler Editor ermöglicht das Verändern, Entfernen und Hinzufügen einzelner Wörter oder Satzteile. Der Algorithmus berechnet aus dem zuvor erfassten Sprachmaterial die möglichst natürliche Aussprache dieser Wörter, die nicht zwingend als tatsächlich ausgesprochenes Wort voliegen müssen. Besonders beeindruckend ist, das Project Voco den “neuen” Satz auch phonetisch korrekt ausspricht und z.B. logische Pausen zwischen Wörtern oder hinter einem Komma korrekt ausgeben kann.
Die Dimension der Entwicklung erfasst man, wenn man sich den Unterschied zu heute existierenden Sprachausgabe-Systemen verdeutlicht. Diese arbeiten in der Regel mit definierten Sprach- und Stimmpaketen, denen die Aufzeichnung eines männlichen Sprechers oder einer weiblichen Sprecherin zugrundeliegen. Diese “lesen” dann den Text vor. Mit Project Voco wird das auf die individuelle Sprachausgabe jeder beliebigen Person erweitert. Sobald ausreichend Tonmaterial vorliegt, kann die Software damit arbeiten: der Text wird in einzelne Phoneme (“Laute” bzw. Lautsegmente der Sprache) zerlegt und bildet dann die Grundlage für die weitere, synthetische Sprachmanipulation und -ausgabe.
Die Anwendungsbereiche von Project Voco sind vielfältig und dürften von vielen Branchen aufmerksam beobachtet werden. Film- und Audioproduktionen könnten z.B. in gar nicht allzu ferner Zukunft mit Stimmmodellen von Synchronsprechern arbeiten, als Transkript vorliegende Podcasts oder Hörbücher können mehr oder weniger automatisiert von jeder beliebige Stimme vorgelesen werden. In Werbespots könnten längst verstorbene Stars demnächst Produkte anpreisen, die es zu ihren Lebzeiten noch gar nicht gab.
Missbrauchspotential: Reden ist Silber, Schweigen ist Gold
Damit einher geht selbstverständlich nicht nur ein riesiges Rationalisierungs-, sondern auch ein enormes Missbrauchspotential. Ausgerechnet von verstorbenen und lebenden Personen des öffentlichen Lebens liegen hunderttausende, wenn nicht sogar Millionen Minuten an erfass- und analysierbarem Audiomaterial vor, die nur auf eine nachträgliche Manipulation warten. Mit einer Software wie Project Voco wäre es möglich, Hillary Clinton, Donald Trump oder Angela Merkel jeden erdenklichen Satz “in den Mund zu legen”.
Parallel zu dieser Technologie gibt es entsprechende Entwicklungen im Bereich Gesichts- und Mimik-Manipulation. Prinzipiell (und sehr verkürzt zusammengefasst) ist es heute bereits möglich, mit entsprechend dimensionierten Rechenkapazitäten die Mimik, den Gesichtsausdruck, die Kopf- und Mundbewegungen einer Person auf eine andere Person abzubilden – und zwar in Echtzeit. In Kombination mit einer ebenfalls manipulierten Sprachausgabe lassen sich also vollständig simulierte, aber täuschend echte Charaktere erstellen.
Dr. Jekyll and Mr. Hyde
Adobe will diesem Risiko mit akustischen Wasserzeichen begegnen, die eine manipulierte Audio- oder Videodatei als Manipulation kennzeichnen. Allerdings besteht die Gefahr, dass sich diese Wasserzeichen z.B. über eine nachträgliche analoge Umwandlung und Weiterbearbeitung entfernen oder zumindest vor dem menschlichen Ohr verbergen lassen. Hat sich eine “Aussage” über Soziale Netzwerke oder andere Wege erst einmal “viral” verbreitet, ist vielen Menschen die Manipulation nur noch schwer vermittelbar, der Schaden ist bereits angerichtet.
Ebenso gefährdet sind biometrische Zugangssysteme, die auf Spracherkennungs-Algorithmen basieren. Die Anbieter solcher Sicherheitslösungen müssen (noch mehr als bisher) darauf achten, dass eine verdächtige synthetische Manipulation unmittelbar erkannt wird.
Rechtswissenschaftler dürften sich zudem eingehend mit der Frage beschäftigen müssen, wie es um das “Recht an der eigenen Stimme” bestellt ist. Während z.B. hierzulande heimliche Tonaufnahmen eines Gesprächs oder Mitschnitte von Telefonaten verboten sind, mag das in anderen Ländern völlig anders aussehen. Der zuvor bereits erwähnte Synchronsprecher hat einer Produktion vielleicht die Rechte für einen bestimmten Film übertragen, aber nicht für weitere, theoretisch unendlich viele Manipulationen seiner eigenen Stimme. Urheberrechte beschränken sich in den meisten Fällen auf tatsächlich erstellte Werke, gelten aber u.U. nicht für synthetische Abwandlungen von tatsächlich in der Öffentlichkeit gesprochenen Sätzen.
Das wird spannend.
via techcrunch.com