Bildmanipulationen gibt es im Grunde schon seit Fotografen die ersten, schwarzweißen Fotos bearbeitet haben und spätestens seit Photoshop darf man im Grunde eh nichts mehr trauen, was man sieht. Das trifft ab sofort auch auf Bewegtbilder zu, denn Wissenschaftler der University of Washington haben ein Verfahren entwickelt, um mit einer Tonaufnahme Mundbewegungen im Computer zu animieren und über eine echte Aufnahme zu legen. Das Ergebnis sieht einfach unverschämt echt aus, wie dieses Video zeigt.
Wenn man genau hinsieht, merkt man, dass das Bild rechts nicht völlig perfekt ist und man sich noch minimal im Uncanny Valley bewegt. Die meisten sollten die computergenerierten Mundbewegungen aber überzeugen, die von einer künstlichen Intelligenz generiert wurden. Diese musste zunächst mit Videomaterial gefüttert werden, damit die neuronalen Netze möglichst natürlich wirkende Bewegtbilder erzeugen konnten.
Dieser Prozess dauert natürlich etwas länger, da das Ziel war, die KI mit beliebigen Audioinhalten füttern zu können, um sie dann selbstständig fotorealistische Mundbewegungen über bestehende Videoaufnahmen legen zu lassen. Vermutlich wäre es auch möglich das gesamte Gesicht zu animieren. Es fällt wohl aber weniger ins Auge, dass im Video manipuliert wurde, wenn man eben nur ein Teil einer bestehenden Aufnahme mit “CGI-Makeup” überdeckt.
In Zukunft: Fake News-Videos aus dem Computer
Laut der University of Washington kann die Technologie genutzt werden, um beispielsweise Skype-Calls zu verbessern. So sollt ihr die Software einmalig mit euren Gesichtszügen trainieren und falls eure Internetverbindung während einer Skype-Session mal einbricht, springt die Software ein. Sie simuliert dann ein fotorealistisches Video von euch selbst in Echtzeit, so dass euer Gegenüber nichts davon mitbekommt, dass ihr gerade im Funkloch sitzt. Klingt creepy? Da geht noch mehr.
Kritisch wird es nämlich, wenn man weitere Technologien hinzuzieht, wie beispielsweise ein Produkt der kanadischen Firma Lyrebird. Das kann mit nur einer Minute einer Sprachaufnahme eine komplett künstliche Stimme erzeugen, mit der sich alles sagen lässt, womit ihr das Tool mit Text füttert. Das Ergebnis ist nicht perfekt, wird es aber nahezu, wenn man Lyrebirds KI noch etwas länger lernen lässt. Auch Adobe als Entwickler von Kreativtools wie Photoshop oder Premiere hat ein ähnliches Projekt namens VoCo ins Leben gerufen.
Verbindet man diese Technologie nun mit der von der University of Washington, könnt ihr euch das Szenario in etwa ausdenken: Eine Videominute mit Ton kann dazu verwendet werden, eine Person alles auf Video sagen zu lassen. Damit bekommt der Ausdruck “Fake News” auch eine ganz neue Bedeutung. Willkommen in der Zukunft.
Die Wissenschaftler haben sich für ihre Aufnahmen übrigens für den ehemaligen US-Präsidenten Barack Obama entschieden, weil es von ihm eben viele Videos in guter Qualität gibt. Vermutlich auch vom jetzigen Präsidenten, aber die Nutzung dieser Aufnahmen würde vermutlich von Peta als Tierversuch angekreidet werden.