• Folge Uns
    • Facebook
    • Twitter
    • Youtube
    • Flipboard
  • ENG
Mobilegeeks
  • Videos
  • Cars
  • Connected Life
  • IoT
  • Smartphones
  • Hardware
  • Tests
  • Podcast
  • Videos
  • Cars
  • Connected Life
  • IoT
  • Smartphones
  • Hardware
  • Tests
  • Podcast
Powered By GDATA
Powered By GDATA
Previous Story
Bixby Assistent für das Galaxy S8: Samsung verrät ...

von Bernd Rubel

Next Story
Live-Demo von Adobe zu Microsofts Surface Studio

von Vera Bauer

Adobe Project VoCo manipuliert die menschliche Sprache täuschend echt

Adobe gewährt mit Project Voco einen Ausblick auf die momentan bereits existierenden Möglichkeiten im Bereich der Audio-Manipulation. Die Technologie ist im Zusammenspiel mit Algorithmen zur Spracherkennung und Sprachausgabe extrem faszinierend, birgt aber auch ein enormes Missbrauchspotential. Was ist echt, was ist Fake?

von Bernd Rubel am 7. November 2016
  • Email
  • @markensysteme

Adobe – den meisten bekannt durch den Acrobat Reader, den langsam verschwindenden Flash-Player und die Bildbearbeitungssoftware Photoshop – hat auf seiner Hausmesse #AdobeMax einen Blick in die Entwicklungslabore des Unternehmens gewährt. Dort wird z.Zt. mit «Project VoCo» eine Software entwickelt, mit der die Manipulation von Sprachdateien ein völlig neues Level erreicht. Der Effekt ist verblüffend, beeindruckend und auch ein wenig erschreckend.

An Manipulationen von Bildern haben wir uns ja mittlerweile gewöhnt. Bereits mit ein paar autodidaktisch erlernten Kenntnissen lassen sich beliebige Motive mehr oder weniger täuschend echt verändern, Profis erschaffen vollständig simulierte Szenerien und Charaktere. Auch Videos können mit einem entsprechenden Editor bereits gut manipuliert werden.

Im Bereich Sprache und Sprachmanipulation gibt es bisher Grenzen. Spracherkennungsalgorithmen arbeiten mittlerweile recht zuverlässig und erkennen nach einer gewissen Trainingsphase den größten Teil der gesprochenen Wörter und Sätze. Systeme wie IBM Watson sind bereits in der Lage, über Künstliche Intelligenz weitere Informationen zu erfassen. So lässt sich beispielsweise aus der Stimmlage, der Lautstärke oder der Sprechgeschwindigkeit der Gemütszustand der sprechende Person erkennen, wodurch sich im Kontext eine andere Bedeutung von Wörtern ergeben kann.

Auch die Sprachausgabe entwickelt sich rapide weiter. Kurze, aussagekräftige Sätze und Anweisungen stellen für Apps längst kein Problem mehr dar und klingen in ihrer Beschränktheit weitestgehend natürlich. Längere Texte mit verschachtelten Sätzen und sprachlichen Nuancen bereiten den Algorithmen noch kleinere Schwierigkeiten, doch auch hier macht man in den wichtigsten Sprachen enorme Fortschritte.

Mit Project VoCo gehen Adobe und die an der Entwicklung beteilige Princeton University einen Schritt weiter. Die Software benötigt als Ausgangsmaterial den Mitschnitt einer menschlichen Stimme. Für die Präsentation reichten circa 20 Minuten aus, die man bei einer Show des Comedians Jordan Peele aufgezeichnet hatte. Dem aufgenommenen Text muss – sofern nicht automatisch erkannt – ein Transkript zugeordnet werden, wie man es heutzutage bereits von Untertitel kennt.

adobe-project-voco

project-voco

Einmal erfasst lassen sich beliebige Sätze in der vorliegenden Sprachdatei manipulieren und mit der Stimme und Sprachcharakteristik des Menschen wiedergeben. Ein simpler Editor ermöglicht das Verändern, Entfernen und Hinzufügen einzelner Wörter oder Satzteile. Der Algorithmus berechnet aus dem zuvor erfassten Sprachmaterial die möglichst natürliche Aussprache dieser Wörter, die nicht zwingend als tatsächlich ausgesprochenes Wort voliegen müssen. Besonders beeindruckend ist, das Project Voco den “neuen” Satz auch phonetisch korrekt ausspricht und z.B. logische Pausen zwischen Wörtern oder hinter einem Komma korrekt ausgeben kann.

Die Dimension der Entwicklung erfasst man, wenn man sich den Unterschied zu heute existierenden Sprachausgabe-Systemen verdeutlicht. Diese arbeiten in der Regel mit definierten Sprach- und Stimmpaketen, denen die Aufzeichnung eines männlichen Sprechers oder einer weiblichen Sprecherin zugrundeliegen. Diese “lesen” dann den Text vor. Mit Project Voco wird das auf die individuelle Sprachausgabe jeder beliebigen Person erweitert. Sobald ausreichend Tonmaterial vorliegt, kann die Software damit arbeiten: der Text wird in einzelne Phoneme (“Laute” bzw. Lautsegmente der Sprache) zerlegt und bildet dann die Grundlage für die weitere, synthetische Sprachmanipulation und -ausgabe.

Die Anwendungsbereiche von Project Voco sind vielfältig und dürften von vielen Branchen aufmerksam beobachtet werden. Film- und Audioproduktionen könnten z.B. in gar nicht allzu ferner Zukunft mit Stimmmodellen von Synchronsprechern arbeiten, als Transkript vorliegende Podcasts oder Hörbücher können mehr oder weniger automatisiert von jeder beliebige Stimme vorgelesen werden. In Werbespots könnten längst verstorbene Stars demnächst Produkte anpreisen, die es zu ihren Lebzeiten noch gar nicht gab.

Missbrauchspotential: Reden ist Silber, Schweigen ist Gold

Damit einher geht selbstverständlich nicht nur ein riesiges Rationalisierungs-, sondern auch ein enormes Missbrauchspotential. Ausgerechnet von verstorbenen und lebenden Personen des öffentlichen Lebens liegen hunderttausende, wenn nicht sogar Millionen Minuten an erfass- und analysierbarem Audiomaterial vor, die nur auf eine nachträgliche Manipulation warten. Mit einer Software wie Project Voco wäre es möglich, Hillary Clinton, Donald Trump oder Angela Merkel jeden erdenklichen Satz “in den Mund zu legen”.

Parallel zu dieser Technologie gibt es entsprechende Entwicklungen im Bereich Gesichts- und Mimik-Manipulation. Prinzipiell (und sehr verkürzt zusammengefasst) ist es heute bereits möglich, mit entsprechend dimensionierten Rechenkapazitäten die Mimik, den Gesichtsausdruck, die Kopf- und Mundbewegungen einer Person auf eine andere Person abzubilden – und zwar in Echtzeit. In Kombination mit einer ebenfalls manipulierten Sprachausgabe lassen sich also vollständig simulierte, aber täuschend echte Charaktere erstellen.

Dr. Jekyll and Mr. Hyde

Adobe will diesem Risiko mit akustischen Wasserzeichen begegnen, die eine manipulierte Audio- oder Videodatei als Manipulation kennzeichnen. Allerdings besteht die Gefahr, dass sich diese Wasserzeichen z.B. über eine nachträgliche analoge Umwandlung und Weiterbearbeitung entfernen oder zumindest vor dem menschlichen Ohr verbergen lassen. Hat sich eine “Aussage” über Soziale Netzwerke oder andere Wege erst einmal “viral” verbreitet, ist vielen Menschen die Manipulation nur noch schwer vermittelbar, der Schaden ist bereits angerichtet.

Ebenso gefährdet sind biometrische Zugangssysteme, die auf Spracherkennungs-Algorithmen basieren. Die Anbieter solcher Sicherheitslösungen müssen (noch mehr als bisher) darauf achten, dass eine verdächtige synthetische Manipulation unmittelbar erkannt wird.

Rechtswissenschaftler dürften sich zudem eingehend mit der Frage beschäftigen müssen, wie es um das “Recht an der eigenen Stimme” bestellt ist. Während z.B. hierzulande heimliche Tonaufnahmen eines Gesprächs oder Mitschnitte von Telefonaten verboten sind, mag das in anderen Ländern völlig anders aussehen. Der zuvor bereits erwähnte Synchronsprecher hat einer Produktion vielleicht die Rechte für einen bestimmten Film übertragen, aber nicht für weitere, theoretisch unendlich viele Manipulationen seiner eigenen Stimme. Urheberrechte beschränken sich in den meisten Fällen auf tatsächlich erstellte Werke, gelten aber u.U. nicht für synthetische Abwandlungen von tatsächlich in der Öffentlichkeit gesprochenen Sätzen.

Das wird spannend.

via techcrunch.com

Lifestyle Security Software Wissenschaft
Ähnliche Artikel
Online-Transkriptionen von Gesprächen können in falsche Hände gelangen
18. Februar 2022
Online-Transkriptionen von Gesprächen können in falsche Hände gelangen
Farbige Menschen werden durch Überwachungsmaßnahmen öfter benachteiligt
16. Februar 2022
Farbige Menschen werden durch Überwachungsmaßnahmen öfter benachteiligt
Apple übernimmt Spezialisten zur Anpassung von Musikstücken mittels KI
10. Februar 2022
Apple übernimmt Spezialisten zur Anpassung von Musikstücken mittels KI
Neu erforschtes Material ist leicht wie Plastik und stabil wie Stahl
7. Februar 2022
Neu erforschtes Material ist leicht wie Plastik und stabil wie Stahl
Neueste Tests
7.5
Die Beurer TL30 ist zwar keine perfekte Tageslichtlampe, trotzdem in diesem Preissegment ein guter E ...
Beurer TL30 im Test: kräftiges Tageslicht während der tristen Wintertage
17. Dezember 2021
Beurer TL30 im Test: kräftiges Tageslicht während der tristen Wintertage
6.0
Das Huawei Nova 9 könnte ein perfekter Begleiter sein, durch den Einsatz von EMUI 12 muss man als de ...
Huawei Nova 9 im Test: Eine ausgezeichnete Ausstattung ist nicht alles
22. November 2021
Huawei Nova 9 im Test: Eine ausgezeichnete Ausstattung ist nicht alles
7.3
Das realme GT Neo 2 ist ein Budget-Smartphone, welches mit einer guten Ausstattung auftrumpfen kann. ...
Realme GT Neo 2 im Test: Starkes Budget-Smartphone, mittelmäßige Kamera
15. November 2021
Realme GT Neo 2 im Test: Starkes Budget-Smartphone, mittelmäßige Kamera
9.0
Der Dreame T30 Mistral ist ein Top Akkustaubsauger zu einem guten Preis, der mit einem guten Design ...
Dreame T30 Mistral – Leistungsstarker Akkustaubsauger im Test
6. November 2021
Dreame T30 Mistral – Leistungsstarker Akkustaubsauger im Test

Fernweh

Wir beschäftigen uns mit den Themen und der Technik von Morgen und Übermorgen - Von Smartcities über Sharing-Economy bishin zur Mobilität der Zukunft

Trending Cars
  • Tesla Model 3
  • Opel Ampera-e
  • Tesla Model X
  • Porsche Mission E
Automarken
  • Mercedes-Benz
  • Tesla
  • Audi
  • Volkswagen – VW
  • BMW
  • Ford
  • Porsche
  • Opel
Hubs
  • Laptops
  • Magazin
  • Smart Cars
  • Smartphone
  • Tablets
  • Wearables
Weitere Themen
  • OnePlus 5
  • Samsung Galaxy S8
  • LG G6
  • Microsoft Surface Laptop
  • Amazon Blitzangebote
  • Adblock Plus
  • Testberichte (Archiv)
  • ASUS
  • Microsoft
  • Apple
  • Sitemap
Intern
  • Sponsoring und Werbung
  • Über uns
  • Sponsorenübersicht
  • Impressum
  • Datenschutzerklärung
FOLGE UNS
Copyright © 2022 Mobilegeeks.de, Alle Rechte vorbehalten
 Tweet
 Teilen
 Tweet
 Teilen
 Tweet
 Teilen
 Xing