Erste technische Versuche in diese Richtung gibt es seit einiger Zeit – die Ergebnisse lassen aber mehr als zu wünschen übrig. Jetzt berichten Forscher über eine neue KI, die professionelle Lippenleser und die bisher beste technische Umsetzung in den Schatten stellt. Sie soll nur die Hälfte der Fehlerquote des bisher besten Algorithmus aufweisen.
„Es ist eine fantastische Arbeit“, sagt Helen Bear, eine Informatikerin an der Queen Mary University of London, die nicht an dem Projekt beteiligt war.
Die Umsetzung des Prozesses in einen Programmcode erwies sich in der Vergangenheit als äußerst schwierig, dementsprechend versuchten die Wissenschaftler es mit einem neuen Ansatz. Statt ein Programm zu schreiben, wurde eine KI trainiert. Sie wurde mit tausenden Stunden Videos, und den dazugehörigen Transkripten, gefüttert.
Die Forscher begannen mit 140.000 Stunden YouTube-Videos von Menschen, die in verschiedenen Situationen sprechen. Dann wurde ein Programm generiert, das Videos der Lippenbewegung einzelner Wortteile herausgreift, nicht-englische Wörter sowie nicht sprechende Gesichter wurden herausgefiltert. Danach wurden die Videos auf den Mund konzentriert und der Rest abgeschnitten. Das ergab fast 4.000 Stunden Filmmaterial, darunter mehr als 127.000 englische Wörter. Der daraus gewonnene Datensatz ist sieben Mal größer als alle bisher gesammelten Daten.
Nach dem Training testeten die Forscher ihr System an einem 37-minütigen Video, das es zuvor nicht gesehen hatte. Die KI identifizierte nur 41% der Wörter falsch. Zugegeben ist eine derartig hohe Fehlerquote für eine reale Anwendung zu hoch, der Fortschritt ist aber im Vergleich zu bisheriger Software enorm. Systeme die sich auf Buchstaben statt ganze Wörter konzentrieren, liefern eine Fehlerquote von 77 Prozent, professionelle Lippenleser kommen gar auf eine Quote von 93 Prozent.
Der wesentliche Durchbruch liegt an der Erweiterung auf ganze Wortteile. Zum Beispiel macht der Mund eine andere Form, um das „t“ im „Stiefel“ zu sagen, als bei „Beet“. Damit kann das Programm auch neue Wörter einfacher und zuverlässiger lernen.
Die Integration des Programms in ein Telefon würde es den Schwerhörigen ermöglichen, einen „Übersetzer“ mitzunehmen, wohin sie auch gehen, sagt eine Wissenschaftlerin des Projekts. Ein solcher Übersetzer könnte auch Menschen helfen, die nicht sprechen können, zum Beispiel aufgrund beschädigter Stimmbänder.
Es gibt aber auch andere Anwendungen, wie die Analyse von Sicherheitsvideos, die Interpretation von historischem Filmmaterial oder das Anhören eines Skype-Partners, wenn der Ton ausfällt. Der neue KI-Ansatz könnte sogar eines der „größten Rätsel“ der Welt lösen: Im WM-Finale 2002 wurde der französische Fußballspieler Zinédine Zidane wegen eines dramatischen Kopfstoßes gegen die Brust eines Gegners ausgeschlossen. Angeblich wurde er durch eine Beschimpfung provoziert. Was wurde gesagt? Noch wissen wir es nicht.
Wie bei jeder neuen Technologie – die Anwendung kann auch über diese positiven Aspekte hinausgehen und stark ins Negative umschlagen. Mit derartigen Techniken erreicht Spionage ein neues Level, sei es bei profanen Dingen wie der NFL (also im Sport) oder bei wichtigen politischen Gesprächen.
Via ScienceMag