Immer mehr Menschen weltweit nutzen täglich einen Sprachassistenten. Dabei dominieren vor allem Google mit seinem Assistent, Apples Siri und Alexa von Amazon die Wohnzimmer der Haushalte. Aber wie divers und wie gerecht sind eigentlich die intelligenten Geräte wirklich? Schauen wir auf die Praxis, dann sehen wir, dass es häufig darauf ankommt, wer die Befehle an den Assistenten weitergibt.

Das klingt zwar zunächst etwas erschreckend, ist aber aufgrund der Entwicklung und des Vertriebs der Lautsprecher und Displays nicht besonders überraschend. Der erstgenannte Umstand, der zu einer “ungerechten” künstlichen Intelligenz führt, hat vor allem einen Grund. Noch immer bestehen die Entwicklerteams bei Google, Amazon und Co. überwiegend aus weißen Männern, die damit auch unbewusst Einfluss auf das Verständnis der digitalen Helfer nehmen.

Eine Studie des “AI Now”-Instituts der New Yorker Universität hat dazu erst kürzlich Zahlen erhoben. Demnach besteht das KI-Team bei Facebook nur zu 15 Prozent aus Frauen. Noch schlimmer ist es bei Google: Hier sind lediglich 10 Prozent der KI-Beteiligten weiblich. Die Folge: Stimmen mit Akzent, Dialekt oder in “ungewöhnlichen” Tonlagen werden sehr viel schlechter oder gar nicht verstanden. Kein Wunder also, dass der britische Rundfunk BBC seinen eigenen digitalen Assistenten entwickelt, der auch die verschiedenen britischen Akzente verstehen soll.

Ein Unternehmen, dass dieses immer größer werdende Problem wenigstens teilweise in den Griff bekommen möchte, ist die Mozilla Cooperation. Dazu startete man vor 2 Jahren ein freies Projekt namens “Common Voice”, das eine repräsentative Auswahl an Stimmen, Dialekten und Akzenten hervorbringen soll. Wie bei (fast) allen offenen und freien Projekten wird die Entwicklung vorwiegend durch die Community vorangetrieben.

Wie funktioniert das Ganze also? Ganz einfach: Ihr öffnet in eurem Browser die Seite des Projekts und könnt direkt zwischen “Speak” und “Listen” wählen. Bei Ersterem Punkt trainiert ihr direkt mit eurer Stimme die KI, indem ihr Audioaufnahmen passend zu einem Text aufnehmt. Wählt ihr hingegen “Listen” könnt ihr bereits getätigte Aufnahmen verifizieren und so dem gezielten Missbrauch vorbeugen.

Wie schon oben erwähnt, ist das Ziel die Berücksichtigung von alle Nutzern (nicht nur männlichen) in unterschiedlichen Teilen der Welt. Denn auch, wenn es Sprachen gibt, in denen nur wenige Abwandlungen vorkommen, ist eine Implementierung in die breite Masse an Sprachassistenten nicht garantiert. Damit kommen wir zum zweiten Umstand: den Erlösen. Denn große Unternehmen arbeiten gewinnorientiert und trainieren ihre Algorithmen nicht in Sprachen, die wohl kaum mit dem jeweiligen Assistenten genutzt werden.

Daher geht das Mozilla-Projekt in eine richtige Richtung. Durch die freie Verfügbarkeit der bereits trainierten KI können Unternehmen schnell, kostengünstig und unkompliziert auf einen Algorithmus zurückgreifen, der wirklich (fast) alle Regionen der Welt berücksichtigt. Ich bin schon gespannt, wohin der offene Gedanke von “Common Voice” uns eines Tages hinführen wird.

