Siri auf Steroiden
VocalIQ: Hat Apple mit Siri doch noch einen Trumpf in der Hand?

Mit zwei von der Öffentlichkeit weitgehend unbemerkten Akquisitionen könnte Apple schlagartig zu Google Assistant, Microsoft Cortana und Amazon Echo aufschliessen. Siri könnte spätestens zur WWDC im Juni 2016 richtig intelligent werden und die Art, wie wir mit Smartphones interagieren grundlegend verändern.

Vor einigen Tagen haben wir uns festgelegt: nach den Keynotes von Facebook, Microsoft und Google wird auch die noch anstehende Worldwide Developers Conference WWDC im Juni das Ruder für Apple nicht mehr herumreissen, das Jahr 2016 darf man in puncto Innovation und zukunftsfähiger Ausrichtung getrost in die Tonne kloppen. Mit unserem Fazit waren wir nicht allein, auch andere prominente Insider, darunter Marco Amend, teilten diese Einschätzung und riefen für Apple schon den Blackberry-Modus aus.

Doch Apple könnte im Juni ein As aus dem Ärmel zaubern, bei dem uns allen die Kinnlade herunterklappt. Abgesehen von der auf absehbare Zeit zum Scheitern verurteilten Indien-Strategie des Tim Cook hat Apple ausgerechnet beim Thema Künstliche Intelligenz vielleicht mindestens eine Perle im Portfolio, mit der man mit einem Paukenschlag zu Google und Co. in die Schranken weisen könnte.

Siri Apples bisher eher schlecht als recht funktionierender Sprachassistent könnte spätestens zur Entwicklerkonferenz ein Upgrade erhalten, mit dem alle bisher am Markt befindlichen Konkurrenten – also hauptsächlich Google Now, Microsoft Cortana und Amazon Echo – wie die ersten Sprachversuche von Kleinkindern wirken.

Möglich könnte dies durch einen von der Öffentlichkeit weitgehend unbemerkten Zukauf werden, den Apple im Oktober 2015 tätigte. Vor knapp 8 Monaten erwarb Apple das damals noch recht junge Startup VocalIQ, das aus einem Projekt an der Cambridge University entstanden war. Seit der Gründung beschäftigte sich das Team mit der Entwicklung einer sprachgesteuerten Plattform, über deren Schnittstelle sich Smartphones, Roboter, Smart Cars, Games oder rofessionelle Sprachassistenten für Call-Center steuern lassen könnten.

Offenbar erfolgreich.

Schon der Kauf von VocalIQ durch Apple spricht Bände, zumal es nur der Schlusspunkt einer enormen Einkaufstour war (siehe unten). Während man in Cupertino zum Zeitpunkt des Kaufs den eigenen Sprachassistenten Siri nahezu gleich lange am Start hatte, musste man mehr oder weniger tatenlos zusehen, wie die Konkurrenten im Silicon Valley ihre Kapazitäten und Fähigkeiten in diesem Bereich rapide ausbauten und verbesserten. Besonders bei Google stand die Marschrichtung recht früh fest: die schier unerschöpfliche Datenbasis birgt eine hervorragende Grundlage für einen persönlichen, optional sprachgesteuerten Assistenten für alle erdenklichen privaten und professionellen Lebensbereiche.

Lesenswert:
Persönliche Assistenten: Wir ALLE werden Bots nutzen

Apple hat diesem Datenpaket nicht wirklich etwas entgegenzusetzen, was z.T. an der selbst auferlegten Datensparsamkeit liegt. Zwar weiß auch iOS zu jedem Zeitpunkt des Tages, wo man sich gerade befindet, welche Internetseiten man besucht und wer die engsten Kontakte sind, doch gegenüber Google wirkt das ganze wie ein mickriges Datenhäufchen. Ein weiteres Problem von Apple war und ist, dass die eigenen Systeme – als willige, zu Eingabegeräten degradierte Smartphones und Tablets – täglich die Datenbanken und Algorithmen des großen Konkurrenten füttern.

Wer die Google I/O verfolgt hat und insbesondere realisiert hat, welchen Meilenstein Google mit dem Schritt von Google Now zu Google Assistant vor hat, der erkennt Apples Dilemma. Letztendlich läuft der gesamte Bereich KI/AI und die damit einhergehende Integration von Bots darauf hinaus, dass diese möglichst schnell reagieren, dabei möglichst intuitiv zu bedienen sind und man im Idealfall das Gefühl hat, man interagiere, kommuniziere – oder unterhalte – sich mit einem menschlichen Gegenüber.

Schaut man nun auf eine Auswahl der Unternehmen, die sich Apple in den zurückliegenden Monaten einverleibt hat, dann fallen x der Kandidaten vor diesem Hintergrund sofort ins Auge:

  • Flyby Media, ein Augmented-Reality Startup, welches mobile Applikationen entwickelt, mit denen sich Objekte in der realen Welt erkennen bzw. identifizieren lassen.
  • FoundationDB: ein Unternehmen, dass sich auf die Verwaltung von Datenbanken für mobile Web-Applikationen spezialisiert hat.
  • Metaio: ein Augmented-Reality Unternehmen aus Deutschland
  • Mapsense: erstellt Software zur Visualisierung von ortsbasierten Daten auf Karten (Maps)
  • Perceptio: Deep Learning Startup im Bereich Artificial Intelligence Software, insbesondere Bilderkennung und Verwaltung via KI
  • VocalIQ: Deep Learning Startup im Bereich “natürliche” Spracherkennung und Sprachwiedergabe

Auf die Akquisitionen im Bereich Augmented Reality wollen wir hier gar nicht näher eingehen. Die dürften eventuell Microsofts Hololens Team nervös machen und eher mittel- bis langfristig eine Rolle im Zukunftsmarkt der Bots und Assistenten spielen. Doch besonders der beinahe zeitgleich bekannt gewordene Kauf von Perceptio und VocalIQ zeigt, dass Apple seit spätestens Oktober zur Aufholjagd geblasen hat. Die bisher bekannten Angaben zu beiden Unternehmen zeigen, welchen Ansatz Apple dabei verfolgt: statt wie Google oder Amazon auf eine schier unendlich große Datenbasis zu setzen, verfolgen die beiden Unternehmen eine ganz andere Taktik. Die Bild- und Spracherkennung sowie die Verarbeitung der Daten und die Ausgabe sollen mehr oder weniger vollständig auf dem (dann entsprechend leistungsstarken) Smartphone stattfinden, quasi in Echtzeit.

Von VocalIQ weiss man, dass die bisherigen Tests beeindruckend waren. Die Software, die schon im Oktober 2015 kurz vor der Veröffentlichung stand, soll völlig natürlich gesprochene Texte verstehen und ist somit nicht auf die bisher mitunter etwas hölzern wirkenden Fragen und Anweisungen angewiesen, die momentan noch von Google Now, Microsoft Cortana und Amazon Echo benötigt werden. Der Benutzer kann der Software eine Frage stellen, in der miteinander verbundene bzw. untereinander verschachtelte Bedingungen eine Auswahl eingrenzen oder erweitern.

So soll VocalIQ in der Lage sein, eine Anweisung in der Form

“Finde ein chinesisches Restaurant in der Nähe mit einem Parkplatz vor der Türe, das freies Wi-Fi hat und als kinderfreundlich gilt”

zu verstehen. Während Google Now, Microsoft Cortana und Apple Siri bei derart verschachtelten Anweisungen in gerade einmal 20% der Fälle ein Ergebnis liefern, soll VocalIQ hier eine Erfolgsquote von 90% gehabt haben.

Unbedingt ansehen: SO geht Sprachassistenz

VocalIQ soll auch Apps wie Hound in den Schatten stellen, weil es sich bisherige Anfragen merken ud diese miteinander verbinden kann (Juni 2015)

HOUND Voice Search & Mobile Assistant
HOUND Voice Search & Mobile Assistant
Entwickler: SoundHound Inc.
Preis: Wird angekündigt
Die App konnte im App Store nicht gefunden werden. :-(

VocalIQ

Das Geheimnis hinter VocalIQ soll in der Art und Weise liegen, wie die App Fragen interpretiert. Während man es bei Apple mit ca. 1 Milliarde Siri-Abfragen pro Woche über Jahre hinweg nicht geschafft hat, dem System ein halbwegs natürliches Verständnis beizubringen, sollen bei VocalIQ schon ein paar tausend neu gestellte Fragen zu einem erheblichen Lerneffekt geführt haben – mit nach oben offenen Grenzen.

Im Vergleich zu Hound von Soundhound, die nach einem ähnlichen Prinzip arbeiten, soll sich VocalIQ dabei die bisherigen Anfragen merken und zukünftige Anweisungen dazu in Kontext setzen können. Wenn man also VocalIQ – bzw. das zukünftige Siri2? – wenige Minuten nach der o.g. Bitte anweist:

“Finde stattdessen ein mexikanisches Restaurant.”

dann weiß die App, dass die anderen Vorgaben weiterhin bestehen bleiben und sich lediglich der Appetit von chinesischem zu mexikanischem Essen gewandelt hat. Das wiederum ähnelt enorm dem, was Google uns bei der I/O 2016 mit dem kommenden Google Assistant präsentiert hat – nur eben, nach allem was wir bisher wissen, technisch ganz anders umgesetzt.

Um die App gibt es noch weitere Gerüchte. So sollen die Entwickler von Beginn an darauf geachtet haben, dass ein Benutzer auf gar keinen Fall irgendeine Aktion auf dem Bildschirm seines Smartphones ausführen soll. Google Now, Apple Siri und Microsoft Cortana unterbrechen die Frage-Antwort-Spielchen mit dem Robot noch allzu oft mit einer mehr oder zwingend notwendigen Bestätigung per Klick oder Fingertipp oder liefern als Ergebnis eine Liste mit Suchtreffern oder ähnliches. Für VocalIQ gilt eine Iteraktion angeblich nur dann als erfolgreich abgeschlossen, wenn genau das nicht der Fall ist und es bei einer “Unterhaltung” bleibt.

Sollte Apple es tatsächlich schaffen, vergleichbare Features in die kommende Version von Siri einfließen zu lassen und kombiniert man das in Cupertino mit den Forschungen anderer aufgekaufter Unternehmen wie dem o.e. Perceptio, dann ist das Rennen um “intelligente” Smartphones und Assistenten noch längst nicht so entschieden, wie es momentan zu sein scheint.

Quelle techinsider.io