PlaNet-Titelbild

Google PlaNet: Software erkennt, wo ein Foto gemacht wurde

Mit PlaNet hat Google einen Algorithmus entwickelt, der automatisch erkennen kann, wo ein Foto gemacht wurde - aufgrund der Bildinhalte, versteht sich und nicht etwa auf Basis der GEO-Informationen, die mit dem Bild mitgeliefert werden.

Robotik, künstliche Intelligenz und clevere Software-Algorithmen – in vielen Technologie-Bereichen werden derzeit erstaunliche Fortschritte gemacht und sorgen dafür, dass wir sowohl begeistert sind von den neuen Möglichkeiten, gleichzeitig aber auch ein wenig Bammel bekommen vor dem, was schon bald technisch machbar sein wird.

Dabei müssen wir gar nicht düsterste Science Fiction-Fantasien bemühen, die uns ein Bild von einer Welt zeichnen, in der Intelligenz und Lernfähigkeit der Maschinen höher sind als beim Menschen und sich diese Maschinen daher gegen uns richten könnten. Es reicht schon, wenn wir auf Basis der aktuellen Möglichkeiten den Faden weiterspinnen, was mit unseren Daten geschieht.

Dazu reicht ja schon ein Blick in die Kommentare auf sozialen Medien, nachdem eine Plattform wie WhatsApp seine Geschäftsbedingungen aktualisiert oder Facebook ein neues Feature vorstellt. Neben der Freude über eine neue Funktion – selbst jetzt bei den neu eingeführten Emoji-Alternativen zum Like-Daumen – gibt es auch stets die Befürchtungen, dass so ein Feature Facebook auch dazu dienen soll, noch mehr auswertbare Daten von uns einzukassieren.

Deep Learning: Algorithmus erkennt Orte auf Fotos

Wollen wir dieses zweischneidige Schwert – Begeisterung über eine neue Technologie und Angst vor den daraus resultierenden Möglichkeiten – anhand eines aktuellen Beispiels besprechen, dann kommt dazu ein neuer Algorithmus gerade recht, den wir Wissenschaftlern von Google verdanken: PlaNet nennt sich dieser Algorithmus, bei dem neuronale Netzwerke zur Geolocation genutzt werden, sprich: Zur Erkennung des Ortes einer Fotografie – ohne dazu die mitgelieferten Bildinformationen zu benötigen.

Tobias Weyand und James Philbin von Google sowie Ilya Kostrikov (Rheinisch-Westfälische Technische Hochschule Aachen) haben ihre Erkenntnisse zu PlaNet in einem wissenschaftlichen Dokument zusammengefasst, welches ihr hier als PDF-Dokument einsehen könnt.

Was wurde hier getan? Zunächst einmal wurde unsere Erde in 26.000 unterschiedlich große Quadrate unterteilt. Je mehr Bilder pro Quadrat verfügbar sind, desto kleiner ist es. Das bedeutet, dass eine Gegend wie das Ruhrgebiet mit vielen großen Städten und der höheren Zahl an dort geknipsten Fotos eher einem kleinen Quadrat zugeordnet würde, eine weniger bewohnte Gegend hingegen einem größeren Quadrat.

Dann wurde das System gefüttert mit 29,7 Millionen bei Google+ öffentlich verfügbaren Fotoalben. Der Algorithmus wurde mit 490 Millionen Fotos trainiert, 91 Millionen der insgesamt 126 Millionen verfügbaren Fotos dienten der Validierung der Ergebnisse. Wird PlaNet so ein Bild vorgesetzt, kann es nun den Bildinhalt ohne Zugriff auf mitgelieferte Geo-Daten einem dieser Quadrate zuordnen, somit also einem Ort zuordnen.

Knipse ich mich vor dem Big Ben oder am Grand Canyon, ist es für den Betrachter des Fotos ein Leichtes, den Ort zu erkennen, an welchem das Foto entstanden ist. Nun aber gehen wir einen riesigen Schritt weiter und werden künftig auch Geolocations zu Bildern mitgeliefert bekommen, die nicht auf Anhieb für uns ersichtlich auf einen Ort schließen lassen.

Damit das funktionieren kann, berücksichtigt der Algorithmus verschiedene Punkte auf dem Foto: Natürlich werden Sehenswürdigkeiten und prägnante Landmarks erkannt und präzise zugeordnet, darüber hinaus werden aber auch Landschaften oder bestimmte Straßenzüge erkannt, die Architektur von Gebäuden und typische lokale Objekte wie beispielsweise rote Telefonzellen berücksichtigt, aber auch bestimmte Pflanzen- und Tierarten.

PlaNet 01

Wie gut klappt das bereits auf Basis des PlaNet-Algorithmus? Um die Genauigkeit zu ermitteln, hat man das System mit 2,3 Millionen Flickr-Fotos gefüttert, die mit Geo-Tags versehen sind. Die Resultate können sich durchaus schon sehen lassen:

  • Für 48 Prozent der Fotos wurde der richtige Kontinent ermittelt
  • 28,4 Prozent der Fotos konnten einem Land zugeordnet werden
  • Bei 10,1 Prozent der Fotos wurde auch die richtige Stadt genannt
  • Bei 3,6 Prozent schließlich wurde der Ort bis auf die Straße genau ermittelt

Weiter wurde aber auch getestet, wie sich das System bewährt, wenn man es im Wettbewerb mit weitgereisten Personen misst. Duelliert haben sich die 10 Globetrotter mit ausgiebigen Kenntnissen über unseren Planeten mit dem Algorithmus auf Basis eines Spiels namens Geoguessr. Ihr bekommt aus der Street View-Datenbank ein beliebiges Bild angezeigt und könnt dann weltweit einen Pin setzen, von dem ihr glaubt, dass er den richtigen Ort markiert.

Geoguessr

50 Spielrunden wurden absolviert und bereits jetzt schlägt der Algorithmus den Menschen! 28 der 50 Runden gingen an PlaNet, wobei das System durchschnittliche 1131,7 Kilometer daneben lag, während es bei den menschlichen Protagonisten eine durchschnittliche Entfernung von 2320,75 Kilometer zum Foto-Ort gab. Das mag nun nicht repräsentativ sein bei so einer Handvoll Tester, aber probiert Geoguessr mal selbst aus und ihr werdet erahnen können, welche Leistung der Algorithmus leistet, wenn er im Schnitt „nur“ knapp über 1100 Kilometer daneben liegt.

Übrigens sind die technischen Voraussetzungen so niedrig gehalten, dass die Prozessoren und Arbeitsspeicher in unseren Smartphones locker ausreichen, um künftig jedermann die Möglichkeiten dieses neuronalen Netzes mit übermenschlichen Fähigkeiten zu bieten.

Our model uses only 377 MB, which even fits into the memory of a smartphone Tobias Weyand

Wohin geht die Reise?

Software wie beispielsweise Google Fotos oder die Gesichtserkennung bei Facebook zeigen jetzt bereits, wie zuverlässig Menschen oder Objekte erkannt werden können. Grundsätzlich ist das absolut begrüßenswert, bietet viele Möglichkeiten und kann vielfach unser Leben erleichtern.

Gleichzeitig baumelt aber da auch immer dieses Damoklesschwert über uns, auf dem „Was machen die mit unseren Daten“ eingraviert ist. Das ist keine unbegründete Angst, denn es geht hier nicht nur darum, dass erkannt wird, ob da ein Hund auf dem Bild ist oder – mithilfe von PlaNet – erkannt wird, dass ein Foto in Tansania geknipst wurde. Die großen US-Unternehmen sammeln massig Daten jeglicher Couleur und dank dieser ausgeklügelten Algorithmen werden diese Daten auch immer geschickter miteinander verknüpft.

Oben hab ich beschrieben, dass PlaNet sich an Landschaften, Pflanzen- und Tierwelt und anderen charakteristischen Eigenschaften im Bild orientiert, aber es ist auch möglich, Indoor-Aufnahmen zuzuordnen. Dazu reicht beispielsweise euer „London“-Album bei Google: Sieht man den Tower of London auf einem Bild und den Picadilly Circus auf dem übernächsten, geht die Software davon aus, dass auch das Trunkenbold-Foto vom Gelage im Hotelzimmer zwischen den beiden anderen Bildern in London geschossen wurde.

Google kann sowieso schon ziemlich genau nachzeichnen, wann wir uns wo bewegt haben, nun arbeitet man eben auch daran, dass keine Bewegungsdaten mehr notwendig sind, das allein aufgrund der Bilder zu ermitteln. Denken wir einen Schritt weiter bei der Genauigkeit solcher Algorithmen, braucht man nur wenig Fantasie, um sich die künftigen Möglichkeiten der Technologie auszumalen: Google – oder welches Unternehmen auch immer – sieht ein Foto und erkennt, wo wir sind, welche Bier- oder Zigarettenmarken sich auf dem Tisch befinden, mit welchen Leuten wir wann bei welchen Veranstaltungen rumhängen und so vieles mehr.

Verknüpft man all das mit den anderweitig erhobenen Daten, nähern wir uns immer mehr dem gläsernen Menschen. Ich glaub, ich bin diesbezüglich so ein bisschen naiv gestrickt und denke daher, dass uns die technischen Errungenschaften deutlich weiter nach vorne bringen, als sie uns gefährlich werden und Google tatsächlich mehr Gutes als Böses im Schilde führt. Dennoch sollten wir uns dessen bewusst sein, was bereits jetzt möglich ist und erst recht in den nächsten Jahren möglich sein wird.

Daher mal abschließend in die Runde gefragt, wie ihr zu solchen Entwicklungen wie PlaNet steht: Begreift ihr das tendenziell eher als Chance, macht euch sowas mehr Angst – oder seht ihr wie ich das Ganze auch ein wenig zwiegespalten? Lasst es uns in den Kommentaren wissen!

Quelle: Arxiv.org via MIT Technology Review