Smart Machines
Q*bert: KI entdeckt nie dagewesenen Bug und sackt massig Punkte ein

Ein Forscher-Trio aus Freiburg hat eine künstliche Intelligenz mit der sogenannten Evolutionsstrategie trainiert, um ihr das 80er Jahre Game Q*bert näher zu bringen. Die KI meisterte nicht nur das Spiel, sondern entdeckte auch einen nie dagewesenen Bug, mit dem man übermenschlich hohe Punktzahlen erreicht.

Q*bert ist nicht nur ein 1982 erschienenes Computerspiel, sondern auch der Name der Hauptfigur aus selbigen. Das Spielprinzip ist zwar schnell erklärt, aber nicht so leicht umzusetzen. Da es schon so alt ist, hier die Eckdaten: Das Spielfeld besteht bei Q*bert aus farbigen Würfeln, die in einem Dreieck angeordnet sind. Die Hauptfigur springt auf diese von oben nach unten und muss sie umfärben. Doch die Würfel können im weiteren Spielverlauf ihre Farbe wechseln, sodass die Schwierigkeit des Games erhöht wird.

Soweit, so gut. Nun sind Videospiele ja ein beliebtes Mittel, um künstliche Intelligenzen zu trainieren. In der vergangenen Woche wurde wieder mal ein Paper veröffentlicht, bei dem ein Wissenschafts-Trio aus Freiburg ihren Versuchsaufbau und Erfolg beschreibt. Laut diesem hat ihr KI-Bot es geschafft, einen versteckten Bug in Q*bert auszunutzen, um unmenschlich hohe Punktzahlen zu erreichen.

Im Video sehen wir, dass Q*bert am einem gewissen Punkt zwischen den Plattformen zu schweben scheint und in keiner bestimmten Reihenfolge auf die Würfel springt, wodurch sich die Farben schnell verändern. Normalerweise sollte das Spiel ab einer bestimmten Punktzahl in die zweite Runde gehen, aber ein Bug führt dazu, dass die Plattformen weiter blinken und Q*bert weiter auf ihnen herumhüpft. Die Punktzahl steigt so fast ins unermessliche.

Die KI-Wissenschaftler wissen nicht, woher der Bug kommt, warum er überhaupt im Spiel ist und wie man ihn erreicht. Das Programm hat ihn ganz alleine entdeckt und das war bestimmt kein Zufall. Denn die künstliche Intelligenz wurde nicht mit der traditionellen Methode des verstärkenden Lernens trainiert, so wie andere Maschinen, wie beispielsweise die Alpha Go KI. Stattdessen wurde dieser Bot hier mit Algorithmen der Evolutionsstrategie programmiert.

Er wurde mit etwa 1,5 Millionen Parametern und Rohpixeln aus dem Spiel gespeist. Ziel dieses etwas anderen Evolutionstrainings ist es, die Werte der Parameter so zu maximieren, dass die KI beim Spielen hohe Punktzahlen erreicht. Doch was hat diese Vorgehensweise mit der Evolution zu tun? Nun, im Prinzip spielt die KI verschiedene Generationen durch – ja so könnte man es beschreiben. Die erste, quasi die Urgeneration, startet das Spiel mit zufälligen Parametern und spielt es durch, bis es nicht mehr weiter kommt. Die nächste Generation schraubt dann an den Parametern herum, um den vorherigen Durchlauf zu verbessern und die beste Spieleinstellung zu finden.

Die Nachkommen, die am meisten Punkte eingesackt haben werden dann als besonders gut gekennzeichnet. So weiß die KI, welche Strategie am besten funktioniert hat. Aus dem Bedürfnis heraus, die höchste Punktzahl zu erreichen, ist eine der Generationen vermutlich auch auf den Bug gestoßen. Da sie so quasi das Ziel erreicht hatte, verfolgte die KI diese Strategie auch weiterhin. Diese gewählte Vorgehens- und Trainingsweise ist langsamer und erfordert mehr Berechnungen, als die traditionelle Lernweise.

In Zukunft wollen die Forscher herausfinden, wie sie die Methode des verstärkenden Lernens und die Evolutionsstrategie miteinander kombinieren können. Dadurch erhofft man sich noch bessere Ergebnisse.

via: theregister