Habt ihr schon einmal im Restaurant darüber nachgedacht, dass ihr ein bestimmtes Gericht gerne zuhause nachkochen möchtet? Mir ging es schon öfter so, über meine Cooking-Skills hüllen wir an dieser Stelle aber aus Respekt vor Lebensmitteln den Mantel des Schweigens. Grundsätzlich ist es aber möglich, mithilfe unserer Sinne Zutaten herauszuschmecken und so zumindest eine Grundlage für ein Rezept zu erahnen.

Der Haken dabei: Ihr wisst dann vielleicht, was ihr da gerade für Zutaten seht oder schmeckt, wisst aber noch lange nicht, wie genau das Gericht zubereitet wird. Künstliche Intelligenz könnte dabei in Zukunft helfen und nötig ist dabei dann nur ein einfaches Foto von dem, was ihr da vor euch auf dem Teller habt.

Natürlich gibt es das längst, dass aufgrund eines Fotos ein passendes Rezept ermittelt werden soll. Dabei handelt es sich aber um Datenbanken, die einfach nur das jeweilige Foto mit gespeicherten abgleicht. Sieht dann ein Gericht genau so oder sehr ähnlich aus wie das fotografierte, bekommt ihr dann eben das passende Rezept angezeigt. Das funktioniert natürlich nur so gut, wie die Datenbank groß ist und wie identisch das Menü aussieht. Damit ist dieser Weg auch nicht der Weisheit letzter Schluss.

Facebook arbeitet aktuell an einer künstlichen Intelligenz, die das deutlich besser hinbekommen soll. So, wie die zuständigen Personen hoffen, möchte man das innerhalb eines Jahres in eine funktionierende Software übersetzen, bei der ihr ein Gericht knipst und dann sowohl den Namen des Gerichts gesagt bekommt als auch die Zutatenliste und die einzelnen Schritte der Zubereitung.

Das soll in der Praxis nicht nur besser funktionieren, als das durch das bloße Abgleichen innerhalb von Datenbanken möglich ist, sondern auch besser, als es ein Mensch könnte. Das finde ich insofern bemerkenswert, weil wir ja noch den Vorteil haben, das Essen riechen und schmecken zu können, die Konsistenz zu beurteilen usw.

Den Code findet ihr bei Github und hier könnt ihr auch das zugehörige, komplette Paper zur Technologie lesen. Die Wissenschaftler bezeichnen die Technik als “Inverse Cooking” weil ja das Rezept-Pferd hier quasi von hinten aufgezäumt wird. Das klingt vielleicht einfacher, als es dann tatsächlich ist. Immerhin gibt es genügend Zutaten, die man vielleicht schmeckt, aber nicht auf einem Foto sieht. Zudem kann eine Zutat beim Kochen seine Form, vielleicht auch Farbe und Konsistenz verändern, je nach Zubereitungsart und Rezept.

Die künstliche Intelligenz muss also darauf trainiert werden, all das zu berücksichtigen und die Zutatenliste stellt dabei einen wichtigen Zwischenschritt dar. Man hat dann nämlich zwei Wege, um auf ein komplettes Rezept schließen zu können: Das, was man auf dem Bild sieht und das, was so eine Zutatenliste hergibt.

Our method starts by pretraining an image encoder and an ingredients decoder, which predicts a set of ingredients by exploiting visual features extracted from the input image and ingredient co-occurrences. Then we train the ingredient encoder and the instruction decoder, which generate title and instructions by taking the image’s visual features and the predicted ingredients and feeding them into a state-of-the-art sequence generation model.

Wird beispielsweise aufgrund eines Fotos erkannt, dass wir es mit einem Schoko-Croissant zu tun haben, dann kann die Software daraus sowohl eine nicht sichtbare Zutat wie Butter ableiten, als auch wie der Koch- oder in diesem Fall Backvorgang auszusehen hat. Im besten Fall wird aus dieser Technologie so etwas wie ein Shazam für Kochrezepte.

Ich bin gespannt, wie gut oder schlecht eine solche KI funktionieren kann, die auf unzählige Gerichte trainiert wird. Ich traue künstlicher Intelligenz sehr viel zu, das wisst ihr. Aber in diesem Fall bin ich alt auch ein wenig skeptisch. Esse ich beispielsweise ein Kartoffelpüree, schmecke ich heraus, dass dort vielleicht mit Muskatnuss gearbeitet wurde. Anhand eines Fotos kann lediglich das Püree erkannt werden, welches es aber in unzähligen Varianten gibt.

Oder wie verhält es sich mit Gerichten, die es überall zu kaufen gibt, bei denen es aber in jeder Stadt immer auch den Geheimtipp gibt, wo man eben die beste Currywurst, den besten Döner etc. bekommt. Bei einer Currywurst erkenne ich dann vermutlich ziemlich einfach mittels Software, dass wir es eben mit einer Currywurst zu tun haben, können eventuell auch auf das Fleisch schließen und darauf, dass wir es mit einer Curry-Sauce zu tun haben. Aber meinem Verständnis nach kann selbst eine gut trainierte KI nur erkennen, dass es eine Currywurst ist — und nicht etwa die von von Dönninghaus in Bochum oder Wurst-Willi in Dortmund. Aber vielleicht unterschätze ich künstliche Intelligenz an diesem Punkt ja auch.

So oder so eine sehr interessante Entwicklung, über die noch zu reden sein wird, glaube ich. Liege ich nämlich falsch und ein schlichtes Foto ist in der Lage, uns das Nachkochen einer außergewöhnlichen Speise zu ermöglichen, könnte ich mir viele Restaurantbesitzer und Köche vorstellen, die nicht sonderlich glücklich sind, wenn in ihren Läden Essen fotografiert wird.

Schon heute gibt es Restaurants, bei denen es nicht erwünscht ist, die Gerichte zu fotografieren, was allerdings dann weniger damit zu tun hat, dass man ein Rezept ausspionieren will. Das ist aber ein anderes Thema, mit dem wir uns vielleicht nochmal auseinandersetzen können, wenn Facebooks “Shazam für Rezepte” dann tatsächlich fertig und verfügbar ist. Ich jedenfalls hab beim Schreiben Hunger bekommen und marschiere gleich nochmal beim Kartoffel-Lord vorbei. Dort esse ich am liebsten den “Arabic” — und von dem wüsste ich in der Tat sehr, sehr gerne, wie man ihn zubereitet.

Quelle: Facebook via Nerdcore