Ich erinnere mich noch an die seltsame Anfangszeit von Twitter, die mit der eloquenten Ankündigung sämtlicher Toilettenbesuche und Aussprache der wohl intellektuell schmerzhaftesten Fragen bei den seltsamsten Benutzern einherging. Manche Dinge muss man vielleicht nicht archivieren, Twitter will aber prinzipiell einen umfassenden historischen Suchindex schaffen. Es sind ja auch einige sehr interessante Dinge auf der Plattform geschehen.
Der Fokus der Twitter-Suche lag bisher aus gegebenem Anlass primär in der (semi-)Echtzeit, zum schnellen Finden relevanter Themen, Hashtags, dem neuesten XYZ-#Gate und globaler Unterhaltungen zu Wahlen, Erdbeben oder Neo-Feminismus. Heute ist es beispielsweise der Männertag, der unter anderem gemeinsam mit #Shirtgate im invertierten Echtzeit-Suchindex mit etwa einer Woche rückwärtigem Puffer landet. Ältere Tweets (mehr als 6 Wochen) sind aber bislang schlecht auffindbar gewesen.
Lange Entwicklungszeit aufgrund von Infrastruktur-Herausforderungen
Die neue Infrastruktur von Twitter will aber mehr, das Unternehmen will schnellen und effektiven Zugriff auf alle Tweets ab März 2006 bieten, die öffentlich im Netz gelandet sind. Eine halbe Billion „Dokumente“ bilden ein Cache mit der 100-fachen Größe des Echtzeit-Suchindexes und lassen sich mit einer Wartezeit von weniger als 100 ms abfragen.
Das Mammut-Projekt beanspruchte die letzten zwei Jahre als Entwicklungszeit und wird für Sportergebnisse, Konferenzen oder andere langlaufende Themen eine sehr interessante Informationspackung liefern.
Der populärste Tweet nach Retweets und Favoriten ist übrigens bis dato der hier:
If only Bradley's arm was longer. Best photo ever. #oscars pic.twitter.com/C9U5NOtGap
— Ellen DeGeneres (@TheEllenShow) March 3, 2014
Bald für alle Twitter-Nutzer zugänglich
In der fortgeschrittenen Suche taucht nun auch eine Datumswahl im Interface auf. Bislang waren Drittanbieter-Tools wie Topsy diesbezüglich hilfreicher und boten ähnliche Filter, man stieß aber immer irgendwann auf ein historisches Limit. Jetzt lassen sich ältere und auch richtig alte Tweets leichter finden, das Feature befindet sich momentan im Rollout. So richtig benutzerfreundlich ist die grafische Oberfläche dazu aber nicht, für größere Recherchearbeit muss auf jeden Fall die Syntax gelernt werden.
Testen kann man das Feature heute bereits mit Such-Operatoren und Anfragen wie:
„New Years until:2007-01-03 since:2006-12-30“
Was effektiv die Neujahrssprüche und Vorsätze für diese Zeitperiode ausspuckt. Ich kann mir gut vorstellen, dass dieses mittlerweile nötige Feature die Twitter-Plattform als ergänzendes Recherchemittel weiter etablieren könnte. Mehr zum Aufbau der dafür benötigten, riesigen SSD-Cluster und dem Index-System gibt es direkt im Twitter-Blog.