idpraxis Blog

Piwik?! Wie die Speicherung bzw. das Tracking von Userdaten funktioniert

Die Diskussionen um den Datenschutz im Internet haben es offen gelegt und einer breiten Öffentlichkeit ins Bewußtsein gerufen: Jeder Besucher und jeder Klick kann und wird in irgendeiner Form erfaßt und gespeichert. An dieser Stelle soll kurz dargestellt werden, wo, in welcher Form und von wem Daten gespeichert werden können (und meistens auch werden).

Der Ablauf beim Surfen im Internet ist im Grunde genommen ganz einfach: Der Nutzer will die Website xyz.de laden und gibt die URL ein. Über seinen Provider wird eine Anfrage an der Server, auf dem die Website gespeichert ist, gesendet. Entsprechend wird eine Aktivität beim Provider, beim angefragten Server und möglicherweise auch von der Website selbst (bzw. irgendwelcher Elemente in ihrem Inhalt) gespeichert.

Die providerseitige Speicherung (1) erfolgt automatisch, genauso wie die regelmäßige Löschung der Daten nach bestimmter Zeit (Stichwort Vorratsdatenspeicherung); diese Daten werden dann z.B. von windigen Rechtsanwälten, die Abmahnungen wegen Urheberrechtsverletzungen zum Geschäftsmodell gemacht haben, per gerichtlichem Eilbeschluß von den Internet-Providern angefordert.

Serverseitig wird jede Anfrage als Log-File gespeichert (2). Dieser Vorgang ist eine Frage der Einstellung des Servers; die Speicherung ist jedoch in den allermeisten Fällen der Normalfall. Die Auswertung dieser Log-Files kann durch eine eigene Software vorgenommen werden, die die Daten je nach Art und Qualität des Produktes z.B. als HTML-Seite aufbereitet. Standardnamen solcher Software sind z.B. Webalizer, Awstats und viele andere. Verantwortlich sind hier die Hoster der WebSites. Im Regelfall kommt es demnach zu zwei serverseitigen Speichervorgängen: Durch den Server selbst und durch eine Aufbereitung der Daten.

 

Die Informationen, wie sie in den Log-Files eines Servers bei der Anfrage durch einen Provider gespeichert werden, sehen dabei wie folgt aus:

Serverlog_bsp.jpg

An der IP ist das Land zu erkennen und der Name des Providers; deswegen erhält man, auch wenn man auf chinesischen Websites surft, immer brav deutsche Werbebanner angezeigt. Und die IP ist natürlich personalisierbar, d.h. man kann genau feststellen, wer der Anfragende ist. Des weiteren gibt es natürlich das Datum, die Zielseite, das Protokoll, die Browser-Infos und je nach Anfrage noch weitere Details. Vor Augen halten muss man sich, dass im Internet ja bei weitem nicht nur menschliche User surfen. Roboter jeglicher Couleur sind ebenso zahllos unterwegs. Das sind natürlich vor allem die Bots der großen Suchmaschinen, die die Websites ‚scannen’ und deren Inhalt bewerten. Aber alle möglichen anderen Bots, nette oder ganz fiese, tummeln sich im Anfrage-Logbuch.

Wenn es nur dabei bliebe…

Nun gibt es daneben ja noch die Programme, die die Besucher von der Website aus erfassen und speichern (Bild 1: Punkt 3). Und genau solche sind Piwik, Google Analytics oder verschiedene kommerzielle Lösungen. Hier ist es so, dass in der ein oder anderen Form ein bestimmter Code in einem Template eingefügt wird, durch den jede Anfrage durch muss. In der Regel handelt es sich um Java-Script, was den Vorteil hat, dass man als User bei im Browser deaktiviertem Java-Script durchs Sieb rasselt. Und dieser Code macht dann wieder ganz verschiedene eigene Sachen. Z.B. setzt er Cookies, d.h., er speichert eine Datei auf dem Rechner des Users ab, um ihn später, wenn er wiederkommt wiedererkennen zu können. (Bei Programmen wie dem Webalizer werden Anfragen, die in einem bestimmten Zeitraum stattfinden und vom gleichen Provider kommen zu Sessions zusammengefaßt und als ein ‚visit’ gezählt.) Und der Code sendet seine Daten irgendwo hin. Im Falle von Piwik in eine Datenbank, die bei der Installation angelegt werden muss und über die man natürlich ganz allein Macht und Kontrolle hat. Anders eben als bei Google Analytics, wo die Daten irgendwo hin in die USA gesendet und vermutlich von einer Art ‚brain bug’ verarbeitet und ausgewertet (und neuerdings ja auch schon verkauft) werden.

Piwik und Google Analytics funktionieren also vom Prinzip der Datenerfassung her ganz ähnlich, die wesentlichen Unterschiede liegen in der Aufbereitung und Vernetzung der Daten. Und da hat das Google’sche Programmierer-Heer natürlich einige Vorteile auf seiner Seite in puncto Vielfalt und Anwenderfreundlichkeit.

 

Zu erwähnen bleibt noch, dass über die WebSite nicht nur Statistik-Programme die User tracken. Auch Werbebanner und alle möglichen anderen Formate (z.B. die Facebook Like-Buttons) tracken und scannen die User fleißig. Man kann es leicht probieren: Löschen Sie alle Cookies im Browser und surfen sie über einige gängige deutsche Online-Zeitungen – und sofort tummeln sich da wieder eine ganze Reihe netter Kandidaten auf ihrem Computer.
(dr)

Dein Kommentar

Bitte alle Felder ausfüllen und den Sicherheitscode eingeben.