Ich werde nie meine erste Vorlesung im Fach Statistik vergessen, die ich im Rahmen meines VWL-Studiums an der NYU besuchen musste. Zuvor hatte ich mit Hängen und Würgen die Mathematik-Kurse gerade so bestanden und mir kräuselten sich schon die Nackenhaare bei dem Gedanken zwei weitere Semester mit Zahlen gequält zu werden. Doch es kam ganz anders:

“Willkommen im Fachbereich Statistik. Bitte packen Sie die mitgebrachten Taschenrechner wieder weg. Sie sind nicht hier um sich mit Zahlen, Mathematik oder Arithmetik zu beschäftigen. Sie sind hier um zu lernen wie man lügt, betrügt und manipuliert ohne das man Ihnen etwas vorwerfen kann.”

Es versprach ein spannendes Semester zu werden – und obwohl man mich später doch reichlich mit Zahlen quälte – sollte sich heraus stellen, dass die Lehrinhalte mit zu dem Nützlichsten zählten was ich jemals gelernt habe.

So zum Beispiel in einer nicht enden wollenden Telefonkonferenz mit einem Kunden und seinem “Website-Optimierer” an der ich als Designer teilnehmen sollte. Wir alle starrten auf den Google Analytics Account und hörten den Ausführungen des werten Kollegen zu. Ich hab eine verhältnismäßig hohe Resistenz gegen groben Unfug der erzählt wird, wenn es darum geht Kunden zu beeindrucken. Ich kann auch verstehen, dass jeder sein Brot verdienen muss. Aber auch mir platzt manchmal der Kragen:

1.) Alle Webstatistiken sind falsch

Statistiken über Website-Besucher sind ein wichtiges Werkzeug – Sie haben nur ein kleines Problem: Sie sind alle falsch. Vielleicht ist “falsch” ein zu hartes Wort – sagen wir lieber: Sehr sehr ungenau.

a) Es gibt gar keine Besucher

Web-Statistiken geben uns Auskunft über die Besucher unserer Website und deren Verhalten. Das glauben jedenfalls die meisten Anwender und Leser dieser Statistiken. Was jedoch die meisten übersehen, ist die simple Tatsache, dass wir gar keine Besucher zählen können. Es gibt sie nämlich gar nicht. Unsere Webseiten werden nicht von Menschen besucht, sondern von deren Computern. Genauer gesagt fordert der Computer des Benutzers eine Kopie der Seite an und zeigt seinem Benutzer anschließend eine Interpretation des Inhalts. Diese Interpretationen sehen je nach Betriebssystem und verwendeter Browsersoftware (und Version) unterschiedlich aus. Wer sich ein Bild davon machen will, wie unterschiedlich diese Interpretationen sein können, der soll mal einen Webdesigner auf das Thema “Cross-Browser-Kompatibilität” ansprechen und sich auf einiges gefasst machen.

Der übliche Weg einen “Besucher” zu bestimmen besteht daraus, dass man die IP Nummer (also die aktuelle Internet-Adresse) des Computers und die Kennung des Browsers mit Betriebsystem zusammenfasst und als eindeutigen “Fingerabdruck” des Besuchers wertet.  Ich habe mir mal eben einen beliebigen Besucher meiner Firmen-Homepage herausgegriffen:

80.153.44.xxx / Mozilla/5.0 (Windows; U; Windows NT 6.1; de; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3

Die IP gehört der Deutschen Telekom und wird dem Raum Darmstadt zugerechnet. Der Besucher verwendet Windows Vista (Windows 7) und FireFox in der Version 3.5. Ich war schon lange nicht mehr in Darmstadt, aber zuletzt gab es da viele Menschen. Viele davon verwenden vermutlich Windows Vista und rund 67% aller Besucher meiner Site verwenden FireFox in der Version 3.5 und die Telekom hat auch nicht gerade nur einen Kunden in Darmstadt.

Wer jetzt schon das Gefühl bekommt, dass diese Art der Identifizierung eines Besuchers alles andere als eindeutig ist, der soll sich überlegen wie es mit Mitarbeitern von großen Konzernen oder Behörden ist. Zu meinen Kunden gehört unter anderen die US-Armee. Diese Jungs tragen nicht nur Uniformen sie sind auch uniform: Der gleiche Browser, das gleiche Betriebssystem und zu dem der gleiche IP Adressraum egal wo sie sich auf der Welt befinden. Wir sprechen von hundertausenden “Besuchern” die alle komplett gleich aussehen. Und was für die US-Armee gilt, gilt auch für jeden internationalen Konzern wie Daimler-Chrysler, IBM, Siemens und so weiter. Jede einzelne Person dort sieht für den Server genau gleich aus.

Und wie sieht es mit privaten Usern aus? Da besteht das gleiche Problem nur umgekehrt: Jeder Internet-Nutzer der sich über seinen Provider einwählt, erhält jedes mal eine neue IP-Nummer und sieht somit anders aus.

Der Versuch einen Besucher anhand von IP Nummer, Browser und Betriebssystem zu erkennen ist denkbar problematisch. Und die handelsübliche Lösung des Problems ist in Wirklichkeit auch keine, denn Cookies lösen das Problem nicht. Benutzer verweigern Cookies, löschen Cookies und verwenden (z.B. in Internet-Cafés oder Universitäten) auch Rechner, die jemand anders zuvor schon benutzt hat.

Kurz um – wir müssen damit leben, dass es “Besucher” in diesem Sinn nicht gibt und alle Statistiken, die sich auf diese Größe beziehen per Definition sehr ungenau sind. Doch damit sind wir noch lange nicht am Ende der Probleme.

b) Was ist eigentlich ein Besuch?

Nachdem nun schon klar ist, das es keine “Besucher” gibt, sollte es nicht verwundern, dass es auch keine “Besuche” gibt. Um zu verstehen, was mit dem Begriff “Besuche” bzw. “Visits” in Webstatistiken gemeint ist, sollte man sich eine Fußgängerzone (=Internet) vorstellen, durch die viele Menschen (=User)  schlendern und die rechts und links mit Schaufenstern (=Landing Pages) von Geschäften (=Websites) gesäumt ist.

Jemand der sich nur mein Schaufenster ansieht, ist kein Besucher meines Ladens. Und erst recht ist er noch kein Kunde. So ist es auch mit den Besuchern die auf einer Seite meiner Website landen. Sie schauen erst mal. Vielleicht finden sie etwas interessantes und klick drauf. In diesem Gedankenmodell wird mit dem Klick aus dem Passanten ein Ladenbesucher. Er tritt ein und interagiert mit unserer Website. Klickt er auf nichts, ist er wie ein Passant der weiter geht. Er ist weg. Diese Nicht-Besucher werden Bounces genannt. Besucher die auf einer Seite unseres Webangebots (=Landing Page) landen und dann verstummen.

Wir wissen bereits das es ein Problem ist zu erkennen, ob derjenige der sich das Schaufenster angesehen hat auch derjenige ist der unseren Laden betritt. da wir ihn nicht eindeutig identifizieren können. Es kommt nun ein weiteres Problem hinzu: Die Dauer.

Aus unerfindlichen Gründen hat sich ein Quasi-Standard eingebürgert der besagt, das zwei Seitenaufrufe eines Besuchers binnen 30 Minuten ein Besuch sind. Wenn also jemand um 15:00 Uhr meine Startseite aufruft und mit der (zweifelhaften) gleichen Kennung um 15:29 eine weitere Seite aufruft haben wir einen Besucher, also jemanden der mehr als eine Seite aufgerufen hat. Klickt er zwei Minuten später, also um 15:31 wird aus dem Besucher ein weiterer Passant der das Schaufenster betrachtet ohne mein Geschäft zu betreten. Die Gründe warum mehr als 30 Minuten zwischen dem Aufruf einer Seite und dem nächsten Klick vergehen können sind so umfangreich wie plausibel. Da kann ein Telefonat dazwischen kommen, die Mittagspause oder einfach Besucher die auf meiner Startseite landen, sich dann 5 andere Websites ansehen und wieder zurückkommen. Wie im wahren Leben eben auch.

Sind 30 Minuten also zu lang? Nein, denn in einer halben Stunde kann viel passieren. Warum sollte sich jemand in dieser Zeit nicht mal aus und wieder einwählen? Schon hat er eine neue IP-Nummer und gilt als ein neuer Betrachter meines Schaufensters. Die Antwort lautet die 30 Minuten sind weder zu lang noch zu kurz, sie sind einfach willkürlich. Sie besagen gar nichts.

c) und die Uhr blieb stehen

Nun haben wir also weder Besucher noch Besuche – es verwundert nicht weiter das der Wert “verbrachte Zeit” auf der Website ebenfalls ein Hirngespinst ist und eigentlich gar nichts aussagt. Ich rufe eine Seite auf, fange an zu lesen, erhalte ein Telefonat, nach 29 Minuten schau ich wieder auf die Seite und klicke auf einen Link, nun geh ich mir schnell einen Kaffe holen, tratsche kurz in der Küche mit einem Kollegen und kehr an den Schreibtisch zurück und klicke nun auf den nächsten Link. Je nachdem wir lange das Telefonat und der Kaffeeklatsch gedauert hat wird mein Besuch ausgewertet. Dabei kann herauskommen dass ich fast 1 Stunde auf der Website verbracht habe (29 Minuten zwischen Erstaufruf, Telefonat und dem zweiten Klick und nochmals 29 Minuten für Kaffee holen, tratschen und den 3. Klick) – in Wirklichkeit hab ich jedoch nur einige Sekunden tatsächlich mit dem Betrachten der Website verbracht. Dauert das Telefonat und das Kaffee holen jeweils nur zwei Minuten länger – werde ich als 3 Passanten (=Bounces) gewertet, die die Seite gar nicht besucht haben.

Und dies ist noch nicht alles. In dem obigen Beispiel habe ich die Startseite gesehen, zwei mal geklickt (=2 Seiten) und bin letztlich auf einer vierten und letzten Seite gelandet. Nun schließe ich das Browserfenster. Wann? Das weiß keiner – vor allem auch nicht der Server. Ich kann die letzte Seite sofort schließen oder auch 2 Stunden lang lesen. Man kann nur die Zeit zwischen zwei Klicks messen und beten, dass es sich um den gleichen User handelt.

Fassen wir zusammen: Es gibt keine Besucher, keine Besuche und auch keine Dauer eines Besuches. Das Zahlenmaterial auf das wir uns bei Analysen stützen könnte uns einige Jahre Gefängnis einhandeln, wenn wir es in der Buchhaltung verwenden würden.

Doch es soll noch schlimmer kommen. Noch schlimmer? Ja, denn es gibt noch weitere erhebliche und grundsätzlich unlösbare Probleme bei allen Analyse Werkzeugen, die ich im nächsten Teil dieses Artikels beschreiben werde, bevor ich dem bis dahin hoffentlich nicht zu sehr frustrierten Leser erläutern will warum außgerechnet die am meisten verbreitete Analyse Software von Google genau soviel wert ist, wie sie kostet: Nämlich nichts.

Bis dahin – Liebe Grüße

Eure

Sven

Update: Hier geht’s zum zweiten Teil des Artikels “Warum uns Google Analytics belügt..und alle anderen auch (Teil 2)”

Und hier geht es zum dritten und letzten Teil “Warum uns Google Analytics belügt und es uns egal sein kann”