Schlagwort-Archive: Statistik

Was Weihnachten mit der Besucherstatistik macht

Es kann tatsächich auch Spaß machen, sich mit Statistiken zu beschäftigen. Ich schlage mich gerade mit dem Thema Web Analytics herum, nachdem ich jüngst Piwik von meinem Webspace geschmissen habe. Piwik ist ein sehr ausgereiftes Web-Analytics-Tool, welches mittlerweile in der Version 1.0 vorliegt. Leider war mein Billig-Webspace für soviel Auslastung nicht ausgelegt.

Ich bin ja als Blinder eher ein Fan von nackten Daten. Andere Leute schwärmen für ästhetisch ansprechende Diagramme mit allem Schnick-Schnack, mit lustigen 3-D-Effekten und skurillen Ausformungen. Ich freue mich über Excel-Tabellen, die kann man recht gut sortieren, man kann sie summieren, arithmetische Mittel bilden und andere Späße damit machen. Bislang bin ich eher unzufrieden mit den bordeigenen Tools zur Verknüpfung der Daten untereinander und den Sortierungsmöglichkeiten die sie bieten.

Bei den Statistiken kann man bestimmte Effekte beobachten, zum Beispiel, dass Besucherstatistiken zwischen Weihnachten und Neujahr regelmäßig einbrechen. Ich nenne das den Weihnachtsknick. Das kann man sehr schön bei Google Trends beobachten, hier kann man die Beliebtheit von Suchbegriffen ermitteln und zwei oder mehr Begriffe vergleichen. Außerdem kann man auch Websites – vermutlich sehr grob – im Langfrist-Trend beobachten.

Vergleicht man z. B. Amazon und EBay, sieht man deutlich den Knick um die Jahreswende und den im Vergleich etwas steileren Anstieg bei EBay im Januar. Nur ein Schelm denkt jetzt, da versuchen Unzufriedene ihre Geschenke zu versteigern. Vielleicht müssen sie aber auch dank der vielen Geschenke nur ihre Schränke ausmisten.

Vergleicht man die beiden IT-Newsticker Heise und Golem, sieht man den gleichen Trend. Hier stellt sich aber auch schon die Frage: Liegt das daran, dass es um die Jahreswende herum weniger Nachrichten gibt oder weil viele Leute um diese Zeit herum das Web weniger intensiv nutzen? Who knows?

Für kleinere Websites wären solche Statistiken zu grobkörnig, sofern Trends überhaupt Daten für sie ausgibt. Für Feinanalysen wären tatsächlich Tagestatistiken interessant. Hier kann man z.B. beobachten, ob Seiten tendentiell eher beruflich oder privat genutzt werden: Wenn etwa mehr Traffic an Werktagen zu bestimmten Zeiten stattfindet.

Auch solche Analysen müssten sich eigentlich stärker automatisieren lassen. Wenn Leute eher an einem Werktag zwischen 8 und 12 Uhr auf meine Website kommen, dürften sie je nachdem, was ich auf meiner Website anbiete, eher beruflich interessiert sein. Später kommen vielleicht die Studenten, die Informationen für ihre Arbeiten recherchieren und irgendwann abends oder am Wochenende kommen dann die Leute, die privat interessiert sind oder Unterhaltung suchen. Komischerweise unternimmt noch keines der Tools, die ich kenne – Google Analytics, Piwik oder eTracker – den Versuch, die Besucher-Daten anhand vorliegender Merkmale tatsächlich automatisch zu interpretieren.

Wahrscheinlich fehlt es noch an einer soliden Basis, die gewaltigen Datenmengen miteinander zu verknüpfen. Bis es so etwas gibt, genieße ich es, selber etwas in die Daten zu interpretieren. Ich finde einfach, es gibt kaum etwas Spanneneres als zu beobachten, was die Leute, die man nie kennen lernen wird auf der eigenen Seite so gemacht haben.

Der vermessene Mensch – welche Leute nehmen an Studien teil?

Egal, was man studiert, früher oder später wird man gefragt, ob man nicht Lust hat, an einer Untersuchung teilzunehmen. Psychologie-Studenten mussten zu meiner Zeit in Marburg 25 Versuchsstunden bis zum Vordiplom zusammen bekommen. Sie mussten an Versuchen teilnehmen, die von älteren Studierenden durchgeführt werden, die ihre Zwischen- oder Abschlussarbeiten mit empirischen Untersuchungen untermauern müssen. Auch in der Soziologie und der Pädagogik gehören Studien zum Standard.

Die Unmessbaren messen

Was aber macht man mit Leuten, die sich schlicht weigern, an solchen Studien teilzunehmen? Darüber schweigen sich die Studien aus. Gibt es den Typus des Studiengroupies, der sich darum reißt, befragt, vermessen, gewogen und durchleuchtet zu werden? Vielleicht, ganz sicher gibt es den Menschen, der sich kategorisch verweigert. Seine Motive kennt niemand, er läßt sich ja nicht befragen.

Beliebt sind die Befragungen per Telefon oder direkt an der haustür. Sie finden zu einer Zeit statt, wo Berufstätige normalerweise nicht zu Hause sind. Viele jüngere Leute haben gar kein Festnetz mehr und stehen mit ihren Handy-Nummern nicht im Telefonbuch.

Auch die Zahl der Totalverweigerer lässt sich kaum herausfinden. Bei postalischen Umfragen, wo Fragebögen ausgefüllt zurückgesendet werden müssen, läßt sich die Zahl der Rückläufe ermitteln.Man weiß aber nie, ob man hier einen Verweigerer vor sich hat oder jemanden, der schlicht keine Zeit hat oder vergisst, den Bogen auszufüllen. Und wer bei obskuren Anrufern einfach auflegt, ist vielleicht einmal zuviel von Werbeanrufern belästigt worden. Selbiges gilt für unbekannte Leute, die eines Tages vor der Tür stehen oder jemanden in der Fußgängerzone anhalten. Religiöse Freaks, Verkaufs-Genies, Bettler, Politiker auf Stimmenfang und wirre Zeitgenossen, nach solchen Erfahrungen wird jeder Mensch bei Spontan-Begegnungen nervös.

Spontan würde ich die Zahl der Studienverweigerer auf 20 – 30 Prozent schätzen. Doch selbst wenn es nur zehn Prozent wären, würde sich das signifikant auf die Studienergebnisse auswirken.

Die exakten Angaben der Studienergebnisse verführen zu dem Glauben, sie wären irgendwie näher an der Realität als andere Forschungsmethoden. Das können sie im Grunde genommen aber nicht sein, wenn rund ein Drittel der Menschen sich schlicht weigert, daran teilzunehmen oder einfach nicht erreicht wird.

Falls einer meiner Leser zufällig etwas mehr darüber weiß, würde ich mich über Hinweise freuen.

Die Tücken der Server-Statistik

Eine Serverstatistik korrekt auszuwerten, ist eine Kunst für sich. Wer hier nicht aufpasst, bekommt leicht einen falschen Eindruck seiner Besucherzahlen und lässt sich von Agenturen blenden, die für eine solche Auswertung beauftragt werden.
Der Server speichert automatisch folgende Daten: IP des Users, Uhrzeit des Zugriffs, Zugriffe des Users. Statistikprogramme wie Webalizer und Analog werten diese Statistiken aus und präsentieren Tabellen und Diagramme.

Über Hits, Visits und Referrers

Der häufigste Fehler, der dem Anfänger passiert, ist die Zahl der Hits mit der Zahl der Besucher oder der real abgefragten Seiten zu verwechseln. Ein Hit bezeichnet tatsächlich die Zahl der Dateien, die vom Server ausgeliefert werden, d. h. inklusive Bilder, Buttons, Hintergrundgrafiken und alle weiteren Elemente. Interessanter ist die Zahl der Visits oder Sessions, sie zeigt an, wie viele Besucher man hatte.
Hier ergibt sich ein weiteres Problem, denn mittlerweile besteht die Hälfte und mehr der Visits aus Suchmaschinenbots von Google, Yahoo, Cuil oder Live.
Das seit Jahren nicht mehr weiter entwickelte Tool Webalizer ist leider nicht in der Lage, diese Anfragen von “echten Menschen” zu unterscheiden.

Jahresserverstatistik

Hier sieht man die Jahresübersicht meiner Website, erstellt von Webalizer. Grün sind die Hits, rot die Datenmenge, gelb die Visits und orange die Sites.

Man sieht ein wenig die Relationen zwischen Hits und Visits, sowie das Verhältnis von Visits und Sites. Leicht erkannt man den allmählichen, aber stetigen Anstieg der Site im Verlauf der Monate. Der steile Anstieg im Herbst ist hingegen für mich nicht erklärbar.

Länderverteilung

Das Tortendiagramm zeigt sehr anschaulich den Anteil der einzelnen Länder im Monat Dezember. Da meine Site ausschließlich deutsche Texte enthält, ist auch der Hauptanteil aus deutschsprachigen Ländern.

Verteilung übern den Tag

Das Stundendiagramm zeigt, wann am meisten gesurft wurde. Wie zu erwarten, surfen die meisten am Nachmittag oder frühen Abend.