Dezember 2002 > mehr wissen > Webstatistiken
 
Webstatistiken auswerten
Von Katja Schwarz
 
Jede, die eine eigene Homepage hat oder Webseiten für andere betreut, sollte sich für die Zugriffe auf die Site(s) interessieren. Denn diese zeigen nicht nur den Erfolg einer Website, sondern geben auch Hinweise darauf, was man noch verbessern kann.
Viele interessante Anregungen zur Planung, Veröffentlichung und Pflege von Web-Projekten findet man beispielsweise bei SELFHTML.

Um einigermaßen aussagekräftige Ergebnisse über die Seiten-Aufrufe zu erhalten, werden Statistiken eingesetzt, die die Zugriffe nach bestimmten Kriterien aufschlüsseln. Gute Provider bieten Statistiken mit aufbereiteten Besucherzahlen an; diese findet man meist im Service-Bereich des Providers, zu dem man nur mit den individuellen Benutzerdaten Zugang hat.

Die Grundlage aller Zugriffsstatistiken sind die Log-Dateien des Web-Servers, in denen der Server alle Zugriffe protokolliert. Die mitgeloggten Parameter werden dann von den Statistiken ausgewertet und nach typischen Kriterien sortiert. Zum Beispiel:

  • Dateien, die vom Nutzer am häufigsten geladen werden
  • Tageszeit und Wochentage, an denen die meisten Zugriffe verzeichnet werden
  • Herkunft/Domain-Adressen der Anwender
  • Erfolg bzw. Abbruch bei der Dateiübertragung
  • Browsertypen und -versionen, die am häufigsten verwendet werden, u.v.m.
Obwohl sie auf den Log-Dateien des Web-Servers basieren, können Statistiken keine absolut zuverlässigen Zahlen liefern, denn es gibt viele Faktoren, die den Abruf von Websites beeinflussen.
Zum Beispiel der Cache-Speicher des Browsers: Je nach Einstellung des Anwenders wird die aufgerufene Seite gar nicht vom Server geholt, sondern aus dem Zwischenspeicher auf der Festplatte des Anwenders geladen. Wenn der Browser beim Server nicht nach einer aktuellen Version der gespeicherten Seiten fragt, bekommt der Server von der Anfrage natürlich nichts mit.
Ähnlich verhält es sich mit den Proxy-Servern im Internet: Viele Webprojekte werden auf Proxy-Servern zur Verfügung gestellt, die für den Anwender leichter und schneller zu erreichen sind als die Original-Server. Liegen die Daten auf einem solchen Proxy-Server, bekommt der eigentliche Web-Server auch hier nichts von der Anfrage mit.
Andererseits erzeugen die Software-Agenten der Proxy-Server und die Suchrobots der Suchmaschinen Traffic auf den Seiten und erzeugen Einträge in der Log-Datei, ohne dass ein Mensch daran beteiligt ist.
Der Browsertyp wiederum kann von der Anwenderin manipuliert werden; beim Konqueror unter Linux lässt sich beispielsweise einstellen, als was sich dieser ausgeben soll.

Will man seine Statistik verstehen, ist es gut zu wissen, welche Bedeutung die typischen Begriffe haben.

Hits werden durch jede Zeile im Access-Log des Servers erzeugt. Eine Webseite, die aus einer HTML-Datei und fünf Grafiken besteht, erzeugt sechs Hits, wenn sie vom Anwender angefordert wird. Dabei ist es unerheblich, ob die Dateien vollständig übertragen werden oder womöglich überhaupt nicht gefunden werden (404-Error).
Die beeindruckend hohen Zahlen relativieren sich schnell, wenn man bedenkt, dass die meisten Seiten viele kleine Grafiken (transparente Gifs für das Seitenlayout) beinhalten.
Zur Erfolgseinschätzung der Website kann die Zahl der Hits deswegen nur wenig beitragen - es sei denn, man beobachtet, wie sich der Gesamtverkehr über einen längeren Zeitraum entwickelt.

Pageviews, Page-Impressions, HTML-Seiten oder Seiten-Anfragen lassen sich am ehesten als "Sichtkontakte eines Anwenders mit inhaltstragenden Dateien" (Stefan Münz in SELFHTML) beschreiben. Zugriffe von Such-Robots oder anderen Software-Agenten werden dabei ebenso wenig mitgezählt wie die Anforderungen von Anwendern, die die Grafik-Anzeige in ihrem Browser deaktiviert haben.
Beim Erstaufruf von Frames wird nur die Datei als Pageview gezählt, in der die Frameset-Definition steht; danach wird davon ausgegangen, dass nur ein Frame Inhalte enthält und die anderen Frames der Navigation, der Werbung oder ähnlichem dienen.
Page-Impressions sind die Basis für Bannerwerbung, obwohl sie wegen der variablen Definition der inhaltstragenden Dateien als Maßeinheit nicht unproblematisch sind.

Visits, Sessions, Besuche oder Sitzungen zählen keine Seiten-Anfragen, sondern die IP-Adressen der aufrufenden Clients. Ein Nutzer, der sich mit der gleichen Internetverbindung eine Stunde durch die Site klickt erzeugt ebenso einen Visit wie ein Anwender, der nur die Startseite aufruft und dann gleich weiter surft.
Nach der Konvention der deutschen Werbeindustrie gilt ein Visit als beendet, wenn 30 Minuten lang kein neuer Zugriff erfolgt.

Bei der Auswertung der Statistik gibt Münz folgende Tipps:

  • Werden auch nach mehreren Monaten nur wenige Zugriffe auf die Site verbucht, sollte man mehr dafür tun, um die Site bekannt zu machen: Suchmaschinen-Einträge, die Nennung der URL in der E-Mail-Signatur, auf Visitenkarten und Briefbögen oder Pressemitteilungen sind nur einige der Möglichkeiten
  • Wenn es viele Zugriffe auf die Startseite, aber nur wenige auf die Folgeseiten gibt, kann es sein, dass die Einstiegsseite zu lange Ladezeiten hat oder zu unübersichtlich gestaltet ist; hier sollte man die Startseite neu gestalten und prüfen, ob die Ergebnisse besser werden
  • Wenn es viele Anfragen aus dem Ausland gibt, könnte es sich lohnen, das Projekt in mehreren Sprachen anzubieten. Die Adressen, von denen auf die Site zugegriffen wird, geben auch Aufschluss darüber, in welchen Suchdiensten man gefunden wird oder ob sich ein Werbebanner auch wirklich lohnt
Unter den vielfältigen Programmen zum Aufbereiten von Server-Log-Dateien ist der Webalizer eines der bekanntesten. Der Webalizer ist ein Open Source-Programm zur Darstellung der Zugriffsstatistiken auf eine Homepage. Er ist auf die unterschiedlichsten Plattformen portiert und bietet umfangreiche Auswertungsmöglichkeiten, die davon abhängen, wie die Konfigurationsdatei des Webalizers und die Konfigurationsdatei des Webservers eingerichtet sind.
 
Glossar
»   Ein Hit ist eine Anfrage an den Webserver. Dabei spielt es keine Rolle, welcher Datei-Typ angefordert wird oder ob die Anfrage berechtigt oder erfolgreich war. Wird eine HTML-Seite mit 5 Grafiken angefordert, erzeugt das 6 Hits.
 
» Auf erfolgreiche Anfragen sendet der Web-Server Dateien, die als Files gezählt werden. Den Bezug zwischen Hits und Files kann man als "eingehende Anfragen/Hits" und "ausgehende Antworten/Files" beschreiben.
 
» Qualifizierte Hits beschreiben die realen Zugriffe auf eine Site, die dem Besucher Informationen liefern, sind also mit Pageviews gleichzusetzen. Von den eigentlichen Hits werden Fehlermeldungen, Zugriffsverweigerungen, Umleitungen etc abgezogen.
 
» Ein Pageview ist die Maßeinheit für die Seitenaufrufe einer Website oder einzelner Webseiten, bei der die Sichtkontakte der Nutzer mit einer meist werbeführenden HTML-Seite gezählt werden.
 
» Das Interessante an einer Statistik sind die Visits: Sie stellen einzelne Besucher dar. Nutzer, die die Site verlassen und nach 30 Minuten zurückkehren, werden als neuer Visit gewertet.
 
» Anfragen an den Web-Server kommen von Sites, die als IP-Adresse oder über den Hostnamen identifizierbar sind. Die Auswertung bildet eine Summe aus den Anfragen der verschiedenen Hosts, die auf den Server zugegriffen haben.
 
» Hosts sind die Rechner oder IP-Adressen, von denen eine Anfrage kommt.
 
» Kbytes beschreiben die Datenmenge, die vom Web-Server ausgeliefert wurde.
 
» Referrers sind Webseiten, die einen Link zu der analysierten Site anbieten, der auch benutzt wurde. Steht hier http://www.yahoo.com/ search, kommt der Betrachter von der Suchmaschine auf die Homepage.
 
» User Agents lassen Rückschlüsse auf die benutzten Browser und Betriebssysteme zu.
Links
Umfangreiches Kapitel zur Web-Projektverwaltung, unter anderem zur Kontrolle mittels Statistiken
http://selfhtml.teamone.de

Das Internet-Wörterbuch von Langenscheidt und sueddeutsche.de
www.networds.de

Die Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. erfasst die Zugriffsstatistiken großer WWW-Server in Deutschland
www.ivw.de

Nützliche Informationen, um im Internet besser gefunden zu werden
www.suchfibel.de

Webalizer, das häufig eingesetzte Open-Source Programm für grafisch aufbereitete Statistiken
www.webalizer.org

Autorin
Katja Schwarz
Kontakt: katja.schwarz@ mediella.de