Bots, Robots, Spider und Crawler verf?lschen die Logfileauswertung

Robots und Spider können die Nutzerzahlen Ihres Angebots stark verfälschen. Lesen Sie hier, wie Sie sich schützen.

Tausende von Robots streunen durch das Web. Manche sind harmlos, andere dagegen bringen Ihre Site zum Stillstand oder stehlen in bester Taschendieb-Manier die Inhalte Ihrer Site. Auf jeden Fall verfälschen diese Software-Agenten Ihre Log-Dateien. Sie sind insbesondere dann betroffen, wenn Ihre Web-Analyse auf der Analyse der Server-Logs basiert. Wenn Sie sich für eine auf JavaScript basierende Echtzeit-Lösung entscheiden haben betrifft sie die Crawler-Problematik nicht, denn die meisten Robots führen keine JavaScripte aus.
Die Begriffe Bot, Robot, Spider und Crawler sind Synonyme für Programme, die im Internet automatisch Informationen sammeln. Diese Informationen können E-Mail-Adressen, HTML-Seiten oder die Ergebnisse einer Datenbank-Abfrage sein. Manche Spider "klicken" auch auf Werbemittel (Banner und Textlinks) und verfälschen so die Klickraten einer Kampage.
Ein Web-Server unterscheidet dabei nicht, ob die Anfrage von einem Menschen oder einer Maschine kommt, jede gültige Anfrage wird bedient und entsprechend protokolliert.

Wie verbreitet sind Spider?

Betrachten Sie jede Anwendung, die das Internet nach Informationen durchsucht oder Web-Seiten indexiert als Spider. Es spielt dabei keine Rolle, ob es sich um einen Google-Bot handelt, der Ihre Site interessiert oder ob der Spider das Ergebnis einer Seminar-Arbeit eines Informatik-Studenten ist. Mit anderen Worten: Im Internet gibt es mehr Robots, als es sich ein Nicht-Programmierer vorstellt.

Wie lässt sich das Problem lösen?

Ein naheliegender Ansatz wäre es eine regelmäßig aktualisierte zentrale Liste zu führen auf der sämtliche Robots mit ihrer IP-Adresse und Kennung eingetragen werden. Leider läßt sich das Problem so einfach nicht lösen. Warum?
Zum einen ist es unmöglich alle zu einem bestimmten Zeitpunkt im Internet kursierenden Bots und Spider zu erfassen, zum anderen sind viele Bots nicht an eine bestimmte IP-Adresse gebunden. Hier ein Beispiel: Nehmen wir den oben angesprochenen Informatik-Studenten, der einen Crawler programmiert hat, der verschiedene Nachrichten-Sites besucht und dort die aktuellen Schlagzeilen einsammelt. Am Mittwoch sitzt er im Computer-Raum A und startet er seinen Crawler von dort aus, am Donnerstag nutzt er einen PC im Raum B. Beide PCs würden dann auf schwarzen Liste landen und der insgesamt von diesen Rechnern kommende Datenverkehr würde gefiltert werden. Wenn andere Studenten zu anderen Zeiten über diese PCs ganz normal im Internet surfen würden, würden diese Besuche ebenfalls ignoriert werden. Zumindest was Zielgruppen im universitären und wissenschaftlichen Umfeld betrifft würden Sie also ohne Not auf eine Menge seriösen Traffic verzichten.
Vergessen Sie die Computerfreaks für einen Augeblick und wenden Sie Ihre Aufmerksamkeit dem ganz normalen Standard-Surfer, der mit dem Internet Explorer unterwegs ist. Diese Menschen nutzen ebenfalls Spider-Technologie. Wie das? Ganz einfach, wenn diese Nutzer im Internet Explorer ein Bookmark auf Ihre Site setzen und dabei das Feld "Offline verfügbar machen" anklicken, dann verwandelt sich der Browser in einen Spider, der sämtliche Inhalte der gebookmarkten Seite auf die Festplatte des Nutzers lädt. Wussten Sie das?
Das Konzept einer monatlich oder wöchentlich aktualisierten Datenbank ist in der Praxis so nicht durchführbar.

Was hat sich in der Praxis bewährt?

In der Praxis hat sich der folgende Ansatz bewährt: Die bekannten Suchmaschinen-Robots sind klar identifizierbar und lassen sich über eine Liste ausfiltern. Damit ist man schon einmal einen Großteil des nichtmenschlichen Datenverkehrs los.
Die anderen Robots lassen sich oft an ihrem Verhalten erkennen. Für Robots typische Verhaltensmuster sind:
  • Es werden keine Scripte ausgeführt.
  • Es werden keine Grafiken geladen.
  • Innerhalb kürzester Zeit werden sehr viele Seiten abgerufen.
Basierend auf diesen Verhaltensmustern wird dann der restliche Datenverkehr gefiltert. Dabei werden die entsprechenden IP-Adressen aber nicht blockiert, sondern es wird nur der zweifelhafte Datenverkehr eliminiert. Schließlich könnte auch ein menschlicher Nutzer mit einem Browser diese IP-Adresse nutzen.
Schießen Sie beim Säubern Ihrer Log-Dateien aber nicht übers Ziel hinaus: Eine 100 Prozent spider-freie Log-Datei werden Sie nicht bekommen. Es reicht, wenn Sie den Spider-Anteil soweit drücken, dass er nicht mehr ins Gewicht fällt.
Wenn Sie regelmäßig Ihre Log-Dateien nach neuen Suchmaschinen-Bots durchforsten und diese in Ihre schwarze Liste übernehmen sowie nach auffälligen Verhaltensmustern Ausschau halten, sollten sich die durch Crawler verursachten Probleme in Grenzen halten.

Weitere Artikel:

Voriger Artikel: Ein Zähler zählt nicht
Nächster Artikel: Intares erweitert seine Web-Analyse-Software um GeoInfo- und Speed-Auswertungen.

Kommentare unserer Leser

Das ist die Trackback-URL für diesen Artikel:

Trackbacks: