Was sich anhört wie eine Armee kleiner Kreaturen, die, einmal ins Haus gelassen, jeden Zeitgenossen mit schwachen Nerven auf die Couch eines Psychotherapeuten treibt, ist in Wirklichkeit essentieller Bestandteil des Internets. Unverzichtbar für Suchmaschinen, wichtig für Suchmaschinenoptimierer genauso wie für Webseitenbetreiber, die von Suchmaschinen und Besuchern gefunden werden möchten. Oder für diejenige, die eben nicht gefunden werden möchten.

Was sich hinter den Begriffen “crawler”, “spider”, “bots”, und “slurp” verbirgt und wie Sie mit den kleinen Monstern umgehen, lesen Sie in diesem Artikel.

Inhaltsverzeichnis

Crawler & Co: Begriffsdefinition

Der allgemeinste Ausdruck, der in unserer Liste zu finden ist, ist der des “Bots”. Der Begriff leitet sich von “robot” ab und bezeichnet eine Maschine oder ein Programm, das selbsttätig einer bestimmten Aufgabe nachgeht und diese in Serie abarbeitet.

Beispiel Google Bot

In Bezug auf das Internet ist der für uns wichtigste Bot natürlich der Google Bot. Google setzt verschiedene Bots ein, die im Grunde alle dasselbe tun: Sie suchen systematisch das Internet nach Inhalten ab, speichern gefundene Inhalte im Index und überprüfen Veränderungen auf bereits indizierten Seiten. Google benutzt verschiedene Bots. So sucht und indexiert der Google Bot image 1.0 nur Bilder. Andere Bots stürzen sich auf Texte, Videos, News, Shoppingergebnisse und so fort; sie sind also thematisch fokussiert. Die Bots wurden programmiert und dann auf das Internet losgelassen, um nun automatisch zu agieren und dieselbe Aufgabe immer und immer wieder durchzuführen.

Spezialfall Chat Bot und Social Bot

Ein anderer Bot, der im World Wide Web unterwegs ist, ist beispielsweise der Social Bot. Hier sorgen Menschen mit Hintergedanken für Programme, die in sozialen Netzwerken falsche Informationen verbreiten. Ins Gerede sind die Social Bots besonders im US-amerikanischen Wahlkampf gekommen: Ein Großteil der Tweets und Facebook-Posts für Hillary Clinton und ein noch größerer Teil für Donald Trump waren schlichtweg Fakes und stammten von Social Bots.

Einer der bekanntesten Chat Bots ist sicherlich “Siri” von Apple. Chat Bots sind programmiert, um Informationen, die als Spracheingabe vorliegen, zu erfassen und darauf sinnvolle Ausgaben zu produzieren: Im Fall von Siri ebenfalls in Form von Sprache. Chat Bots in diesem Sinne – es gibt weitere, davon unterschiedene Formen von Chat Bots – sind also Programmen, mit denen wir kommunizieren können als wären sie Menschen mit Zugriff auf enorme Wissensspeicher.

Wie aber arbeitet ein Bot im Falle des Google Bots, der für unsere Suchmaschinen-Optimierer-Interessen der ausschlaggebende Bot ist? Seine Funktionsweise wird mit den folgenden Begriffen bildhaft beschrieben:

Crawler und Spider: Auf der Suche im Weltweiten Netz

Die Google Bots “kriechen” durch das (Spinnen-)netz und hangeln sich dabei wie Spinnen an Fäden entlang. Da sie im Internet keine gesponnenen Fäden finden, nehmen sie anstelle dessen Links. Wenn ein Crawler eine Internetseite erreicht, folgt er (fast) allen internen und externen Links und findet so immer neue Inhalte. Auf diese Weise finden die Crawler sehr viele Webseiten, die im Internet vorhanden sind. Von der Existenz des “Dark Net” oder des “Deep Net” haben sie jedoch nur eine rudimentäre Ahnung. Die beiden Begriffe bezeichnen den Teil von Webseiten, die für Crawler gesperrt sind oder die schlichtweg von nirgendwoher verlinkt werden. Auch viele Datenbanken, zugangsbeschränkte Portale und beigeordnete Intranets sind für Crawler und Spider unzugänglich. Dabei schätzt man die Größe von Dark Net und Deep Net auf ein Vielfaches der Größe des indizierten Webs.

Spezialfall Slurp

Yahoo hat als Suchmaschine sicherlich für den US-amerikanischen Markt größere Bedeutung als für Deutschland, das Google-Land. Dennoch soll auch der “Slurp” hier kurz Erwähnung finden: Der “Slurp” ist der Bot von Yahoo, der Inhalte aus dem Internet “schlürft” und Benutzern der Yahoo-Suche zur Verfügung stellt.

Der “Slurp” hat in der Vergangenheit immer mal wieder die Betreiber von Webseiten geärgert: Er ließ sich auch durch gezielte Maßnahmen nicht aussperren.

Die Arbeit der Crawler und die Bedeutung für die Suchmaschinenoptimierung

Die Funktionsweise von Crawlern hat eine immense Auswirkung auf die Suchmaschinenoptimierung. Mit dem Wissen über Crawler im Hinterkopf ist klar, dass die Bedeutung von interner und externer Verlinkung nicht zu unterschätzen ist. Google beteuert gerne, dass Backlinks keinen großen Ranking Faktor darstellen. Das tut Google vor allem, damit Backlinks nicht mehr so stark zum Spammen eingesetzt werden. Täuschen kann Google die meisten SEOs mit diesen Aussagen jedoch (hoffentlich) nicht: Crawler können nicht anders als der Linkstruktur des Internets zu folgen und dass diese in ihrer Form etwas über die Bedeutung einzelner Websites aussagt, liegt auf der Hand.

Was aber können Sie als Webseitenbetreiber tun, um die Crawler zu beeinflussen?

Den Crawler einladen

Wer in den Suchmaschinenergebnisseiten (kurz: SERPs) auftauchen möchte, der tut gut daran, den Google Bot dazu zu ermuntern, oft auf der eigenen Webseite vorbei zu schauen. Die Startseite ist in den meisten Fällen die Seite einer Webpräsenz, der von der Suchmaschine die größte Bedeutung zugemessen wird. Die Startseite wird am häufigsten gecrawlt und auf Veränderungen untersucht. Wer dem Bot mitteilen möchte, dass viele interessante Unterseiten zur Verfügung stehen, muss diese mit Hilfe der internen Verlinkung “sichtbar” machen. Dazu zählen die Links, die aus der Navigation auf die Unterseite verweisen. Besonderes Gewicht erhalten Seiten, wenn sie zudem aus dem Text der Startseite heraus verlinkt werden. Je mehr interne Links eine bestimmte Seite erhält, für umso wichtiger erachtet sie der Bot.

  • Tipp:

Um den Bot möglichst oft anzulocken, empfiehlt es sich, in regelmäßigen Abständen neue Inhalte zu veröffentlichen. Auf diese Weise können Sie sich die Crawler zu braven kleinen Gefolgsleuten heranziehen. Sie lernen, dass auf einer Seite jede Woche, jeden Monat etwas zu holen ist und kommen entsprechend oft vorbei gekrochen.

  • Tipp für suchmaschinenoptimierten Bilder:

Genau wie für andere Inhalte gilt: Veröffentlichen Sie in regelmäßigen Abständen Neues. Verlinken Sie neue Bilder von der Startseite aus mit Hilfe kleiner Vorschaubilder oder Thumbnails.

  • Tipp zur thematischen Ausrichtung:

Bleiben Sie fokussiert – die Google Bots sind es auch! Sowohl was Ihre Webpräsenz insgesamt, als auch was einzelne Unterseiten betrifft, sollten Sie nicht divers sein, sondern einen stringenten roten Faden bieten.

Den Crawler ausladen

Genauso wichtig wie die Einladung der Bots ist das Aussperren derselben für die Suchmaschinenoptimierung.

Einige Webseitenbetreiber bieten beispielsweise Unterseiten an, die nicht in den Index gelangen sollen: Sei es, um doppelten Content zu vermeiden, sei weil die Inhalte kostenpflichtig angeboten werden sollen oder sei es aus anderen Gründen. Der doppelte Content kann selbstverständlich auch mit Hilfe des Canonical tags gekennzeichnet werden. Dies stellt für Bots allerdings nur ein Hinweis dar, der ignoriert werden kann.

Um Seiten wirkungsvoll vom Index fernzuhalten, gibt es nur ein Mittel: Sie müssen sie in den Metadaten der Seite auf “Noindex” setzen.

Der entsprechende Befehl dafür lautet:

<meta name=“robots“ content=“noindex“>

Wer möchte, dass die Seite nicht indiziert wird, der Crawler aber den Links auf der Seite folgt, schreibt:

<meta name=“robots“ content=“noindex, follow“>

Wenn die Links ebenfalls gesprerrt werden sollen, dann dementsprechend:

<meta name=“robots“ content=“noindex, nofollow“>

Noch weiter verfeinern können Sie die Anweisungen für Crawler mit einer robots.txt Datei auf Ihrem Server. Mit dem Befehl “disallow” können Sie gezielt bestimmte Bots ausschließen, einzelne Bereiche einer Seite oder auch eine ganze Webpräsenz vor der Indexierung schützen.

Sind Crawler, Spider und Slurp wirklich so harmlos wie sie tun?

Leider nein. Selbst mit einem Bann via robot.txt sind nicht alle Crawler wirkungsvoll und für immer abzuhalten. Zudem gibt es Crawler, die mit voller Absicht von ihren Entwicklern zu bösartigen Exemplaren herangezogen wurden. Sie versuchen beispielsweise Informationen abzugreifen – etwa Mailadressen zu sammeln, um diese später zuzuspammen – oder Schadsoftware zu installieren. Dagegen hilft nur eins: Backend immer schön up-to-date halten und regelmäßige Kontrollen.

Und es gibt Gegenmaßnahmen: Die sogenannten “Teergruben” sollen bösartige Crawler fangen und festsetzen. “Honigtöpfe” locken die Biester an und werten ihr Verhalten aus. Beides hilft dabei, diese Art der Crawler zu identifizieren, zu verstehen und unschädlich zu machen.

Dass auch “gutartige” Bots, wie der Slurp von Yahoo, unangenehmen Verhaltensweisen zeigen, ist eher ein technisches Unvermögen der Entwickler und gehört mit fortlaufender Evolution hoffentlich irgendwann der Vergangenheit an.

Fazit

Es lohnt sich, sich mit der Arbeit von Crawler, Spider & Co auseinander zu setzen. Das Wissen um wichtige Implikationen für die Suchmaschinenoptimierung sind der Lohn.