Ein Crawler, auch Web Crawler oder Suchmaschinen Crawler genannt, ist ein automatisiertes Softwareprogramm, das von Suchmaschinen zum systematischen Durchsuchen und Indizieren von Websites verwendet wird. Aber was ist ein Crawler? Vereinfacht gesagt ist ein Crawler ein Bot, der sich durch die Weiten des Internets bewegt, unermüdlich Websites durchsucht und Informationen sammelt. Seine Hauptaufgabe besteht darin, Daten zu sammeln, einschließlich HTML-Inhalte, Links und Metadaten von Webseiten, und diese an Suchmaschinen wie Google zu übermitteln. Diese kontinuierliche und umfassende Untersuchung ermöglicht es den Suchmaschinen, die Seiten zu indizieren und für die Suchergebnisse zu bewerten. Das Verständnis des Verhaltens und der Auswirkungen eines Crawlers ist ein entscheidender Aspekt der Suchmaschinenoptimierung (SEO) und ist für Website-Betreiber und digitale Vermarkter, die ihre Online-Sichtbarkeit verbessern wollen, unerlässlich.
In der Suchmaschinenoptimierung kommt ihnen eine besondere Bedeutung zu, sind sie es doch, die entscheiden, ob eine Seite indiziert wird oder nicht. In SEO Kreisen spricht man daher auch von „Crawling Friendly Websites“ – gemeint sind Seiten die Crawlern ein möglichst störungsfreies Abarbeiten ihrer Aufgaben ermöglichen.
Entstehung der ersten Crawler
Anfang der neunziger Jahre kam die Idee auf einen Crawler zu entwickeln, der im Stande war, das Wachstum des damals noch vergleichsweise überschaubaren Internets zu messen. Der daraus entstandene World Wide Web Wanderer erzeugte einen eigenen Index namens Wandex, eine Funktionsweise wie sie moderne Crawler heute noch aufweisen. Die aus diesem Prinzip entstandene erste Volltextindex-Suchmaschine Web Crawler war schließlich auch namensgebend für diese Art von Software.
Wie arbeiten Crawler?
Es mag inzwischen unzählige verschiedene Bots geben, ihre grundlegende Funktionsweise folgt jedoch stets dem selben Muster. Im Vorfeld wird definiert, welche Seiten oder Inhalte gecrawlt werden sollen, welchen Links der Spider folgen soll oder welche Zeitintervalle eingehalten werden sollen. Die zugrunde liegenden Logiken und Grundsätze werden in der sogenannten „Crawl Frontier“ definiert. Bei klassischen Suchmaschinen-Crawlern arbeitet sich der Web Crawler von URL zu URL, sofern er nicht durch vordefinierte Grenzen oder spezielle Maßnahmen (robots.txt, nofollow) davon abgehalten wird. Die dabei gefundenen Hyperlinks werden einer Liste von URLs hinzugefügt, die dabei gefundenen Inhalte werden indiziert (einem Index hinzugefügt).
Arten von Crawlern
Auch wenn sich die meisten Bots vom Grundprinzip her kaum unterscheiden, heute gibt es spezialisierte Spider für die unterschiedlichsten Aufgaben. Die gängigsten Crawler im Überblick:
- Die Webcrawler der Suchmaschinen: der bekannteste unter ihnen ist wohl der Googlebot. Allerdings ist er nur einer von vielen die Google für seine verschiedenen Dienste nutzt. Weitere Beispiele sind Yahoos Slurp oder Microsofts Bingbot.
- Focused Crawler: Focused Crawler oder auch fokussierte Webcrawler sind speziell auf ein Themengebiet zugeschnitten. Sie versuchen z.B. im Vorfeld zu antizipieren, ob ein Folgelink zum definierten Thema passt. Der Fokus kann sich dabei auf unterschiedlichste Vorgaben beziehen, z.B. Länderkennungen oder Seiten mit bestimmten Themen wie „SEO“.
- Data Mining: hierbei werden gezielt Daten abgefragt, diese können unterschiedlicher Natur sein, und entsprechend auch für unterschiedliche Zwecke eingesetzt werden. Im Data-Mining eingesetzte Harvester (zu deutsch in etwa Erntemaschine) greifen z.B. gezielt auf im Internet zugängliche E-Mailadressen zu. Nicht selten werden diese dann für Spam-Versand verwendet. Versuche die Adressen im Quellcode vor den Harvestern zu verstecken können von den meisten modernen Bots umgangen werden. Sogenannte Facebook-Crawler greifen hingegen auf die öffentliche Daten von Facebook Profilen zu.
Weitere Spider-Bots
- Auch bei der Suche nach Plagiaten im Internet kommen Bots zum Einsatz. Sie sind in der Lage große Datenmengen auf Plagiate zu untersuchen die womöglich sonst nie entdeckt würden. Ein bekannter Dienst der mittels Crawlern Plagiate entlarvt ist turnitin.com.
- Heritrix ist ein Bot zur Webarchivierung unter der Free Software Licence.
- Neben der Makrosphäre Internet können Bots auch kleine Aufgaben übernehmen. In CMS Systemen wie Typo3 können Bots spezielle Aufgaben wie eine verbesserte Such-Indexierung übernehmen.
SEOs und Bots
Für SEOs ist die Beschäftigung mit dem Thema „Suchmaschinen Crawler“ unausweichlich. Schließlich definiert der SEO-Experte die Bedingungen unter denen Suchmaschinenbots die eigene Website crawlen. Schlecht optimierte Seiten können dazu führen, dass Bots den Crawl vorzeitig abbrechen oder relevante Inhalte erst gar nicht Crawlen. Unter bestimmten Bedingungen kann es hingegen auch sinnvoll sein, bestimmte Seiten für Spider zu sperren oder gewisse Bots ganz auszuschließen. Bekanntestes Werkzeug für den Umgang mit Bots sind die Meta Tags noindex bzw. nofollow:
<meta name="robots" content="noindex, nofollow">
Diese simple Codezeile teilt den Bots mit, dass die Seite nicht in den Index aufgenommen werden soll (noindex). Außerdem sollen weiterführende Links ignoriert werden (nofollow). Diese Befehle stehen exemplarisch für den Umgang mit Crawlern. Sind sind jedoch nur die Spitze des Eisbergs. Versierte SEOs benutzen ihrerseits ebenfalls eine Vielzahl von Bots um Probleme auf ihrer Website zu identifizieren.
Bad Bots
Bad Bots sind Computerprogramme, die so konzipiert sind, dass sie bestimmte Aufgaben ohne die Erlaubnis oder das Wissen einer Person ausführen. Sie können zu böswilligen Zwecken eingesetzt werden, z. B. um persönliche Daten zu stehlen oder Spam zu verbreiten. Sie können aber auch für harmlosere Zwecke eingesetzt werden, z. B. zum Web-Scraping oder zur Erzeugung von gefälschtem Datenverkehr. Unabhängig von ihrem Zweck können Bad Bots negative Auswirkungen auf Websites und ihre Nutzer haben.
Fazit
Der Begriff Web Crawler steht heute für eine Vielzahl von Programmen die die unterschiedlichsten Aufgaben übernehmen können, viele davon definieren das Internet in seiner heutigen Form mit. Im SEO Bereich sind Bots allgegenwärtig. Ob in Form von Besuchen der Suchmaschinen-Spider, oder als praktisches Hilfsmittel bei der Optimierung von Webseiten. Nur wer versteht wie sie arbeiten, kann sie auch zu seinem Vorteil nutzen.