Spider Information

Herzlich willkommen auf der Informationsseite zu dem im Projekt „MIA – ein Marktplatz für Informationen und Analysen“ eingesetzten Spider.

Das Forschungsprojekt "MIA" wird vom Bundesministerium für Wirtschaft und Technologie (BMWi) im Rahmen des Trusted Cloud Programms gefördert.

Inhaltsübersicht:

Im Rahmen des Forschungsprojekts durchsucht unser Spider das Internet nach Inhalten, die einer Verarbeitung zur weiteren Informationsgewinnung und Informationsanreicherung zur Verfügung gestellt werden sollen. Ein Fokus des Projekts liegt auf der Verarbeitung sehr großer Datenmengen. Im Idealfall werden wir hierfür möglichst das gesamte deutschsprachige Internet zur Grundlage machen und durch das Projekt zur Verfügung stellen. Nähere Einzelheiten zum Projekt können Sie auf der Projekt-Seite www.mia-marktplatz.de nachlesen.

Sollten Sie Probleme mit unserem Spider haben, bieten wir Ihnen hier Informationen zur Lösung Ihres Problems. Sie finden hier die wichtigsten Informationen rund um unseren Spider sowie Lösungsansätze für die am häufigsten auftretenden Probleme. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail (spider@mia-marktplatz.de) schildern.

Informationen für erfahrene Webseiten-Betreiber
Haben Sie als Webseiten-Betreiber bereits Erfahrungen mit Eintragungen in der robots.txt, nutzen Sie bitte die folgende User-Agent-Kennung zur Steuerung unseres Spiders auf Ihrer Webseite. Anderenfalls bitten wir Sie, zunächst die weiter unten zu findende detaillierte Anleitung zu lesen.
Die User-Agent-Kennung für den MIA-Spider lautet: MiaDev

Detaillierte Informationen und Anleitung zum Umgang mit dem MIA-Spider
Ein Spider, auch (Web-)Crawler, Robot oder kurz Bot genannt, ist ein Computerprogramm, welches Seiten aus dem World Wide Web (WWW) herunterlädt und einer Nachbearbeitung zur Verfügung stellt. Der Spider unterscheidet sich hierbei nicht wesentlich von einem Webbrowser. Die Seite wird heruntergeladen und anstatt angezeigt zu werden, wird sie einem Bearbeitungsschritt zur Informationsgewinnung übergeben.

Typisches Einsatzszenario für Spider sind Suchmaschinen, die im Schritt der Nachbearbeitung die Inhalte der Webseiten indexieren und auf diese Weise die Seiten selbst über Schlagwörter einer Suche zur Verfügung stellen.

Ein Spider durchquert das Web ausgehend von bereits gefundenen Links zu Webseiten und findet weitere Webseiten durch die Verlinkungen der bereits gefundenen und abgearbeiteten Seiten. Im Gegensatz zu Ihrem Browser und einer manuellen Handhabung geschieht das automatisierte Surfen durch das Internet mit einem Spider mit sehr viel höherer Geschwindigkeit. Wie viele Anfragen an einen Webserver gestellt werden, hängt von der Anzahl der auf einem Webserver verlinkten Seiten ab. Wie oft ein Server durch einen Spider zum Herunterladen der Seiten pro einer Zeiteinheit angefragt wird, wird bestimmt durch die Einstellungen, die für einen Spider gesetzt wurden.

Betreiber von Spidern sind bemüht, gemäß allgemein anerkannter Grundsätze das Verhalten ihrer Spider derart zu steuern, dass einzelne Webserver nicht unverhältnismäßig hoch beansprucht werden.

Wie können Sie die Zugriffe auf Ihre Webseite steuern?
Die allgemeinen Grundsätze zum Spidern von Internetseiten bringen den guten Willen der Betreiber zum Ausdruck, im Internet verantwortlich zu handeln. Auch der MIA Crawler als Spider für ein Forschungsprojekt hält sich strikt an diese Regeln und dient als Grundlage wissenschaftlichen Arbeitens, welches auch den Interessen der Betreiber von Webseiten gerecht werden möchte.

Trotzdem sollen Sie als Betreiber einer Webseite in der Lage sein, den Zugriff auf Ihre Seiten zu steuern und zu entscheiden, was sie der Öffentlichkeit zugänglich machen möchten und was nicht.

Hierfür wurde das sogenannte „Robot-Exclusion-Standard-Protokoll“ (http://de.wikipedia.org/wiki/Robots_Exclusion_Standard) geschaffen. Dabei ist festgelegt, dass ein Spider beim Besuch eines Webservers zunächst eine Datei namens „robots.txt“ im Wurzelverzeichnis des Servers sucht, herunterlädt und auswertet. Über die darin enthaltenen Regeln kann ein Spider von bestimmten Webseitenbereichen ferngehalten oder sogar ganz ausgesperrt werden. Es kann darin auch ein Zeitintervall definiert werden, in welcher Geschwindigkeit Seiten vom Spider aufgerufen werden sollten. Außerdem kann in dieser Datei dem Spider mitgeteilt werden, dass der Spider eine Sitemap-Datei (http://de.wikipedia.org/wiki/Sitemaps) benutzen könnte. Was Sie konkret tun müssen, um den Zugriff für den MIA-Spider zu beschränken, wird weiter unten detailliert beschrieben.

Zusätzlich oder alternativ zur beschriebenen Vorgehensweise können Sie für einzelne Seiten das HTML-Meta-Tag „robots“ (http://de.selfhtml.org/html/kopfdaten/meta.htm) benutzen, um die Indexierung beziehungsweise das Weiterverfolgen enthaltener Links zu steuern. 

Wie kann ich für den MIA Spider mit der Datei „robots.txt“ den Zugriff beschränken?
Um den aktuellen Inhalt ihrer robots.txt-Datei anzusehen, können Sie der URL ihrer Webpräsenz einfach ein „/robots.txt“ anhängen, um sich den Inhalt, falls vorhanden, anzeigen zu lassen.
Um dem MIA-Spider den Zugriff auf bestimmte Bereiche ihrer Webpräsenz zu untersagen, können Sie beispielsweise folgende Zeilen in ihre Datei robots.txt im Wurzelverzeichnis ihres Webservers eintragen:

# Spider MiaDev darf nicht aus Ordnern /pictures und /personal herunterladen
User-agent: MiaDev
Disallow: /pictures/
Disallow: /personal/

Durch diese Beschränkungen darf der MIA-Spider mit der User-Agent-Kennung „MiaDev“ alle gefundenen Links von ihrer Seite herunterladen, außer den Dateien, deren Pfad die Ordner /pictures oder /personal enthält.

Alle anderen Spider dürfen jedoch trotzdem weiterhin auf die Dateien in diesen Ordnern zugreifen.

Wenn Sie eine Beschränkung für alle Spider festlegen möchten,  könnten Sie anstatt der User-Agent-Kennung „MiaDev“ einen Stern „*“ angeben, wodurch der Eintrag für alle Spider Gültigkeit erhält.

# Kein Spider darf aus den Ordnern /pictures und /personal herunterladen
User-agent: *
Disallow: /pictures/
Disallow: /personal/

Falls Ihnen die Geschwindigkeit, in der ein Spider Ihre Seiten anfragt, zu schnell ist, können Sie in der robots.txt ein Zeitintervall festlegen, in der ein Spider bei Ihrem Server Seiten abrufen sollte.

# Spider MiaDev soll alle 15 Sekunden den Server anfragen
User-agent: MiaDev
Crawl-delay: 15

Diese Zeilen bewirken, dass der Spider angehalten ist, nur in dem angegebenen Intervall bei Ihrem Server anzufragen. Hier würde der MIA Spider also höchstens alle 15 Sekunden eine Seite herunterzuladen. Der MIA-Spider ist jedoch so konfiguriert, dass bei normalem Lauf der Dokumentenbeschaffung jeder Server höchstens 1-mal pro Minute angefragt wird. Normalerweise sollte dieser Eintrag in der robots.txt also nicht notwendig sein.
Um den MIA-Spider gänzlich von Ihren Seiten auszuschließen, können Sie in die robots.txt folgende Zeilen eintragen:

# Spider MiaDev darf außer Datei robots.txt nichts herunterladen
User-agent: MiaDev
Disallow: /

Dieser Eintrag bedeutet, dass der Spider außer der robots.txt keine Webseite herunterladen darf, da bereits das Wurzelverzeichnis nicht betreten werden darf.
Im Internet finden Sie einige Seiten, auf denen eine von Ihnen erzeugte Datei robots.txt auf Gültigkeit überprüft werden kann. Wer sich unsicher ist, kann die robots.txt dort auf Konformität mit dem Protokoll überprüfen lassen. Eine Online-Überprüfung können Sie zum Beispiel hier (http://tool.motoricerca.info/robots-checker.phtml) vornehmen.