Teste deine robots.txt Datei

Mit dem attrido.io robots.txt Tester kannst Du sicherstellen, dass deine Webseiten korrekt gecrawlt werden.

Bitte Webseite eingeben!

Grundlagen zur robots.txt

Die robots txt Datei ist eine einfache Text-Datei mit deren Hilfe Du vorschreiben kannst, welche Bereiche deiner Webseite von Webcrawlern (Bots) durchsucht werden dürfen und welche nicht. Mittels der robots.txt können einzelne Dateien, komplette Verzeichnisse, oder sogar die gesamte Webseite vom Crawling ausgeschlossen werden. So kannst du Suchmaschinen Bots wie beispielsweise den Google Bot einfach steuern und dein “Crawl Budget” effizient nutzen.

robots.txt Datei erstellen

Die robots.txt kann mittels simplen Texteditor erstellt werden – beispielsweise dem Windows Editor. Die Datei setzt sich in der Regel aus zwei Blöcken zusammen: Zunächst wird angegeben für welchen User Agent die Anweisung gelten soll. Im Anschluss folgt der Befehl “Disallow”, nachdem die vom Crawling auszuschließenden Pfade aufgelistet werden. Häufig verwendete User Agents sind:

  • Googlebot (Google Suchmaschine)
  • Googlebot-Image (Google-Bildersuche)
  • Slurp (Yahoo)
  • bingbot (Bing)
  • Sistrix (Sistrix)
  • OnpageBot (Ryte)

Sollen mehrere User Agents angesprochen werden, erhält jeder Bot eine eigene Zeile.

robots.txt Beispiel

Einfacher Aufbau der robots.txt:

User-agent: * Disallow:

Dieser Code bewirkt, dass alle Webcrawler alle Seiten crawlen darf. Um Bots das Crawlen der kompletten Webseite zu verbieten, solltest Du folgende Angabe verwenden:

User-agent: * Disallow: /

Möchtest du nur einen Teilbereich deiner Webseite von einem speziellen Bot vom Crawling ausschließen, wie beispielsweise den Login Bereich vom Google Bot, kannst du dies wie folgt umsetzen:

User-agent: Googlebot Disallow: /login/

robots.txt prüfen

Bevor du die robots.txt in das Root-Verzeichnis deiner Website lädst, solltest du sie unbedingt auf Fehler überprüfen. Hierfür kannst du den attrido.io robots.txt Tester verwenden. Schon der kleinste Fehler kann schwerwiegende Konsequenzen nach sich ziehen. Eine fehlerhafte Datei kann dazu führen, dass Bots Vorgaben missverstehen und Teile deiner Webseite crawlt die er nicht sehen sollte oder er Bereiche nicht crawlt über die du aber gerne gefunden werden möchtest.

Aktualisierte robots.txt-Datei bei Google einreichen

Nach erfolgreichem Test kannst du mittels Google Search Console über Crawling -> robots.txt-Tester deine aktualisierte Datei bei Google einreichen.