Robots.txt
Was ist die Robots.txt?
Die Robots.txt wurde 1994 als Protokoll eingeführt und sorgt dafür, dass die Web Crawler beim Aufruf einer Webseite zuerst die Robots.txt aufrufen und deren Inhalte auslesen müssen. Erst anschließend dürfen die Bots die Inhalte der Webseite in den Index aufnehmen.
Damit die Bots auch die Datei als erstes auslesen können, muss sie in der obersten Ebene des Root-Verzeichnisses abgelegt werden. Die Datei selbst muss eine einfache Textdatei sein – daher auch die.txt-Endung. Im Verzeichnis darf nur eine Datei mit diesem Namen existieren.
Da die Bots Content Case-Sensitive auslesen, sollten die Inhalte kleingeschrieben sein.
Hinweis:
Auch wenn die Crawler von Google, Bing, Yahoo und Youtube sich streng an die Inhalte bzw. Anweisungen in der Robots.txt halten, kann es dennoch passieren, dass diese Bereiche trotz allem indexiert werden.
Um die Indexierung einer Seite zu verhindern, muss im HEAD-Bereich dieser Seite das Meta-Tag < meta name=”robots” content=”noindex”> eingebaut werden. Des Weiteren stellen Robots.txt keinen Schutz vor unberechtigten Zugriffen dar.
Welche Anweisungen befinden sich in der Robots.txt?
In dieser Textdatei befinden sich Anweisungen an die Bots, welche Bereiche einer Webseite sie auslesen sollen. Mit dieser Textdatei können die Webseitenentwickler leicht ganze Bereiche einer Webseite, komplette Domains, unwichtige Unterverzeichnisse oder einzelne Dateien, wie zum Beispiel Bilder vom Crawling ausschließen.
Wie genau sehen diese Anweisungen aus?
Hier sei nochmals wiederholt, das die Bots die Inhalte case-sensitive auslesen – also immer kleingeschrieben.
Erst mal die wichtigsten Schlüsselwörter- bzw. Zeichen für die Anweisungen:
user-agent
Dieser Befehl spricht die Bots direkt an.
disallow
Verhinderung des Auslesen von Verzeichnissen, Dateien oder Seiten
allow
Ausdrückliche Anweisung Dateien, Verzeichnisse oder Seiten auszulesen
sitemap
Zeigt den Bots den Pfad zum Sitemap an.
*
Das Sternchen steht dafür, dass mit dieser Anweisung alle Bots gemeint sind. Sie ist eine sogenannte Wildcard.
$
Das Dollarzeichen ist ebenfalls eine Wildcard und sagt dem Bot, dass es sich hier um das Ende einer Datei handelt.
Beispiele für eine Anweisung in der Robots Datei:
user-agent: googlebot
user-agent: bingbot
disallow: / bildverzeichnis / bild.jpg /
allow: / bildverzeichnis / bild2.jpg /
Hier gibt man den Bots von Google und Bing die Anweisung datei.jpg im Bildverzeichnis nicht zu crawlen, aber die Erlaubnis zum Crawlen für die Datei bild2.jpg im selben Verzeichnis schon.
user-agent *
disallow: /seite1/
Hier erstellt man die Anweisung, dass die Crawler das Verzeichnis seite1, inklusive Unterseiten, ignorieren sollen.
Die Robots.txt und die Suchmaschinenoptimierung?
Bei der Suchmaschinenoptimierung gilt es, Vorsicht walten zu lassen. Wenn man aus Versehen die Anweisung gibt, dass die gesamte Webseite nicht gecrawlt werden soll, kann es zum Verlust im Ranking führen.
Daher ist es immer angeraten, falls es zu unerklärlichen Verlusten kommt, einen Blick in die Robots.txt Datei zu werfen. Hier können wir Ihnen als Agence SEO à Munich gerne weiterhelfen.