Robots.txt

Was ist die Robots.txt?

Die Robots.txt wurde 1994 als Protokoll eingeführt und sorgt dafür, dass die Web Crawler beim Aufruf einer Webseite zuerst die Robots.txt aufrufen und deren Inhalte auslesen müssen. Erst anschließend dürfen die Bots die Inhalte der Webseite in den Index aufnehmen.

Damit die Bots auch die Datei als erstes auslesen können, muss sie in der obersten Ebene des Root-Verzeichnisses abgelegt werden. Die Datei selbst muss eine einfache Textdatei sein – daher auch die.txt-Endung. Im Verzeichnis darf nur eine Datei mit diesem Namen existieren.

Da die Bots Content Case-Sensitive auslesen, sollten die Inhalte kleingeschrieben sein.

Hinweis:

Auch wenn die Crawler von Google, Bing, Yahoo und Youtube sich streng an die Inhalte bzw. Anweisungen in der Robots.txt halten, kann es dennoch passieren, dass diese Bereiche trotz allem indexiert werden.

Um die Indexierung einer Seite zu verhindern, muss im HEAD-Bereich dieser Seite das Meta-Tag < meta name=”robots” content=”noindex”> eingebaut werden. Des Weiteren stellen Robots.txt keinen Schutz vor unberechtigten Zugriffen dar.

Welche Anweisungen befinden sich in der Robots.txt?

In dieser Textdatei befinden sich Anweisungen an die Bots, welche Bereiche einer Webseite sie auslesen sollen. Mit dieser Textdatei können die Webseitenentwickler leicht ganze Bereiche einer Webseite, komplette Domains, unwichtige Unterverzeichnisse oder einzelne Dateien, wie zum Beispiel Bilder vom Crawling ausschließen.

Wie genau sehen diese Anweisungen aus?

Hier sei nochmals wiederholt, das die Bots die Inhalte case-sensitive auslesen – also immer kleingeschrieben.

Erst mal die wichtigsten Schlüsselwörter- bzw. Zeichen für die Anweisungen:

user-agent

Dieser Befehl spricht die Bots direkt an.

disallow

Verhinderung des Auslesen von Verzeichnissen, Dateien oder Seiten

allow

Ausdrückliche Anweisung Dateien, Verzeichnisse oder Seiten auszulesen

sitemap

Zeigt den Bots den Pfad zum Sitemap an.

*

Das Sternchen steht dafür, dass mit dieser Anweisung alle Bots gemeint sind. Sie ist eine sogenannte Wildcard.

$

Das Dollarzeichen ist ebenfalls eine Wildcard und sagt dem Bot, dass es sich hier um das Ende einer Datei handelt.

Beispiele für eine Anweisung in der Robots Datei:

user-agent: googlebot

user-agent: bingbot

disallow:  / bildverzeichnis / bild.jpg /

allow: / bildverzeichnis / bild2.jpg / 

Hier gibt man den Bots von Google und Bing die Anweisung datei.jpg im Bildverzeichnis nicht zu crawlen, aber die Erlaubnis zum Crawlen für die Datei bild2.jpg im selben Verzeichnis schon. 

user-agent *

disallow: /seite1/

Hier erstellt man die Anweisung, dass die Crawler das Verzeichnis seite1, inklusive Unterseiten, ignorieren sollen.

Die Robots.txt und die Suchmaschinenoptimierung?

Bei der Suchmaschinenoptimierung gilt es, Vorsicht walten zu lassen. Wenn man aus Versehen die Anweisung gibt, dass die gesamte Webseite nicht gecrawlt werden soll, kann es zum Verlust im Ranking führen.

Daher ist es immer angeraten, falls es zu unerklärlichen Verlusten kommt, einen Blick in die Robots.txt Datei zu werfen. Hier können wir Ihnen als SEO Agentur in München gerne weiterhelfen.

    Etiam magna arcu, ullamcorper ut pulvinar et, ornare sit amet ligula. Aliquam vitae bibendum lorem. Cras id dui lectus. Pellentesque nec felis tristique urna lacinia sollicitudin ac ac ex. Maecenas mattis faucibus condimentum. Curabitur imperdiet felis at est posuere bibendum. Sed quis nulla tellus.

    ADDRESS

    63739 street lorem ipsum City, Country

    PHONE

    +12 (0) 345 678 9

    EMAIL

    info@company.com