SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals

Es gibt verschiedene Gründe, die Indexierung zu steuern und somit der Suchmaschine vorzugeben, wie sie mit Webseiten und Links umgehen soll:

Zugriff auf nicht relevante Seiten und Verzeichnisse verhindern
Verfolgung von Links erlauben oder verbieten
Indexierung irrelevanter Webseiten unterbinden
Doppelte Inhalte nur unter einer URL indexieren

Ziel ist es nurin den Suchmaschinen Index zu übertragen. Es liegt in der Natur der Sache, dass das nicht immer reibungslos funktioniert. Schnell entstehen aufgrund technischer Probleme doppelte Inhalte, aber auch der „Faktor Mensch“ ist immer dafür gut auch mal ein Problem mit beizusteuern. Um an der Stelle entgegenzuwirken gibt es Mittel und Wege den Index sauber zu halten.

Welche Methoden gibt es?

Ich befasse mich im Artikel mit 3 Methoden die Indexierung zu beeinflussen. Welche das sind und wie man diese nutzt möchte ich genauer beleuchten:

Robots.txt

Die Robots.txt ist der „Türsteher“ für Suchmaschinen-Crawler. Sie erlaubt explizit welcher Crawler welche Verzeichnisse einer Domain nicht crawlen darf. Die meisten Crawler halten sich an die Vorgaben der Robots.txt.

Die Robots.txt nutzt im Wesentlichen zwei Anweisungen:

User-Agent: bestimmt den Crawler für den folgende Anweisungen gelten sollten

Allow/Disallow: Bestimmt die Datei oder das Verzeichnis

Eine Leerzeile schließt den Datensatz ab. Anweisungsblöcke der robots.txt müssen immer mit einer Leerzeile getrennt werden. Jeder Bot nutzt hier immer den ersten für sich passenden Anweisungsblock. Will man spezielle Anweisungen für einen Bot geben, muss die Reihenfolge der Anweisungen so strukturiert sein, dass zum Anfang spezielle Anweisungen für ausgewählte Crawler stehen. Erst danach dürfen Anweisungen für alle Crawler eingetragen werden. Hält man sich nicht an diese Struktur, sind alle Anweisungen nach User-Agent: * quasi umsonst.

So kann eine Robots.txt aussehen:

# robots.txt zu http://www.beispiel.de/
User-agent: ROBOTNAME
Disallow: /Bilder/
User-agent: *
Disallow: /GeheimeDaten/
Disallow: /allePasswoerter.html

Möchte man alle Crawler ansprechen, wählt man folgenden Ausdruck: User-agent: *

Achtung, man sperrt mit Disallow: / alle Robots für die komplette Domain aus. Dies kann ein Grund sein, warum man keinen organischen Traffic bekommt. Solange in einer Testumgebung gearbeitet wird und die Daten noch nicht gefunden werden sollen, ist es dafür sinnvoll komplette Verzeichnisse nicht zu indexieren.

Crawler von unseriösen Anbietern lassen sich in der Regel nicht durch die Robots.txt beeinflussen. Dafür halten sich Crawler der gängigen Suchmaschinen an die Anweisungen.

Warum aber soll ich Crawlern den Zugriff auf Teile meiner Domain verweigern? Ganz einfach. In Suchmaschinen Index sollen nicht alle Inhalte des Webservers erscheinen. Mit der Anweisung werden Crawler gebeten, die Indexierung für bestimmte Pfade nicht durchzuführen. Dies kann zum Beispiel der Fall sein, wenn auf dem Webserver Testseiten liegen, die nicht für die breite Öffentlichkeit bestimmt sind. Oder es sollen nicht alle Bilder aus dem entsprechenden Ordner in den Index gelangen.

Die Robots.txt eignet sich besonders, um die Indizierung nicht relevanter HTML Seiten zu verbieten. Dennoch können die URLs der Seiten in den Index gelangen. Zum Beispiel wenn Seiten extern verlinkt werden. Ist das der Fall, wird kein Snippet in den SERPs angezeigt. Will man einzelne URLs aus dem Index ausschließen eignet sich die folgende Methode.

Meta Tags

Zwei Elemente des Meta-Tags sind zum Steuern der Crawler und zur Indizierung von HTML Seiten nützlich. Damit kann für jede HTML Seite festgelegt werden wie der Crawler mit der Indexierung und den enthaltenen Links der HTML Seite vorgehen soll.

Die Meta Anweisung <meta name=”robots” content=”index,follow” /> spricht den Crawler auf jeder HTML Seite individuell an und gibt ihm folgende mögliche Anweisungen:

Parameter	Bedeutung
content=”index,follow”	HTML Seite indexieren, Links folgen
content=”noindex,follow”	HTML Seite *nicht* indexieren, Links folgen
content=”index,nofollow”	HTML Seite indexieren, Links *nicht* folgen
content=”noindex,nofollow”	HTML Seite *nicht* indexieren, Links *nicht* folgen

So wird dem Crawler mitgeteilt ob er die HTML Seite in den Index aufnehmen darf und ob er den Links der HTML Seite folgen kann. Links von „nofollow“ HTML Seiten geben keine Linkkraft weiter. Das „nofollow“ Attribut kann gezielt eingesetzt werden um Linkjuice nicht weiter zu übertragen.

Hat man es mit Dokumenten zu tun, die keinen HEAD Bereich aufweisen, hilft der X-Robots-Tag weiter. Mit diesem Tag können nicht HTML-Dokumente, wie Bilder oder PDF Dateien, eingeschränkt indexiert werden.

Die Meta Tags nutzt du am besten, um auf einzelnen HTML Seiten das folgen von Links und oder die Indexierung zu verbieten.

Canonicals

Der Canonical Tag ist primär ein Hilfsmittel um doppelten Content im Index zu vermeiden. Durch Canonicals wird der Suchmaschine mitgeteilt, dass anstatt der gefundenen Seite die ursprüngliche (relevantere) Seite in den Index gehört.

Der Canonical Tag gehört in den Head einer HTML Seite und wird wie folgt angewendet:

Doppelte Inhalte entstehen zum Beispiel durch:

URLs sind mit und ohne www. erreichbar
Es wird mit Session IDs in URLs gearbeitet
ähnliche Inhalte auf HTML Seiten
- das gleiche Produkt wird in einem Webshop in mehreren Kategorien angeboten

Es ist Sinnvoll, jeder statischen HTML Seite einen Canonical Tag mit der eigenen URL zu verpassen, so dass sie auf sich selbst verweist. Somit verursachen eventuelle dynamische Filterungs- oder Tracking-Parameter an derselben URL keinen Duplicate Content.

Canonicals nutzt du am besten um doppelte Inhalte im Index zu verhindern.

Vorteile

Alle 3 Varianten helfen den Crawler zu steuern. Dabei geht es Hauptsächlich darum Duplicate Content zu verhindern und nur HTML Seiten zu indexieren, die auch im Index erscheinen sollen.

Die Robots.txt gibt hier den groben Rahmen für den Crawler vor. Meta Tags verfeinern diesen und können für einzelne HTML Seiten genaue Anweisungen geben. Mit Canonicals wird verhindert, dass doppelte Inhalte durch URL Manipulationen in den Index gelangen.

Nachteile

Die Methoden bringen nicht nur Vorteile mit sich. Beim Einsatz gilt es darauf zu achten keine widersprüchlichen Anweisungen zu erzeugen. So sollten zum Beispiel keine Verweise auf HTML Seiten gesetzt werden, die per Robots.txt ausgeschlossen sind. Auch die Inhalte der Sitemap sollten auf Wiedersprüche geprüft werden. Der Canonical-Tag sollte immer die letztmögliche Lösung sein, um doppelte Inhalte zu vermeiden. Viel besser ist es, von vornherein Projekte sauber aufzusetzen.

Fazit

Für gute Ergebnisse in Suchmaschinen ist die Steuerung der Indexierung unumgänglich. Die drei Methoden sind gute Hilfsmittel um Fehler zu vermeiden. In erster Linie werden mit der Robots.txt und den Meta-Tags Anweisungen an Suchmaschinen-Crawler gegeben. Canonicals helfen Euch den Index vor doppelten Inhalten zu schützen.

7 thoughts on “SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals”

Beat 24. November 2012 um 19:11

Sehr informativer Beitrag, werde ich gleich in Tat umsetzen versuchen.

Grüessli
Beat
dirkster 26. November 2012 um 14:34

Guter Beitrag für Einsteiger, schön zusammengefasst.
Ich persönlich würde aber davon abraten in die robots.txt Zeilen wie diese hier zu schreiben:
Disallow: /GeheimeDaten/
Disallow: /allePasswoerter.html
Und auch keine Verzeichnisse wie /admin/ oder ähnliches. Die robots.txt ist nicht nur für Roboter lesbar, sondern für jeden der die URL aufruft. Finde ich in einer robots.txt eine Zeile wie “allePasswoerter.html”, dann rufe ich die selbstverständlich auf und verkaufe den Inhalt an den Meistbietenden ;)

Die Nennung von Admin-Verzeichnissen macht es für Angreifer ebenfalls leichter zu identifizieren mit was für einem System sie es zu tun haben und wo sie ansetzen können. Ich würde also keinerlei technische Information über mein System in eine robots.txt packen.

Ich persönlich würde zukünftig komplett auf Einschränkungen in der robots.txt verzichten. Mein Eindruck (und auch der von Kollegen mit denen ich gesprochen habe):
Google hält sich nicht mehr an die robots.txt. Nicht nur Seiten, die von außen angelinkt werden gelangen in den Index, sondern alle an die der Bot über Links drankommt. Auch wieder Druckversionen. Meta-Informationen und Canonicals sind wesentlich zuverlässiger.
Chris 26. November 2012 um 16:51

@dirkster:
Seit wann hält sich Google nicht mehr an die robots.txt? Die robots.txt sagt, dass Google die dort genannten Seiten nicht crawlen darf. Da steht nichts von “darf nicht indexiert werden”. Letzteres ist auch möglich, aber eben nicht mit “disallow”.
Manfred 30. Mai 2014 um 10:14

Vielen Dank für deinen Artikel. Die Robots werden deutlich erklärt. Hat zu meinem Verständnis sehr gut beigetragen und mir geholfen.
Adam 17. April 2015 um 12:22

Hi,
folgen Bots den Links auf NICHT kanonischen Seiten?
Oder wird das crawling beim erkennen des canonicals auf die canonical Seite beschrängt?

Grüße.
Adam
Marc 4. November 2015 um 15:06

Vielen Dank für den informativen Einblick, der Neulingen einen deutlichen Mehrwert bietet.
Kann man in irgendeiner Weise abschätzen wie sich die Anzahl von NOFOLLOW Einträgen auf die Indexierung auswirkt ?
Digital Insight 26. Juli 2017 um 16:45

Die Türsteher-Metapher für die robots.txt gefällt mir sehr gut – das merke ich mir!

Kommentar schreiben Antworten abbrechen

Kommentar *

Name *

Email *

Hinweis: Wenn ihr hier keinen Namen eintragt (sondern ein Keyword) oder uns euer Eintrag zu werblich erscheint, behalten wir uns das Recht vor, euren Kommentar zu löschen oder zu editieren. Spart euch sowas hier also bitte!

Des Weiteren erteilt ihr mit der Abgabe eures Kommentars eure Erlaubnis, dass eure Daten von blog.searchmetrics.com/de/ gespeichert werden. Zur Übersicht über die Kommentare und zur Vermeidung von Missbrauch, speichert diese Website Name, E-Mail-Adresse, Kommentar sowie die IP-Adresse und den Zeitstempel eures Kommentars. Die Kommentare können jederzeit wieder gelöscht werden. Detaillierte Informationen findet ihr in unserer Datenschutz-Erklärung.

Zustimmung zur Datenspeicherung laut DSGVO