SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals

22. November 2012 | Onpage 6 Kommentare
SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals

Crawler

Es gibt verschiedene Gründe, die Indexierung zu steuern und somit der Suchmaschine vorzugeben, wie sie mit Webseiten und Links umgehen soll:

  • Zugriff auf nicht relevante Seiten und Verzeichnisse verhindern
  • Verfolgung von Links erlauben oder verbieten
  • Indexierung irrelevanter Webseiten unterbinden
  • Doppelte Inhalte nur unter einer URL indexieren

Ziel ist es nurin den Suchmaschinen Index zu übertragen. Es liegt in der Natur der Sache, dass das nicht immer reibungslos funktioniert. Schnell entstehen aufgrund technischer Probleme doppelte Inhalte, aber auch der „Faktor Mensch“ ist immer dafür gut auch mal ein Problem mit beizusteuern. Um an der Stelle entgegenzuwirken gibt es Mittel und Wege den Index sauber zu halten.

Welche Methoden gibt es?

Ich befasse mich im Artikel mit 3 Methoden die Indexierung zu beeinflussen. Welche das sind und wie man diese nutzt möchte ich genauer beleuchten:

Robots.txt

Die Robots.txt ist der „Türsteher“ für Suchmaschinen-Crawler. Sie erlaubt explizit welcher Crawler welche Verzeichnisse einer Domain nicht crawlen darf. Die meisten Crawler halten sich an die Vorgaben der Robots.txt.

Die Robots.txt nutzt im Wesentlichen zwei Anweisungen:

User-Agent:                        bestimmt den Crawler für den folgende Anweisungen gelten sollten

Allow/Disallow:                Bestimmt die Datei oder das Verzeichnis

Eine Leerzeile schließt den Datensatz ab. Anweisungsblöcke der robots.txt müssen immer mit einer Leerzeile getrennt werden. Jeder Bot nutzt hier immer den ersten für sich passenden Anweisungsblock. Will man spezielle Anweisungen für einen Bot geben, muss die Reihenfolge der Anweisungen so strukturiert sein, dass zum Anfang spezielle Anweisungen für ausgewählte Crawler stehen. Erst danach dürfen Anweisungen für alle Crawler eingetragen werden. Hält man sich nicht an diese Struktur, sind alle Anweisungen nach User-Agent: * quasi umsonst.

So kann eine Robots.txt aussehen:

# robots.txt zu http://www.beispiel.de/
User-agent: ROBOTNAME
Disallow: /Bilder/
User-agent: *
Disallow: /GeheimeDaten/
Disallow: /allePasswoerter.html

Möchte man alle Crawler ansprechen, wählt man folgenden Ausdruck: User-agent: *

Achtung, man sperrt mit Disallow: / alle Robots für die komplette Domain aus. Dies kann ein Grund sein, warum man keinen organischen Traffic bekommt. Solange in einer Testumgebung gearbeitet wird und die Daten noch nicht gefunden werden sollen, ist es dafür sinnvoll komplette Verzeichnisse nicht zu indexieren.

Crawler von unseriösen Anbietern lassen sich in der Regel nicht durch die Robots.txt beeinflussen. Dafür halten sich Crawler der gängigen Suchmaschinen an die Anweisungen.

Warum aber soll ich Crawlern den Zugriff auf Teile meiner Domain verweigern? Ganz einfach. In Suchmaschinen Index sollen nicht alle Inhalte des Webservers erscheinen. Mit der Anweisung werden Crawler gebeten, die Indexierung für bestimmte Pfade nicht durchzuführen. Dies kann zum Beispiel der Fall sein, wenn auf dem Webserver Testseiten liegen, die nicht für die breite Öffentlichkeit bestimmt sind. Oder es sollen nicht alle Bilder aus dem entsprechenden Ordner in den Index gelangen.

Die Robots.txt eignet sich besonders, um die Indizierung nicht relevanter HTML Seiten zu verbieten. Dennoch können die URLs der Seiten in den Index gelangen. Zum Beispiel wenn Seiten extern verlinkt werden. Ist das der Fall, wird kein Snippet in den SERPs angezeigt. Will man einzelne URLs aus dem Index ausschließen eignet sich die folgende Methode.

Meta Tags

Zwei Elemente des Meta-Tags sind zum Steuern der Crawler und zur Indizierung von HTML Seiten nützlich. Damit kann für jede HTML Seite festgelegt werden wie der Crawler mit der Indexierung und den enthaltenen Links der HTML Seite vorgehen soll.

Die Meta Anweisung <meta name=”robots” content=”index,follow” /> spricht den Crawler auf jeder HTML Seite individuell an und gibt ihm folgende mögliche Anweisungen:

Parameter

Bedeutung

content=”index,follow” HTML Seite indexieren, Links folgen
content=”noindex,follow” HTML Seite nicht indexieren, Links folgen
content=”index,nofollow” HTML Seite indexieren, Links nicht folgen
content=”noindex,nofollow” HTML Seite nicht indexieren, Links nicht folgen

So wird dem Crawler mitgeteilt ob er die HTML Seite in den Index aufnehmen darf und ob er den Links der HTML Seite folgen kann. Links von „nofollow“ HTML Seiten geben keine Linkkraft weiter. Das „nofollow“ Attribut kann gezielt eingesetzt werden um Linkjuice nicht weiter zu übertragen.

Hat man es mit Dokumenten zu tun, die keinen HEAD Bereich aufweisen, hilft der X-Robots-Tag weiter. Mit diesem Tag können nicht HTML-Dokumente, wie Bilder oder PDF Dateien, eingeschränkt indexiert werden.

Die Meta Tags nutzt du am besten, um auf einzelnen HTML Seiten das folgen von Links und oder die Indexierung zu verbieten.

Canonicals

Der Canonical Tag ist primär ein Hilfsmittel um doppelten Content im Index zu vermeiden. Durch Canonicals wird der Suchmaschine mitgeteilt, dass anstatt der gefundenen Seite die ursprüngliche (relevantere) Seite in den Index gehört.

Der Canonical Tag gehört in den Head einer HTML Seite und wird wie folgt angewendet:

<link rel=”canonical” href=”http://www.beispiel.de/richtigeseite.html”>

Doppelte Inhalte entstehen zum Beispiel durch:

  • URLs sind mit und ohne www. erreichbar
  • Es wird mit Session IDs in URLs gearbeitet
  • ähnliche Inhalte auf HTML Seiten
    • das gleiche Produkt wird in einem Webshop in mehreren Kategorien angeboten

Es ist Sinnvoll, jeder statischen HTML Seite einen Canonical Tag mit der eigenen URL zu verpassen, so dass sie auf sich selbst verweist. Somit verursachen eventuelle dynamische Filterungs- oder Tracking-Parameter an derselben URL keinen Duplicate Content.

Canonicals nutzt du am besten um doppelte Inhalte im Index zu verhindern.

Vorteile

Alle 3 Varianten helfen den Crawler zu steuern. Dabei geht es Hauptsächlich darum Duplicate Content zu verhindern und nur HTML Seiten zu indexieren, die auch im Index erscheinen sollen.

Die Robots.txt gibt hier den groben Rahmen für den Crawler vor. Meta Tags verfeinern diesen und können für einzelne HTML Seiten genaue Anweisungen geben. Mit Canonicals wird verhindert, dass doppelte Inhalte durch URL Manipulationen in den Index gelangen.

Nachteile

Die Methoden bringen nicht nur Vorteile mit sich. Beim Einsatz gilt es darauf zu achten keine widersprüchlichen Anweisungen zu erzeugen. So sollten zum Beispiel keine Verweise auf HTML Seiten gesetzt werden, die per Robots.txt ausgeschlossen sind. Auch die Inhalte der Sitemap sollten auf Wiedersprüche geprüft werden. Der Canonical-Tag sollte immer die letztmögliche Lösung sein, um doppelte Inhalte zu vermeiden. Viel besser ist es, von vornherein Projekte sauber aufzusetzen.

Fazit

Für gute Ergebnisse in Suchmaschinen ist die Steuerung der Indexierung unumgänglich. Die drei Methoden sind gute Hilfsmittel um Fehler zu vermeiden. In erster Linie werden mit der Robots.txt und den Meta-Tags Anweisungen an Suchmaschinen-Crawler gegeben. Canonicals helfen Euch den Index vor doppelten Inhalten zu schützen.

Kommentare (4)

  1. 24. Nov. 2012 19.11 Uhr

    Sehr informativer Beitrag, werde ich gleich in Tat umsetzen versuchen.

    Grüessli
    Beat

  2. 26. Nov. 2012 14.34 Uhr

    Guter Beitrag für Einsteiger, schön zusammengefasst.
    Ich persönlich würde aber davon abraten in die robots.txt Zeilen wie diese hier zu schreiben:
    Disallow: /GeheimeDaten/
    Disallow: /allePasswoerter.html
    Und auch keine Verzeichnisse wie /admin/ oder ähnliches. Die robots.txt ist nicht nur für Roboter lesbar, sondern für jeden der die URL aufruft. Finde ich in einer robots.txt eine Zeile wie “allePasswoerter.html”, dann rufe ich die selbstverständlich auf und verkaufe den Inhalt an den Meistbietenden ;)

    Die Nennung von Admin-Verzeichnissen macht es für Angreifer ebenfalls leichter zu identifizieren mit was für einem System sie es zu tun haben und wo sie ansetzen können. Ich würde also keinerlei technische Information über mein System in eine robots.txt packen.

    Ich persönlich würde zukünftig komplett auf Einschränkungen in der robots.txt verzichten. Mein Eindruck (und auch der von Kollegen mit denen ich gesprochen habe):
    Google hält sich nicht mehr an die robots.txt. Nicht nur Seiten, die von außen angelinkt werden gelangen in den Index, sondern alle an die der Bot über Links drankommt. Auch wieder Druckversionen. Meta-Informationen und Canonicals sind wesentlich zuverlässiger.

  3. 26. Nov. 2012 16.51 Uhr

    @dirkster:
    Seit wann hält sich Google nicht mehr an die robots.txt? Die robots.txt sagt, dass Google die dort genannten Seiten nicht crawlen darf. Da steht nichts von “darf nicht indexiert werden”. Letzteres ist auch möglich, aber eben nicht mit “disallow”.

  4. 30. Mai. 2014 10.14 Uhr

    Vielen Dank für deinen Artikel. Die Robots werden deutlich erklärt. Hat zu meinem Verständnis sehr gut beigetragen und mir geholfen.

Trackbacks (2)

  1. 23. Nov. 2012 10.50 Uhr

    [...] Indexierung mit Robots.txt, Meta Tag und Canonicals [...]

  2. 01. Dez. 2012 14.48 Uhr

    [...] SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals SEO Basics – Indexierung mit Robots.txt, Meta Tag und Canonicals [...]

Hinterlasse eine Antwort

Hinweis: Wenn Du hier keinen Namen einträgst (sondern ein Keyword) oder mir Dein Eintrag zu werbelastig erscheint, behalte ich mir das Recht vor Deinen Kommentar zu löschen oder zu editieren. Spart euch sowas hier also bitte!