Es gibt verschiedene Gründe, die Indexierung zu steuern und somit der Suchmaschine vorzugeben, wie sie mit Webseiten und Links umgehen soll:
- Zugriff auf nicht relevante Seiten und Verzeichnisse verhindern
- Verfolgung von Links erlauben oder verbieten
- Indexierung irrelevanter Webseiten unterbinden
- Doppelte Inhalte nur unter einer URL indexieren
Ziel ist es nurin den Suchmaschinen Index zu übertragen. Es liegt in der Natur der Sache, dass das nicht immer reibungslos funktioniert. Schnell entstehen aufgrund technischer Probleme doppelte Inhalte, aber auch der „Faktor Mensch“ ist immer dafür gut auch mal ein Problem mit beizusteuern. Um an der Stelle entgegenzuwirken gibt es Mittel und Wege den Index sauber zu halten.
Welche Methoden gibt es?
Ich befasse mich im Artikel mit 3 Methoden die Indexierung zu beeinflussen. Welche das sind und wie man diese nutzt möchte ich genauer beleuchten:
Robots.txt
Die Robots.txt ist der „Türsteher“ für Suchmaschinen-Crawler. Sie erlaubt explizit welcher Crawler welche Verzeichnisse einer Domain nicht crawlen darf. Die meisten Crawler halten sich an die Vorgaben der Robots.txt.
Die Robots.txt nutzt im Wesentlichen zwei Anweisungen:
User-Agent: bestimmt den Crawler für den folgende Anweisungen gelten sollten
Allow/Disallow: Bestimmt die Datei oder das Verzeichnis
Eine Leerzeile schließt den Datensatz ab. Anweisungsblöcke der robots.txt müssen immer mit einer Leerzeile getrennt werden. Jeder Bot nutzt hier immer den ersten für sich passenden Anweisungsblock. Will man spezielle Anweisungen für einen Bot geben, muss die Reihenfolge der Anweisungen so strukturiert sein, dass zum Anfang spezielle Anweisungen für ausgewählte Crawler stehen. Erst danach dürfen Anweisungen für alle Crawler eingetragen werden. Hält man sich nicht an diese Struktur, sind alle Anweisungen nach User-Agent: * quasi umsonst.
So kann eine Robots.txt aussehen:
# robots.txt zu http://www.beispiel.de/ User-agent: ROBOTNAME Disallow: /Bilder/ User-agent: * Disallow: /GeheimeDaten/ Disallow: /allePasswoerter.html
Möchte man alle Crawler ansprechen, wählt man folgenden Ausdruck: User-agent: *
Achtung, man sperrt mit Disallow: /
alle Robots für die komplette Domain aus. Dies kann ein Grund sein, warum man keinen organischen Traffic bekommt. Solange in einer Testumgebung gearbeitet wird und die Daten noch nicht gefunden werden sollen, ist es dafür sinnvoll komplette Verzeichnisse nicht zu indexieren.
Crawler von unseriösen Anbietern lassen sich in der Regel nicht durch die Robots.txt beeinflussen. Dafür halten sich Crawler der gängigen Suchmaschinen an die Anweisungen.
Warum aber soll ich Crawlern den Zugriff auf Teile meiner Domain verweigern? Ganz einfach. In Suchmaschinen Index sollen nicht alle Inhalte des Webservers erscheinen. Mit der Anweisung werden Crawler gebeten, die Indexierung für bestimmte Pfade nicht durchzuführen. Dies kann zum Beispiel der Fall sein, wenn auf dem Webserver Testseiten liegen, die nicht für die breite Öffentlichkeit bestimmt sind. Oder es sollen nicht alle Bilder aus dem entsprechenden Ordner in den Index gelangen.
Die Robots.txt eignet sich besonders, um die Indizierung nicht relevanter HTML Seiten zu verbieten. Dennoch können die URLs der Seiten in den Index gelangen. Zum Beispiel wenn Seiten extern verlinkt werden. Ist das der Fall, wird kein Snippet in den SERPs angezeigt. Will man einzelne URLs aus dem Index ausschließen eignet sich die folgende Methode.
Meta Tags
Zwei Elemente des Meta-Tags sind zum Steuern der Crawler und zur Indizierung von HTML Seiten nützlich. Damit kann für jede HTML Seite festgelegt werden wie der Crawler mit der Indexierung und den enthaltenen Links der HTML Seite vorgehen soll.
Die Meta Anweisung <meta name=”robots” content=”index,follow” /> spricht den Crawler auf jeder HTML Seite individuell an und gibt ihm folgende mögliche Anweisungen:
Parameter |
Bedeutung |
content=”index,follow” | HTML Seite indexieren, Links folgen |
content=”noindex,follow” | HTML Seite nicht indexieren, Links folgen |
content=”index,nofollow” | HTML Seite indexieren, Links nicht folgen |
content=”noindex,nofollow” | HTML Seite nicht indexieren, Links nicht folgen |
So wird dem Crawler mitgeteilt ob er die HTML Seite in den Index aufnehmen darf und ob er den Links der HTML Seite folgen kann. Links von „nofollow“ HTML Seiten geben keine Linkkraft weiter. Das „nofollow“ Attribut kann gezielt eingesetzt werden um Linkjuice nicht weiter zu übertragen.
Hat man es mit Dokumenten zu tun, die keinen HEAD Bereich aufweisen, hilft der X-Robots-Tag weiter. Mit diesem Tag können nicht HTML-Dokumente, wie Bilder oder PDF Dateien, eingeschränkt indexiert werden.
Die Meta Tags nutzt du am besten, um auf einzelnen HTML Seiten das folgen von Links und oder die Indexierung zu verbieten.
Canonicals
Der Canonical Tag ist primär ein Hilfsmittel um doppelten Content im Index zu vermeiden. Durch Canonicals wird der Suchmaschine mitgeteilt, dass anstatt der gefundenen Seite die ursprüngliche (relevantere) Seite in den Index gehört.
Der Canonical Tag gehört in den Head einer HTML Seite und wird wie folgt angewendet:
<link rel=”canonical” href=”http://www.beispiel.de/richtigeseite.html”>
Doppelte Inhalte entstehen zum Beispiel durch:
- URLs sind mit und ohne www. erreichbar
- Es wird mit Session IDs in URLs gearbeitet
- ähnliche Inhalte auf HTML Seiten
- das gleiche Produkt wird in einem Webshop in mehreren Kategorien angeboten
Es ist Sinnvoll, jeder statischen HTML Seite einen Canonical Tag mit der eigenen URL zu verpassen, so dass sie auf sich selbst verweist. Somit verursachen eventuelle dynamische Filterungs- oder Tracking-Parameter an derselben URL keinen Duplicate Content.
Canonicals nutzt du am besten um doppelte Inhalte im Index zu verhindern.
Vorteile
Alle 3 Varianten helfen den Crawler zu steuern. Dabei geht es Hauptsächlich darum Duplicate Content zu verhindern und nur HTML Seiten zu indexieren, die auch im Index erscheinen sollen.
Die Robots.txt gibt hier den groben Rahmen für den Crawler vor. Meta Tags verfeinern diesen und können für einzelne HTML Seiten genaue Anweisungen geben. Mit Canonicals wird verhindert, dass doppelte Inhalte durch URL Manipulationen in den Index gelangen.
Nachteile
Die Methoden bringen nicht nur Vorteile mit sich. Beim Einsatz gilt es darauf zu achten keine widersprüchlichen Anweisungen zu erzeugen. So sollten zum Beispiel keine Verweise auf HTML Seiten gesetzt werden, die per Robots.txt ausgeschlossen sind. Auch die Inhalte der Sitemap sollten auf Wiedersprüche geprüft werden. Der Canonical-Tag sollte immer die letztmögliche Lösung sein, um doppelte Inhalte zu vermeiden. Viel besser ist es, von vornherein Projekte sauber aufzusetzen.
Fazit
Für gute Ergebnisse in Suchmaschinen ist die Steuerung der Indexierung unumgänglich. Die drei Methoden sind gute Hilfsmittel um Fehler zu vermeiden. In erster Linie werden mit der Robots.txt und den Meta-Tags Anweisungen an Suchmaschinen-Crawler gegeben. Canonicals helfen Euch den Index vor doppelten Inhalten zu schützen.