
Da XML-Sitemaps für die Suchmaschinenoptimierung eine große Rolle spielen, will ich euch in einem Beitrag alle wichtigen Infos über die Zusammenstellung und die Technik dieser Technologie zusammen fassen. In kleinen Code-Beispielen zeige ich, wie sie aussehen sollten.
Warum gibt es Sitemaps?
Die Sitemaps-Technologie wurde Mitte 2005 von Google offiziell veröffentlicht. Seitdem können Webmaster den Suchmaschinen eine Art Inhaltsverzeichnis ihrer Seiten bereitstellen. Ende 2006 wurde die Technologie auch von MSN und Yahoo! übernommen, wodurch sie ein quasi-Standard geworden ist. Ein Standard mit Sinn: Wird keine Sitemap angeboten, kann der Crawler nur durch Zufall neue oder aktualisierte Seiten entdecken, crawlen und indizieren. Je schlechter eine Seite durch interne und externe Links vernetzt ist, desto länger wird es dauern, bis die Suchmaschine die Seite findet und indiziert.
Der Hauptvorteil einer Sitemap liegt also in der Schnelligkeit und Vollständigkeit der Indizierung einer Seite.
Wie erstellt man eine Sitemap?
Es gibt zwei Wege eine Sitemap zu erstellen. Der erste Weg ist eine Sitemap von Hand zu erstellen. Dies ist bei kleinen statischen Seiten vielleicht noch ein gangbarer Weg. Die Schwäche dieser Methode liegt aber im Faktor Mensch. Zum einen ist XML eine sehr exakte Auszeichnungssprache, bei der sich sehr schnell syntaktische Fehler einschleichen können, zum anderen liegt der Vorteil der Sitemap in der Schnelligkeit und Vollständigkeit, was ganz klar danach ruft, dass die Sitemaps im Zuge der Publikation einer Seite automatisch erstellt und ausgespielt werden. Daran ändern auch Tools nichts, die die Webseite crawlen und auf diese Weise eine Sitemap zusammen stellen.
Deshalb sollte man diesen Vorgang automatisieren. In den meisten Content Management Systemen (CMS) ist deshalb eine Funktion oder ein Plugin enthalten, um Sitemaps automatisch zu generieren.
Welche Arten gibt es und wann sollte man welche Sitemap einsetzen?
Standard HTML-Sitemap
Diese Sitemap stellt das Verzeichnis aller HTML Dokumente dar, die gecrawlt werden sollen.
Man kann die Sitemap auch als Hilfestellung für Crawler verstehen. Ohne Unterstützung durch die Sitemap verhält sich der Crawler wie ein Wanderer, der sich bei jedem Link mehr oder weniger zufällig entscheidet, ob er ihm folgt oder nicht. So haben es vor allem schlecht eingebundene, in der Tiefe liegende oder aktualisierte Seiten schwer, schnell und vollständig erfasst zu werden. Mit einer Sitemap erhält der Crawler eine vollständige Liste aller für den Index relevanten Seiten, inklusive des letzten Aktualisierungsdatums und der Einschätzung der Wichtigkeit der Seite.
In die Sitemap gehören nur Dokumente, die auch tatsächlich im Index der Suchmaschine erscheinen sollen. Hier ist besonders darauf zu achten, dass keine Konflikte zwischen Sitemap und robots.txt auftreten oder Dokumente gelistet werden, die gar nicht in den Index kommen sollen und können, beispielsweise, weil sie hinter einem LogIn liegen. Der Status des Crawl-Vorgangs und mögliche Fehler können zum Beispiel in den Google Webmaster Tools abgerufen werden. Der Vergleich zwischen eingereichten und indizierten Seiten ist auch ein guter Indikator für mögliche Fehler. Tritt hier ein Delta auf, sollte man schleunigst mit der Suche beginnen.
Beispielcode für eine Sitemap mit einer zu indexierenden Seite:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2012-10-10</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
Neben der HTML-Sitemap gibt es noch weitere Sitemap-Arten. Diese wurden entwickelt, weil Google weitgehend auf Textinformationen angewiesen ist und alle anderen Informationen wie Bilder und Videos nur schwer oder gar nicht interpretieren kann. Die „Spezialseiten“ sagen der Suchmaschine also nicht nur, dass es Inhalte gibt, sondern füttern sie auch noch mit Infos über die Inhalte.
Bilder-Sitemap
In der Bild-Wiedererkennung wird Google zwar immer besser. Man muss sich nur die Fähigkeiten von „Google Goggles“ oder die manchmal nervigen Captcha-Rätsel ansehen. Davon, Bilder korrekt zu interpretieren, ist Google aber noch weit entfernt. Die spezielle Bilder-Sitemap ergänzt deshalb die Informationen zu den Bildern, die die Suchmaschinen noch nicht ohne weiteres auslesen können. Neben dem Pfad zu einem Bild, können mit der Sitemap auch Informationen, wie der Titel, die Beschriftung oder der geographische Standort übergeben werden.
Beispiel für eine Bilder-Sitemap:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1"> <url> <loc>http://example.com/beispiel.html</loc> <image:image> <image:loc>http://example.com/SEO-Basics.jpg</image:loc> <image:title>SEO Basics Sitemap Infografik</image:title> <image:caption>Infografik zum Thema Sitemaps</image:caption> <image:license http://example.com/license.html </image:license> </image:image> </url> </urlset>
Video-Sitemap
Mit der Interpretation von Videos hat es eine Suchmaschine noch schwerer als mit einzelnen Bildern. Die Video-Sitemap übergibt zu jedem enthaltenen Video weiterführende Informationen, die die Suchmaschine nicht aus dem Videofile herauslesen kann. Das sind zum Beispiel der Titel des Videos, die gewünschte Beschreibung oder das gewünschte Vorschaubild. Je mehr Informationen zum Video übergeben werden, desto besser. Dabei gilt es treffende Keywords und Beschreibungen zu wählen und diese mit allen verfügbaren Informationen anzureichern. Das kann die Auffindbarkeit, die Darstellung und letztlich die CTR stark beeinflussen. Es empfiehlt sich, zusätzlich zur Video-Sitemap, auch Onpage alle Video-Optimierungspotentiale zu nutzen.
Beispiel für eine Video-Sitemap:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"> <url> <loc>http://www.example.com/videos/video-zielseite.html</loc> <video:video> <video:thumbnail_loc>http://www.example.com/miniaturbilder/123.jpg</video:thumbnail_loc> <video:title>Grillen im Sommer</video:title> <video:description>Mark zeigt Euch, wie Euer Steak immer perfekt gelingt</video:description> <video:content_loc>http://www.example.com/video123.flv</video:content_loc> <video:player_loc allow_embed="yes" autoplay="ap=1">http://www.example.com/videoplayer.swf?video=123</video:player_loc> <video:duration>600</video:duration> <video:expiration_date>2012-10-10T19:20:30+08:00</video:expiration_date> <video:rating>4.2</video:rating> <video:view_count>12345</video:view_count> <video:publication_date>2012-10-10T19:20:30+08:00</video:publication_date> <video:family_friendly>yes</video:family_friendly> <video:restriction relationship="allow">DE GB US CA</video:restriction> <video:gallery_loc title="Kochvideos">http://kochen.example.com</video:gallery_loc> <video:price currency="EUR">0,99</video:price> <video:requires_subscription>yes</video:requires_subscription> <video:uploader info="http://www.example.com/users/grillymcgrillerson">GrillyMcGrillerson</video:uploader> <video:live>no</video:live> </video:video> </url> </urlset>
News-Sitemap
Diese Sitemap ist zwingend nötig, um News-Artikel an Google zu übertragen. Die Funktionsweise ist dabei ähnlich zu den bisher genannten Formen. Bei den News wird der Fokus aber vor allem auf Aktualität gelegt. „News“ sind ja „Neuigkeiten“. Diese Sitemaps werden in einer deutlich höheren Frequenz abgerufen und auf Neuerungen geprüft. Die News-Sitemap enthält nur News-Artikel mit dazugehörigen wichtigen Parametern. Diese sind zum Beispiel das Veröffentlichungsdatum, der Titel des Artikels oder dazu passende Keywords.
Einträge in der News-Sitemap sollten nicht älter als zwei Tage sein. Im News-Index bleiben alle indexierten Meldungen 30 Tage gespeichert, auch wenn diese nicht mehr in der Sitemap stehen.
Beispiel für eine News-Sitemap:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"> <url> <loc>http://www.example.org/SEO/News-Sitemap.html</loc> <news:news> <news:publication> <news:name>Beispielzeitung</news:name> <news:language>de</news:language> </news:publication> <news:access>Subscription</news:access> <news:genres>PressRelease, Blog</news:genres> <news:publication_date>2012-10-10</news:publication_date> <news:title>Eilmeldung News Sitemaps werden immer wichtiger</news:title> <news:keywords>SEO, News Sitemap, Sitemap</news:keywords> <news:stock_tickers>NASDAQ:A, NASDAQ:B</news:stock_tickers> </news:news> </url> </urlset>
Mobile-Sitemap
Die Mobile-Sitemap soll eingesetzt werden, sobald Content für mobile Endgeräte auf eine Subdomain ausgelagert wird. Für diesen Fall wird Google mitgeteilt, wo die für mobile Endgeräte angepassten Seiten abgelegt sind. Zu beachten ist hierbei, dass nach aktuell drei verschiedenen Markup-Sprachen unterschieden wird. Im Zweifel ist für alle drei Sprachen je eine Sitemap zu hinterlegen.
In der Funktion unterscheiden sich Mobile-Sitemaps nicht von den üblichen Sitemaps.
Wenn die Internetseite im responsive Design erstellt ist, so dass je nach Bildschirmgröße per CSS verschiedene Formate ausgeliefert werden, die Inhalte aber identisch sind, ist eine eigene Mobile-Sitemap nicht nötig.
Beispiel für eine Mobile-Sitemap:
<?xml version="1.0" encoding="UTF-8" ?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.google.com/schemas/sitemap-mobile/1.0"> <url> <loc>http://mobile.example.com/article100.html</loc> <lastmod>2012-10-10T22:10:32+00:00</lastmod> <mobile:mobile/> </url> </urlset>
Vorteile von Sitemaps
Der Hauptvorteil einer Sitemap liegt darin, neue und aktualisierte Inhalte der Suchmaschine schnell mitzuteilen. So werden die Crawler schneller auf neuen Content aufmerksam. Die Sonderformate unterstützen die Suchmaschinen bei der Interpretation von nicht-Text-Inhalten. Für News ist (unter anderem) eine Sitemap zwingend erforderlich.
Grundlegende Kriterien für alle Sitemaps
Um immer aktuelle Daten für Google zur Verfügung zu stellen wird empfohlen, nach jeder Änderung auch alle Sitemaps zu aktualisieren. In der Regel geschieht dies aber automatisch durch das CMS.
Bilder und Videos können bei kleinen Seiten auch gesammelt in einer Sitemap übermittelt werden. Sobald der Umfang steigt, sollte für jeden Bereich eine eigene Sitemap erstellt werden.
Für alle Sitemaps ist zu beachten, dass nicht mehr als 50.000 Einträge übermittelt werden und die Datei die Größe von 50 MB nicht übersteigt. Übersteigt eine Sitemap das Volumen, muss eine weitere Sitemap angelegt werden. Alle angelegten Sitemaps können in einer Index Datei zusammengefasst werden, was die Verwaltung erleichtert.
Dazu ein kleines Beispiel:
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2012-10-09T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2012-10-10</lastmod> </sitemap> </sitemapindex>
Bei der Erstellung einer Sitemap muss zwingend darauf geachtet werden, einen Abgleich der Restriktionen durch die robots.txt und 404 Fehler durchzuführen.
In der Sitemap dürfen nur Information zu Inhalten auftauchen, die:
- tatsächlich existieren
- indiziert werden sollen
- zugänglich sind
Es ist daher wichtig, in regelmäßigen Abständen die WMT zu prüfen um auf Fehler reagieren zu können.
Wie wird die Sitemap übermittelt?
Es gibt zwei Wege, um die Sitemap zu übermitteln. Der praktikable Weg geht über die Google Webmaster Tools. Hier kann die Sitemap unter dem Menüpunkt „Optimierung –> Sitemaps“ hinzugefügt werden. Alternativ kann die Sitemap auch in der robots.txt aufgenommen werden.
An Bing lassen sich die Sitemaps ebenfalls über die Bing Webmaster Tools übertragen.
Fazit
Sitemaps helfen neue und aktualisierte Inhalte schnell zu crawlen und somit schnell in den Index der Suchmaschinen zu schieben. Ebenso steuert man mit Sitemaps das eigentlich auf Zufall basierende Crawlverhalten. Durch die Sitemap ist dem Crawler jede URL bekannt und muss nicht erst „entdeckt“ werden.