Mit der Site Structure Optimization (SSO) geben wir Nutzern der Searchmetrics Suite einen Überblick über technische Aspekte ihrer Web-Projekte. Ob Titles & Descriptions, Crawling-Fehler, Ladezeiten oder Linkverteilungen: Wir analysieren Eure Websites, listen Euch alle relevanten Informationen auf – und bieten gleich die Möglichkeit, entsprechende Optimierungen vorzunehmen. Ein unwahrscheinlich nützliches und gleichzeitig intelligentes Modul – hier erklären wir es Euch: Teil 1 – das Setup.
Warum Site Structure Optimization?
Für professionelle Nutzer der Searchmetrics Suite, die ihre Projekte durch uns tracken & überwachen lassen, bietet die SSO detaillierte Möglichkeiten, Crawling und Analysen der Seite in den Bereichen Onpage und Technik durchzuführen.
Neben den detaillierten Auswertungen zu Titles/Descriptions ist eine Vielzahl von weiteren Kennzahlen analysierbar, z.B.:
- Pages by Level-Analysen,
- die Verteilung von internen und externen Links,
- Linkziel-Analysen,
- HTML-Statuscodes,
- Noindex- und Canonical-Tags, oder auch
- Ladezeiten, etc.
Einzelne URLs oder URL-Gruppen können so analysiert und optimiert werden, um eine bestmögliche Aussteuerung der Seite im Hinblick auf technische, strukturelle und search-orientierte Parameter zu erzielen.
Wie funktioniert der Crawler?
Damit euer Server die zusätzlichen Anfragen unseres Crawlers bei einer Seitenanalyse packt und zeitgleich trotzdem alle Nutzer eurer Site mit schnellen Ladezeiten bedienen kann, setzen wir auf „Intelligent Crawling“. Dies bietet mehrere Vorteile:
- Je nach Antwortgeschwindigkeit der Webseite wird mit mehr oder weniger parallelen Requests gearbeitet. Damit ist es quasi unmöglich, die Website lahmzulegen. Wird der Server langsam, reduzieren wir die parallelen Anfragen. Dies bietet mehr Sicherheit als bei einer fest eingestellten Anzahl paralleler Requests. Ist die Seite dagegen schnell, werden wir verstärkt parallel crawlen, damit die Ergebnisse zügig zur Verfügung stehen.
- Ist ein Crawl gestartet kann dieser aber auch jederzeit manuell abgebrochen werden. Einerseits kann die Analyse so gestoppt werden, sollte es wider Erwarten Probleme mit der Performance der Webseite geben. Andererseits kann man so auch eine „ich brauche bis heute Nachmittag Daten“ Analyse durchführen, denn alle bis dahin gecrawlten Seiten stehen im Anschluss an den Crawl in der Site Structure Optimization bereits zur Verfügung
Als voreingestellten User Agent nutzt unser Crawler den „Searchmetrics Bot“ – sofern nichts anderes im Setup eingestellt ist. Die URLs werden nach hierarchischer Reihenfolge abgearbeitet. Von der Startseite ausgehend, werden alle Links erfasst und Level für Level abgearbeitet.
Was bedeutet das Level einer Seite?
Das Level einer Seite kann zwei Interpretationen haben:
- Erstens: Anzahl der Slashes („/“) in der URL, die die Unterverzeichnisse angeben.
- Zweites: Anzahl der Klicks von der Startseite die benötigt werden um auf die Seite zu gelangen
Wenn in der Site Structure Optimization vom Level die Rede ist, beziehen wir die Aussagen auf die Anzahl der benötigten Klicks von der Startseite. Unserer Erfahrung nach kann dies den URL-Status hinsichtlich Verlinkung und Seitenstruktur besser darstellen als die reine Anzahl der Slashes. Hat eine URL etwa eine komplexe Struktur, die auf die Einbindung in ein Unter-Unter-Unterverzeichnis hindeutet, sollte man beispielsweise über einen direkten interner Link von der Startseite auf diese URL nachdenken, wenn man die Prominenz dieser Seite stärken möchte.
Für die Auswertung der URLs nach Slashes („Verzeichnissen“) könnt Ihr die URL-Gruppen nutzen. Hier gibt es vorgefertigte Templates um für den Crawl eine Gruppierung der Ergebnisse anhand der Anzahl der Verzeichnisse zu erhalten.
Das SSO-Setup im Detail
Wenn Ihr ein eigenes Projekt in der Suite angelegt habt, könnt Ihr mit wenigen Klicks eine neue Site Structure-Analyse anlegen. Dazu einfach in den Reiter „Optimization“ gehen, dort „Site Structure“ anwählen und im ausklappbaren Menü „Setup“ wählen.
Bevor wir ins Detail gehen, dies vorweg: Zu jeder Einstellung gibt es jederzeit Hilfe im Tool-Tipp. Dazu müsst Ihr einfach mit der Maus über das Eingabefeld fahren, dann erscheint das entsprechende Kontextfeld mit Erklärungen und Hilfestellungen.
Die Projekt-URL zeigt kurz an, für welches eurer Projekte ihr gerade ein Site-Structure-Crawling aufsetzt. Dies kann dann relevant werden, wenn ihr mehrere Projekte in der Suite angelegt habt. Beachtet: Alternativ kann auch eine Einstiegs-URL angegeben werden. Wenn das Projekt: www.domain.com/de/ eingetragen ist, aber diese Seite so nicht erreichbar ist, könnte man etwa auch www.domain.com/de/start.html als Einstiegsseite angeben.
In der Einstellung Maximale Seiten habt ihr die Möglichkeit, ein Limit der zu crawlenden Seiten definieren. Darüber könnt ihr erstens eure Serverlast beeinflussen und zweitens berechnen sich danach die Credits für einen Crawl. Ist die Anzahl der gecrawlten Seiten erreicht, wird der Crawl gestoppt. Ausnahme: Es ist ein maximales Level angegeben, das zuerst erreicht wird. Gibt es übrigens weniger Seiten als eingestellt, wird die Differenz an Page-Credits wieder gutgeschrieben. Heißt: Ihr zahlt nur, was wir auch crawlen!
Erweiterte Einstellungen – Individuelle Möglichkeiten
- 1. Name des Crawls: Insbesondere bei vielen Crawls von Projekten ist es wichtig, die einzelnen Crawls möglichst aussagekräftig zu benennen.
- 2. Crawl-Einstiegsseite: Standardmäßig ist dieses Feld leer; dies bedeutet, dass der Crawler auf der Startseite/ der eingegebenen Projekt-URL beginnt. Möchtet ihr einzelne Verzeichnisse crawlen lassen, tragt diese URL in das Feld ein und aktiviert die Checkbox „nur unter der Einstiegsseite“. Beispiel gefällig? Nehmen wir searchmetrics.com als Beispiel. Wählen wir als Einstiegsseite: searchmetrics.com/de/, werden nur die Seiten im Unterverzeichnis /de von www.searchmetrics.com gecrawlt.
- 3. Maximales Level: Das Page-Level ist definiert über die Anzahl der „Klicks“ von der Startseite (bzw. Einstiegsseite). Level-1-Seiten sind direkt von der Startseite verlinkt, Seiten mit Level 2 direkt von Seiten mit Level 1 (also zwei Klicks von der Startseite entfernt). Ist ein maximales Level eingestellt und erreicht, wird der Crawl beendet. URLs, die tiefer liegen, werden dann nicht mehr gecrawlt.
- 4. User Agent: Der User Agent wird vom Crawler zur Identifizierung gegenüber der Webseite genutzt und bei jedem Request mitgeschickt. Als Default ist der „SearchmetricsBot“ eingestellt. Um zu wissen, wie die Seite etwa für den Google Bot aussieht, kann der User Agent entsprechend angepasst werden.
Gleiches gilt auch für die Mobile Bots – wenn man wissen will, wie ein Mobile Device die Seite sieht. - 5. Proxy: Grundsätzlich crawlen wir aus Deutschland. Allerdings leiten einige Webseite– basierend auf der Herkunft der Anfrage – auf die entsprechend lokalisierte Version um. Auch dafür haben wir eine Lösung und verwenden etwa Proxy-Server. Wird also etwa ein US-Proxy verwendet, dann wird die Webseite mit einer US-IP-Adresse gecrawlt. Die Liste der verfügbaren Proxys wird nach und nach ergänzt. Bei Bedarf einfach mit dem Support in Verbindung setzen
- 6. Ergebnisse vergleichen: Es besteht die Möglichkeit, Ergebnisse von zwei Crawls zu vergleichen. Auf den Auswertungsseiten werden dann Trends zum vorherigen Crawl angezeigt. Per Default werden Ergebnisse nicht verglichen, da das Crawl-Setup variieren kann – und ein Vergleich nur dann Sinn hat, wenn das Setup (fast) identisch ist. Bei regelmäßigen Crawls (Scheduled Crawls, siehe unten) wird immer mit dem vorherigen Crawl verglichen. Die Einstellung „Ergebnisse vergleichen“ ist bei regelmäßigen Crawls nicht erforderlich.
- 7. Benutzername / Passwort: Das ist eine Funktion um passwort-geschütze Testumgebungen zu crawlen.
- 8. Parameter entfernen: Es gibt Parameter, die beim Crawlen ignoriert werden sollen (z.B. Session_id). Die zu entfernenden Parameter müssen zeilenweise eingetragen werden.
- 9. Parameter ausschließen: Im Gegensatz zum Entfernen eines Parameters bietet das Ausschließen die Möglichkeit, URL vom Crawlen auszuschließen. Findet der Bot also eine URL mit einem definierten Parameter, wird diese Seite nicht gecrawlt.
- 10. URLs ausschließen: Diese Option dient als Ergänzung zu „Parameter ausschließen“. Hier können ganze Verzeichnisse oder Subdomains vom Crawlen ausgeschlossen werden.
SSO-Setup: Regelmäßige Crawls
Regelmäßige Crawls bieten die Möglichkeit, die Seite entsprechend den eigenen Anforderungen regelmäßig zu crawlen. Im Gegensatz zur Site Optimization kann mit einem umfangreichen Setup der Crawler sehr detailliert gesteuert werden, ohne dabei auf die Regelmäßigkeit verzichten zu müssen.
- Ausführung: Wählbar ist hier, wie häufig ein Crawling ausgeführt werden soll. Die Optionen reichen von täglich bis zu quartalsweise. Kein Intervall bedeutet, dass der Crawl nur einmalig ausgeführt wird. Je mehr Seiten gecrawlt werden, desto länger dauert natürlich das Crawling.
- Intervalle im Detail:
- Jede Woche / jede 2. Woche: Der Wochentag ist fix. Wollt ihrbspw. nur Samstags den Crawl starten lassen, wählt wöchentlich/zweiwöchentlich aus und legt das Startdatum auf einen Samstag.
- Jeden Monat / jeden 2./3. Monat: Der Kalendertag ist fix. Wollt Ihr beispielsweise immer zum Monatsersten einen Crawl starten lassen wählt Ihr eines der monatlichen Intervalle aus und legt Ihr das Startdatum auf den 1. des folgenden Monats aus.
- Startdatum: Das Startdatum gibt an, wann der regelmäßige Crawl erstmalig ausgeführt wird.
- Bei einem Intervall auf Wochenbasis ist der Wochentag ausschlaggeben für das Anlegen der Crawls. Ist als Startdatum ein Samstag angegeben wird der Crawl jeden Samstag gestartet.
- Bei einem Intervall auf Monatsbasis ist der Kalendertag ausschlaggeben für das Anlegen des Crawls. Ist als Startdatum der 15. angegeben wird der Crawl immer zum 15. des Monats angelegt
Mehr Infos zur Site Optimization
Habt ihr Fragen, Anregungen oder Gedanken zum Setup der Site Structure Optimization? Ich freue mich über eure Meinung in den Kommentaren!