searchmetrics email facebook github gplus instagram linkedin phone rss twitter whatsapp youtube arrow-right chevron-up chevron-down chevron-left chevron-right clock close menu search
91669166

Korrelation vs. Kausalität und: Neue (alte) Ranking-Faktoren Infografik

In diesem Jahr haben wir zu unserer Studie der Ranking-Faktoren eine neue Art der Infografik vorgestellt. Für unsere Idee des Kartenspiels haben wir viel positives Feedback erhalten, gleichzeitig stellt es anscheinend viele langjährige Freunde unserer Ranking-Faktoren und der Infografik auf eine harte Probe. Deshalb gibt dieser Beitrag einen kurzen Einblick in die Welt der Korrelationen und am Ende gibt es auch noch eine Überraschung.

Ranking-Faktoren - Korrelationen

Die bekannte Balkengrafik mit den Korrelationen ist mit den Reihen aus Spielkarten einer Anordnung gewichen, die scheinbar keine klare Gewichtung der Faktoren vornimmt.

Zur Ranking-Faktoren-Studie 2015

Was ist eine Korrelation?

Über die Berechnung einer Korrelation lässt sich eine Beziehung zwischen zwei Merkmalen in einem Wert abbilden. Die Skala reicht hierbei in der Regel von 0 (kein Zusammenhang) bis 1 (starker Zusammenhang. Korrelationen können auch negativ sein (-1).

Searchmetrics - Korrelation vs Kausalitaet

Beispiel: Im Sommer steigt der Konsum von Speiseeis. Ebenfalls höher als zu anderen Jahreszeiten ist in der Jahresmitte der Anteil von Menschen mit Sonnenbrand. Beide – wir nennen es mal „Faktoren“ – treten also zur gleichen Zeit gehäuft auf, und sind ebenfalls in ähnlichen Zeiträumen (im Winter) seltener anzutreffen. Man könnte auch sagen: sie korrelieren (in diesem Falle zeitlich) miteinander. Oft werden starke Zusammenhänge dieser Art als kausale Zusammenhänge fehlinterpretiert.

Führt der Verzehr einer Kugel Erdbeer- oder Vanilleeins deshalb wirklich zu Sonnenbrand? Nein, natürlich nicht. Zwischen den Merkmalen Eis-Konsum und Sonnenbrand ist schlicht der Grad der (zeitlichen) Übereinstimmung ihrer Ausprägung – also die Korrelation – im Sommer hoch. Allerdings bedeutet dies nicht noch lange nicht, dass hier eine Kausalität vorliegt – stattdessen ist dies ein Beispiel für eine Scheinkorrelation.

Beispiele für Scheinkorrelationen

Die folgenden Beispiele – hier gibt es weitere (wer zwischendurch mal Schmunzeln möchte) – sollen illustrieren, was Scheinkorrelationen sind. Schauen wir uns jeweils zwei Merkmale, die im Verlauf der Jahre betrachtet wurden und eine hohe Übereinstimmung ergeben, deren Korrelation also entsprechend hoch ist.

Cheese consumption vs. Bedsheet
© tylervigen.com/spurious-correlations

Der Käsekonsum pro Kopf weist eine enorm hohe Korrelation auf mit der Zahl von Menschen, die sich in ihrem Bettlaken verheddert haben und dadurch ums Leben kamen. Die Korrelation beträgt 0,95 – extrem hoch also! Doch besteht ein Zusammenhang zwischen Käse und Bettlaken-Tod? Wohl kaum.

Noch ein Beispiel gefällig? Okay, weiter geht’s:

Drowned in Pool vs. Nicolas Cage
© tylervigen.com/spurious-correlations

Hier ist der Zusammenhang dargestellt zwischen der Anzahl von Menschen, die ertrunken sind, weil sie in einen Pool fielen, und dem Erscheinungsjahr von Filmen mit Nicolas Cage. Die Korrelation beträgt 0,67 – ebenfalls recht hoch also! Bedeutet dies, dass durch Nicolas-Cage-Filme mehr Menschen in Pools ertrinken? Wohl kaum. Und geschieht dies, weil Nicolas Cage ein so begnadeter Schauspieler ist? Wollen wir hier nicht beurteilen ;-)

Ranking-Faktoren: Korrelation vs. Wichtigkeit

Dieses Problem von Fehlschlüssen und Scheinkorrelationen wollen wir in unserer Studie vermeiden. Wir verstehen die Ranking-Faktoren-Korrelation unserer Features deshalb zunächst als „Rangkorrelationskoeffizient“ und versuchen, deren Bedeutung zu interpretieren und zu bewerten – unter anderem auch, indem wir die entsprechenden Mittelwerte und Ausprägungen analysieren.

Mehr dazu in: Was ist ein Ranking-Faktor?

Trotzdem wurde die Infografik der Ranking-Faktoren in den letzten Jahren vielfach so verstanden, als sei die Balkenlänge gleichbedeutend mit der Wichtigkeit. Sprich: Weil die Korrelation bei Social Signals sehr hoch ist, wurden die Likes & Shares als entsprechend wichtig für ein Top-Ranking in den Google-Suchergebnissen interpretiert.

Ranking-Faktor-Chart: Facebook GesamtDie Skala der von uns verwendeten Spearman-Korrelationen reicht von -1 über 0 bis +1. Eine Korrelation von 0,24 wie im Facebook-Beispiel ist vergleichsweise hoch – doch mit einer Bedeutung von Facebook Likes & Shares als Ranking-Faktor hat diese Aussage unmittelbar nichts zu tun. Stattdessen bezeichnet diese hohe positive Korrelation „nur“, dass der Unterschied zwischen untersuchten Merkmalsträgern in Bezug auf das untersuchte Merkmal sehr groß ist. Heißt: Im Durchschnitt haben weiter vorn rankende Seiten mehr Social Signals.

Problem: Fehlinterpretation als Wichtigkeit nach Korrelation

Eine negative Korrelation, wie im folgenden Beispiel, zeigt, dass sich die Ausprägung / das Vorkommen eines Merkmals negativ zur Rangreihenfolge in den Suchergebnissen verhält. Es besagt nicht, dass ein Ranking-Faktor deshalb negativ ins Gewicht fällt. Der Anteil von Links zur Homepage war also auf den hinteren Sucherergebnispositionen, die wir untersucht haben, am höchsten (Ausnahme hier sind die vorderen Positionen – öfter Startseiten).

 Ranking-Faktor-Chart: Anteil Links zur Homepage

 

Das Kartenspiel – unsere neue Infografik

Für Leser, die mit Korrelationen nicht so vertraut sind, ist diese Unterscheidung schwierig. Und das ist der Grund, warum wir in diesem Jahr in der Studie nicht die altbekannte Korrelationsgrafik verwendet haben.. Wir wollten vermeiden, dass die Schlussfolgerung langer Balken = hohe Wichtigkeit entsteht.

Deshalb haben wir uns in diesem Jahr zu einem Kartenspiel entschlossen. Und neben der Korrelation einen Relevanz-Wert für die einzelnen Ranking-Faktoren angegeben, dessen einzelnen Abstufungen die folgenden sind:

  • -1 = negative Auswirkung
  •  0 = keine Auswirkung
  •  1 = wichtig
  •  2 = sehr wichtig

Ranking Faktoren 2015 Infografik - Kartenspiel Searchmetrics

Zudem haben wir die Kategorien nach Wichtigkeiten sortiert – wie beim Skat- Blatt. Die niedrigste Wertigkeit haben Backlinks gefolgt von Technik und User Experience. Am wichtigsten ist Content. Die Social Links sind Bonus-Karten. Und innerhalb der einzelnen Kategorien sind die Faktoren ebenfalls nach Wichtigkeit geordnet – im Bereich Content ist das „Keyword in Description“ am wenigsten wichtig; der wichtigste Faktor sind hier die „Relevant Terms“. Natürlich konnten wir nicht alle untersuchten Faktoren mit in das Kartenspiel nehmen, sondern haben uns für die aussagekräftigsten entschieden. Mittlerweile untersuchen wir übrigens knapp 200 Faktoren (!) – von denen es nur eine Auswahl ins Paper und auf die Grafik schafft.

Neue-Alte Rangkorrelationsgrafik Ranking-Faktoren 2015 zum Download

Viele haben sich bei uns gemeldet und nach der „alten“ Korrelationsgrafik gefragt. Und Eric Kubitz hat die Grafik sogar so sehr vermisst, dass er sich selbst eine Übersicht gebaut hat (auch sehr gelungen übrigens). Das konnten wir natürlich so nicht stehen lassen.

Also haben wir euch die diesjährigen Ergebnisse nochmal in der bekannten Balkengrafik dargestellt. Nachdem wir euch jetzt eingehend über eventuelle Interpretationsprobleme aufgeklärt haben, wisst ihr ja jetzt, wie man sie interpretieren muss ;-) Allerdings haben wir auf die reine Sortierung nach Korrelation verzichtet und stattdessen nach Kategorie sortiert. Auch unsere Einschätzung der Relevanz findet ihr wie im Kartenspiel auch in der Grafik.

 

Infografik Ranking-Faktoren 2015: Korrelationen - Searchmetrics

Wir haben die Grafik (auch in größerer Auflösung) zusätzlich zur Kartenspiel-Grafik auf der Seite mit der Infografik zu den Ranking-Faktoren eingebunden.

Habt ihr Anregungen, Kritik oder Hinweise zu den Ranking-Faktoren und Korrelationen? Wie findet ihr die Grafik? Ich freue mich über eure Meinung in den Kommentaren!