searchmetrics email facebook github gplus instagram linkedin phone rss twitter whatsapp youtube arrow-right chevron-up chevron-down chevron-left chevron-right clock close menu search
1126711267

Wie interpretiert Google heute Suchanfragen?

Nahezu jeder Suchterm basiert auf einer impliziten oder expliziten Fragestellung. In Zeiten von Voice Search und mobilen Endgeräten ist es für Google umso wichtiger, Suchanfragen und deren Nutzerintention bzw. deren Bedeutung so genau wie möglich zu identifizieren, um die individuell passenden Suchergebnisse auszugeben.

Dieser Experten-Beitrag von Olaf Kopp, Co-Founder, Head of SEO und Chief Business Development Officer (CBDO) der Aufgesang Inbound Marketing GmbH, ist der Auftakt für eine Artikelserie rund um Semantik und Machine Learning bei Google.

In einem Interview von 2009 sagte Ori Allon, damaliger technischer Leiter des Google Search Quality Teams in einem Interview mit IDG :

We’re working really hard at search quality to have a better understanding of the context of the query, of what is the query. The query isn’t the sum of all the terms. The query has a meaning behind it. For simple queries like ‚Britney Spears‘ and ‚Barack Obama‘ it’s pretty easy for us to rank the pages. But when the query is ‚What medication should I take after my eye surgery?‘, that’s much harder. We need to understand the meaning…

Im Kern möchte Google die Nutzerintention bzw. Suchintention identifizieren. Über die Suchintention an sich, als auch deren Identifikation aufgrund der SERPs habe ich den sehr ausführlichen (Achtung, Überlänge!) Beitrag Alle Infos zu den Keyword-Arten, Suchintention, Identifikation & Nutzerintention verfasst.

Wie identifiziert Google die Suchintention nun genau?

Dazu muss Google den Kontext ermitteln. Beim Kontext muss zwischen Suchanfragen-bezogenem Kontext wie Beziehung von Begriffen zueinander, Nutzer-Kontext wie Ort der Abfrage sowie Suchhistorie und thematischem Kontext unterschieden werden. Manche Kontext-Formen sind dynamisch und können sich mit der Zeit verändern. Über die Summe der Kontext-Formen lässt sich dann eine individuelle konkrete Nutzerintention pro Suchanfrage ableiten.

Dazu muss Google die folgende Fragen beantworten:

  1. Wo befindet sich der Nutzer?
  2. Welches Endgerät benutzt dieser?
  3. Für was hat sich der Nutzer in der Vergangenheit interessiert?
  4. Wie stehen die genutzten Terme in Verbindung zueinander?
  5. Kommen Entitäten in der Suchanfrage vor?
  6. In welchem thematischen Kontext werden die Terme verwendet?
  • Die ersten beiden Fragen kann Google über die Client-Informationen, GPS-Daten, IP-Adresse … schnell beantworten. Die dritte Frage lässt sich u.a. über die Suchhistorie, Klicks in den SERPs als auch das allgemeine Surfverhalten beantworten.
  • Bei den letzten Fragen, bei denen es um die eigentliche Bedeutung der Suchanfrage geht, ist die Frage allerdings nicht mehr so einfach zu beantworten.

Hier hat die Einführung von Rankbrain Google einen großen Schritt weiter gebracht.

Rankbrain bzw. Machine Learning für bessere Skalierung und Performance

Damit Google die Bedeutung von Suchtermen erkennen kann, muss eine Art semantisches Verständnis über statistische Methoden imitiert werden können. Dazu bedarf es zum einen einer Klassifizierung der Suchterme anhand von Kommentaren bzw. Anmerkungen, als auch einer thematischen Einordnung bisher unbekannter Terme. Aufgrund der großen Anzahl an täglichen Suchanfragen kann das nicht manuell geschehen, sondern muss aufgrund von Cluster-Analysen und automatischem Clustering durchführbar sein, damit Skalierbarkeit gewährleistet ist.

Dies kann Google seit der Einführung von Machine-Learning in Form von Rankbrain im Jahr 2015. Damit konnte Google das Spannungsfeld zwischen Skalierung und dem „nachgebauten“ semantischen Verständnis von Suchanfragen schließen.

Methoden zur Interpretation von Suchanfragen

Zur Interpretation der Suchanfragen nutzt Google sogenannte Verktorraum-Analysen, die die gestellte Suchanfrage als Vektor abbilden und in Beziehung zu weiteren Begriffen im Vektorraum stellen. Durch ähnliche Beziehungsmuster lassen sich dann auch für unbekannte Suchanfragen die Suchintention bzw. die Bedeutung identifizieren.

Hier scheinen Nutzersignale wie z.B. die Klickrate auf das einzelne Suchergebnis eine besondere Rolle zu spielen. Ich habe in zwei wissenschaftlichen Projekten, an denen Google-Mitarbeiter beteiligt waren, interessante Informationen dazu entdeckt, wie ein Algorithmus dazu funktionieren könnte.

In Learning from User Interactions in Personal Search via Attribute Parameterization wird beschrieben, wie Google über die Analyse des Nutzerverhaltens mit einzelnen Dokumenten semantische Attributs-Beziehungen zwischen Suchanfragen sowie den angeklickten Dokumenten herstellen und sogar einen selbstlernenden Ranking-Algorithmus unterstützen könnte:

Google: attribute aggregation and matching progress

„The case in private search is different. Users usually do not share documents (e.g., emails or personal files), and therefore directly aggregating interaction history across users becomes infeasible. To address this problem, instead of directly learning from user behavior for a given [query, doc] pair like in web search, we instead choose to represent documents and queries using semantically coherent attributes that are in some way indicative of their content.
This approach is schematically described in Figure 2. Both documents and queries are projected into an aggregated attribute space, and the matching is done through that intermediate representation, rather than directly. Since we assume that the attributes are semantically meaningful, we expect that similar personal documents and queries will share many of the same aggregate attributes, making the attribute level matches a useful feature in a learning-to-rank model.”

Eine weitere wissenschaftliche Arbeit aus dem Hause Google mit dem Titel „Improving semantic topic clustering for search queries with word co-occurrence and bipartite graph co-clustering“ gibt einige interessante Insights, wie Google heutzutage wahrscheinlich Suchanfragen in verschiedene thematische Bereiche einteilt.

In diesem Dokument werden zwei Methoden vorgestellt, die Google nutzt, um Suchanfragen kontextuell einzuordnen. Beim Word Co-occurrence Clustering spielen sogenannte Lift Scores eine zentrale Rolle:

Lift-Scrore Formel“Wi” steht in der Formel für alle Begriffe in engen Bezug zum Wortstamm stehen wie Fehlschreibweisen, Mehrzahl, Einzahl oder Synonyme.

“a” kann jegliche Nutzerinteraktion wie die Suche nach einem bestimmten Suchbegriff oder der Besuch einer bestimmten Seite sein.

Wenn der Lift-Score z.B. 5 ist, ist die Wahrscheinlichkeit, dass “Wi” gesucht wird, 5 mal so hoch als dass “Wi” generell gesucht wird.

„A large lift score helps us to construct topics around meaningful rather than uninteresting words. In practice the probabilities can be estimated using word frequency in Google search history within a recent time window.“

Über diesen Weg lassen sich dann Begriffe bestimmten Entitäten wie z.B. Mercedes und/oder bei Suchen nach Autoersatzteilen der thematischen Kontextklasse „Auto“ zugeordnet werden. Der Kontextklasse und/oder Entität können dann weiterhin Begriffe zugeordnet werden, die oft als Ko-Okkurenzen zu den Suchbegriffen vorkommen. So lässt sich auf schnellem Weg eine Begriffswolke zu einem bestimmten Thema aufbauen. Die Höhe des Lift Scores bestimmt die Affinität zum Thema:

„We use lift score to rank the words by importance and then threshold it to obtain a set of words highly associated with the context.“

Diese Methode kann insbesondere dann eingesetzt werden, wenn “Wi” bereits bekannt ist, wie z.B. bei Suchbegriffen nach bereits bekannten Marken oder Kategorien. Ist “Wi” nicht klar zu definieren, da die Suchbegriffe des gleichen Themas zu unterschiedlich sind, könnte sich Google einer zweiten Methode bedienen – dem „Weighted bigraph clustering“.

Diese Methode beruht auf zwei Annahmen.

  1. Nutzer mit der gleichen Absicht formulieren ihre Suchanfragen unterschiedlich. Dennoch werden von Suchmaschinen die gleichen Suchergebnisse ausgegeben.
  2. Umgekehrt werden zu einer Suchanfrage auf den ersten Suchergebnissen ähnliche URLs ausgegeben.

Bei dieser Methode werden die Suchbegriffe mit den Top-rankenden URLs verglichen und Anfrage / URL-Paare gebildet, deren Beziehung zusätzlich nach den Klickraten der Nutzer und Impressionen gewichtet werden.  Über diesen Weg lassen sich Ähnlichkeiten auch zwischen den Suchbegriffen herstellen, die nicht den gleichen Wortstamm besitzen und daraus semantische Cluster bilden.

Die Rolle von Entitäten bei der Interpretation von Suchanfragen

Google will herauszufinden, um welche Entität es sich bei einer Frage handelt.  Durch im Suchterm vorkommende Entitäten und den Relationskontext zwischen Entitäten kann Google die gesuchte Entität identifizieren. Die Suchanfrage „Wer ist der gründer von Adidas?“(explizite Fragestellung) und „Gründer Adidas“ (implizite Fragestellung) führt zu fast den gleichen Suchergebnissen:

"gründer adidas" SERPs im Vergleich

Auch wenn die Ergebnisse sich marginal unterscheiden erkennt Google, dass hier nach der Entität Adolf Dassler gesucht wird, obwohl der Name in der Suchanfrage nicht vorkommt. Dabei ist es egal, ob ich eine implizite Frage in Form des Suchterms „Gründer Adidas“ stelle oder eine explizite Frage. Die Entität „Adidas“ und der Relationskontext „Gründer“ reichen  dafür aus.

Irrtümlicherweise wird dieser Umstand auch gerne Rankbrain bzw. Machine-Learning-Technologien von Google zugeschrieben. Der Ursprung liegt aber in der Funktionaliät von Hummingbird im Zusammenspiel mit dem Knowledge Graph. Sprich, Google konnte das bereits auch vor Rankbrain.

Bereits 2009 führte Google erste semantische Technologien zur Interpretation von Suchtermen bzw. die Ausgabe der verwandten Suchanfragen ein. Der Erfinder dieser Technologie, Ori Allon, bereitete die Google-Nutzer aber schon damals auf weitergehende Auswirkungen der zugrundeliegenden Technologie auch auf das Ranking vor. Das Patent zu der von Allon entwickelten Technologie findest Du hier.

Das Patent beschäftigt sich in erster Linie mit der Interpretation von Suchanfragen sowie deren Verfeinerung und ist damit wohl die grundlegende Technologie, auf der später dann Rankbrain mit seinen Maschine-Learning-Technologien aufgesetzt wurde. Spätestens seitdem kann Google die semantische Interpretation der Suchanfragen über Machine Learning skalierbar durchführen.

Laut des Patents zu der eingesetzten Technologie bezieht sich die Verfeinerung der Suchanfrage auf bestimmte Entitäten, die in den zur Original-Suchanfrage oder Synonymen rankenden Dokumenten häufig zusammen vorkommen.

Das Problem dabei war in der Pre-Rankbrain-Zeit allerdings die fehlende Skalierbarkeit bei der Identifikation und Anlage von Entitäten im Knowledge Graph. Der Knowledge Graph basiert in erster Linie aus Informationen aus Wikidata, die durch Wikipedia-Entitäten verifiziert werden – also ein manuell gepflegtes und dadurch eher statisches und damit nicht skalierbares System.

“Wikipedia is often used as a benchmark for entity mapping systems . As described in Subsection 3.5 this leads to sufficiently good results, and we argue it would be surprising if further effort in this area would lead to reasonable gains.”
Quelle: From Freebase to Wikidata – The Great Migration

Google ist inzwischen sehr gut in der Interpretation von Suchanfragen

Es ist davon auszugehen, dass Google sich mindestens bereits seit 2007 mit der Entwicklung einer Suchmaschine auseinandersetzt, die Einflüsse aus der Semantik zum besseren Verständnis der Bedeutung von Suchanfragen und Dokumenten beinhaltet.

Stand heute scheint Google durch semantische Strukturen wie Knowledge Graph oder Machine Learning dem durch die ehemalige VP Marissa May formulierten Ziel sehr nahe zu sein: Weg von einer rein Keyword-basierten Suchmaschine zu einer konzeptionell bzw. kontextbasierten Suchmaschine.

„Right now, Google is really good with keywords and that’s a limitation we think the search engine should be able to overcome with time. People should be able to ask questions and we should understand their meaning, or they should be able to talk about things at a conceptual level. We see a lot of concept-based questions — not about what words will appear on the page but more like ‚what is this about?‘. “
Quelle: Google wants your Phonemes – Infoworld

Das ist auch höchste Zeit – wenn man bedenkt, dass die Voice Search auf dem weltweiten Vormarsch ist und die Komplexität der Suchanfragen dadurch immer größer wird.