WDF*IDF: Within-Document-Frequency*Inverse-Document-Frequency
An der WDF*IDF Analyse scheiden sich die Geister. Die einen halten es für DAS Instrument für suchmaschinenoptimierte Texte, die anderen schütteln den Kopf über eine mathematische Formel, die den gesunden Texter-Verstand bevormunden soll. Dabei ist es mit der WDF*IDF Analyse genauso wie mit den meisten menschlichen Weisheiten: Gut angewendet, nutzt sie. Fanatismus schadet. Und noch besser: Verbindet man die WDF*IDF Analyse mit einer reiflichen Überlegung über Suchworte und der Intention des Suchenden, ist man den Kriterien eines suchmaschinenoptimierten Textes schon dicht auf den Fersen.
Inhaltsverzeichnis
WDF*IDF steht für: Woher-Dies-Faktum*Ist-Die-Frage
Nein, Karl Kratz hat die WDF*IDF Formel nicht erfunden. Auch nicht die Schweiz. Es stammt ursprünglich von Wissenschaftlern wie Cyril Cleverdon, Karen Spärck Jones, Gerard Salton, C. Buckley und Donna Harmann, von denen jeder auf verschiedene Weise an einem mathematischen Modell arbeitete, mit dem es möglich sein sollte, maschinell den Sinn eines Textes zu erfassen. Sie alle haben an der Aufstellung einer Formel, eines Algorithmus’, gearbeitet, der bestimmte Terme und vor allem die Termgewichtung in einem Dokument bestimmbar macht. Der Name Karl Kratz darf aber keineswegs ungenannt bleiben, wenn es um den Zusammenhang von WDF*IDF-Analyse und Suchmaschinenoptimierung geht. Kratz hat in einem wegweisenden Artikel die WDF*IDF Analyse vorgestellt und sie als wichtiges Instrument für suchmaschinenoptimierte Texte gekennzeichnet – und vor allem herausgearbeitet, dass diese Form der Textanalyse weitaus sinnvoller ist als die bis dato gängige Methode der Bestimmung der Keyworddichte (“keyword density”). Auf Grund seines Artikels wurde das Ganze in SEO-Kreisen äußerst populär – und umstritten.
WDF*IDF steht für: Wie-Das-Funktioniert*Ist-Doch-Fein
WDF*IDF einfach erklärt? Kein Problem! Niemand muss sich durch die oben verlinkten Fachtexte wühlen, ja noch nicht einmal den Artikel von Karl Kratz durcharbeiten, um die Funktion der WDF*IDF Analyse zu verstehen und abzuschätzen, wie sinnvoll das Ganze ist.
WDF*IDF einfach erklärt: Eine Suchmaschine wie Google muss in der Lage sein, zu erkennen, welchen Inhalts eine Website ist und ob sie für die Beantwortung einer bestimmten Suchanfrage relevant sein könnte. Die Suchmaschine möchte Internetseiten anzeigen, die ein bestimmten Thema behandeln. Das Thema soll einerseits detailliert und tiefgründig dargestellt sein, andererseits ist “Holismus” für Google & Co. ein Rankingfaktor. Das heißt, dass ein Gegenstand “ganzheitlich” dargestellt werden soll, also mit möglichst vielen kleinen untergeordneten Themen drum herum, die für das große Thema von Bedeutung sind und Einfluss auf es nehmen. Und gerade an dieser Stelle kommt die WDF*IDF-Analyse ins Spiel. Denn sie misst nicht nur, wie oft in einem Dokument ein Keyword vorkommt (die “Within-Document-Frequency”). Sie misst außerdem auch die Häufigkeit aller themenrelevanten Keywords. Woher weiß die WDF*IDF-Analyse, welche themenrelevanten Keywords es gibt? Je nachdem, welches WDF*IDF Tool Sie nutzen, wird eine Anzahl von Dokumenten ausgewertet, die Sie selbst mit Ihrem suchmaschinenoptimierten Text “überholen” möchten: Es sind schlichtweg die Dokumente, die auf den Suchergebnisseiten (SERPs) am besten ranken – also wahlweise die ersten zehn Ergebnisse der SERPs oder auch die ersten zwanzig. Ein sehr gutes WDF*IDF Tool kann die Seiten auslesen, die wichtigen Terme herausfiltern und ihre Häufigkeit als Durchschnittswert angeben (die “Inverse-Document-Frequency”). Dazu lässt die Analyse die sogenannten “Stopp-Wörter” weg, also Aller-Welts-Begriffe wie “und”, “er”, “ein” und so fort. Mit einem guten Tool können Sie bestimmen, ob der Durchschnittswert von allen Seiten in die Analyse einbezogen werden soll. Hat nun eine einzige Seite ein Wort in bestimmter Häufigkeit, dann wird Ihnen als Texter vorgeschlagen werden, es ebenfalls zu “bespielen”. Vielleicht haben Sie aber auch ein Tool mit einer Filterfunktion. Dann können Sie festlegen, dass ein Begriff nur dann von Bedeutung sein soll, wenn er mindestens auf zwei der Seiten vorkommt, oder auf drei, … oder auf allen.
Plaudern aus dem Nähkästchen:
Unser eigenes WDF*IDF Tool hat einen Schieberegler. Mit ihm kann ich festlegen, ob ein bestimmtes Wort, auf einer, auf einigen oder auf allen Seiten vorkommen muss, um als Hinweis für mich selbst zu gelten. Ich kann nun an diesem Regler schieben und sehr interessante Veränderungen und Verschiebungen beobachten. Die häufigste Einstellung, die ich wähle, ist die von mindestens fünf Seiten, die das themenrelevante Wort enthalten müssen. Außerdem kann ich einstellen, dass ich auch ganze Wortgruppen angezeigt bekomme. Und ich kann zwischen einem “strengen” und einem “normalen” Stoppwort-Filter wählen.
Was macht die WDF*IDF-Analyse wirklich sinnvoll?
Eines der wichtigsten Argumente, die für die Benutzung einer WDF*IDF-Analyse spricht, habe ich bisher verschwiegen: Sie gibt Auskunft über die Länge, die ein Text haben sollte, wenn er konkurrenzfähig sein soll. Da die Analyse einen Überblick über die best-rankenden Dokumente gibt, sieht der Suchmaschinenoptimierer auf einen Blick, welche Länge die Texte im Durchschnitt haben. Die durchschnittliche Wortanzahl sollte möglichst nicht unterschritten, gerne aber überboten werden. Die Analyse zählt übrigens – genau wie die Suchmaschinen selbst – alle Wörter auf einer Internetseite, einschließlich Header, Footer und Navigation. Wer für den eigenen Text nun einen Editor, der in die WDF*IDF integriert ist, nutzt, kann eine Beispielseite hochladen und hat so das “Grundgerüst” an Wörtern, in welches sein Text später eingebettet wird.
Ein weiteres wichtiges Argument, das für die Nutzung eines WDF*IDF-Tools spricht, ist, dass es dabei hilft, eine “Überoptimierung” zu vermeiden.
Beispiel: Sie schreiben einen Text zu einem bestimmten Thema und nutzen das wichtigste Keyword häufiger als die Konkurrenzseiten: Sie könnten nun Gefahr laufen, von Suchmaschinen als “Spam” identifiziert zu werden.
Beispiel: Sie schreiben über ein bestimmtes Thema, sagen wir “Software Testing” und benutzen zur Freude der Leser eine elaborierte Metaphorik, die die Bilder eines spannenden Autorennens aufruft. Die WDF*IDF-Analyse hilft Ihnen nun dabei, zu vermeiden, dass Suchmaschinen irregeführt werden und Ihren Text für “Autorennen” und nicht für “Software Testing” ranken lassen. Die Suchmaschine muss also verstehen, dass Ihr Text für den Suchbegriff “Software Testing” Relevanz besitzt, nicht jedoch für den Begriff “Autorennen”.
Sie sollten die Analyse auch als Inspirationsquelle nutzen. Mit den themenrelevanten Keywords, die sie ausspuckt, können Sie neue Unterkapitel kreieren. Sie haben dann:
- mehr themenrelevante Keywords abgegrast
- ein Thema holistisch(er) abgebildet
- die Textlänge erhöht
Der Weisheit letzter Schluss?
WDF*IDF ist nur dann sinnvoll, wenn Ihr Text insgesamt ein guter Text ist. Sie können nicht einfach irgendetwas schreiben und dann die Keywords und themenrelevanten Keywords hineinpflastern und erwarten, dass der Text gut rankt. Aber Sie können Ihren Text mit Hilfe der Analyse deutlich aufwerten. Sie sollten dabei beachten:
- nicht die Keywords und themenrelevanten Keywords in einem einzelnen Textabschnitt unterbringen: Suchmaschinen “merken”, wenn einzelne Absätze “gestufft” sind und sehr viele Terme mit Relevanz enthalten
- Der wichtigste Suchbegriff, auf den Sie optimieren möchten, sollte in der ersten Überschrift und in den ersten 150 Wörtern des Textes vorkommen
- Suchen Sie noch ein Thema / einen Themenbereich, den die konkurrierenden Dokumente nicht abdecken: Bieten Sie den viel zitierten Mehrwert!
Nutzen Sie die WDF*IDF dazu, die Suchintention Ihrer Zielgruppe zu verstehen! Suchen diese einen Service, ein konkretes Angebot oder lediglich Informationen? Nutzen Sie die Berechnung der WDF*IDF Formel, um Ihr Dokument und das Verhältnis seiner Terme auf die Suchintention der potentiellen Leser abzustimmen. Ignorieren Sie ruhigen Gewissens einen Term, wenn er Teil eines Dokuments ist, das eine ganz andere Suchintention bedient.
Berechnung qua Formel ist gut – Berechnung ohne gesunden Menschenverstand = Blödsinn