WDF*IDF

Was versteht man darunter?

Bei der WDF*IDF steht das Kürzel WDF für “Within document frequency“, während das IDF für „Inverse document frequency” steht. Der WDF IDF Wert ist eine Formel, bei der textliche Inhalte auf deren Relevanz im Verhältnis zu Inhalten von anderen Webseiten überprüft und bewertet werden.

Hierbei steht das WDF für die Analyse der Häufigkeit eines Keywords im Verhältnis zu allen anderen Keywords innerhalb eines Dokuments und klassifiziert diese nach deren Gewichtung. Daraus entnimmt man dann deren inhaltliche Relevanz.

Formel:

WDFi= log2(Freqi,j+ 1) / log2(L)

i = Keyword

j = Dokument

L= Anzahl der Wörter im Dokument

Freq (i,j)= Häufigkeit des Keywords i im Dokument j

Mit dem IDF wird die Häufigkeit eines Keywords im Content berechnet, im Verhältnis zu der Häufigkeit der Keywords innerhalb anderer Dokumente. Also die Keyword Dichte.

Formel:

IDFt= log (1 + ND/ ft)

ND = Anzahl aller überprüften Dokumente

ft = Anzahl der überprüften Dokumente die das Term t enthalten.

Wenn man beide Faktoren dann multipliziert, ergibt sich daraus die Gewichtung des Terms im Verhältnis zu allen anderen m