Pourquoi le log est-il utilisé pour calculer le poids de fréquence de terme et IDF, inverse la fréquence de document?

la formule pour IDF est log (N / df t ) au lieu de Juste N / DF T.

Où N = nombre total de documents dans la collection, et df t = fréquence des documents du terme t

on dit que la bûche est utilisée parce qu'elle "amortit" l'effet des FDI. Qu'est-ce que cela signifie?

en outre, Pourquoi utilisons-nous la pesée de fréquence logarithmique pour la fréquence terme comme on le voit ici:

enter image description here

25
demandé sur stevetronix 2014-11-21 21:33:38
la source

2 ответов

la réponse de Debasis est correcte. Je ne suis pas sûr de savoir pourquoi il a obtenu downvote.

Voici l'intuition: Si la fréquence de terme pour le mot "ordinateur" dans doc1 est 10 et doc2 est 20, nous pouvons dire que doc2 est plus pertinent que doc1 pour le mot "ordinateur".

cependant, si le terme fréquence du même mot, "ordinateur" pour doc1 est de 1 million et doc2 est de 2 millions, à ce point, il n'y a pas beaucoup de différence en terme de pertinent plus parce qu'ils contiennent tous les deux un nombre très élevé pour terme "computer".

tout comme la réponse de Debasis, l'ajout de log est d'atténuer l'importance de terme qui a une haute fréquence, par exemple en utilisant la base de log 2, le compte de 1 million sera réduit à 19,9!

on ajoute aussi 1 au log (tf) parce que quand tf est égal à 1, le log(1) est zéro. en en ajoutant un, nous distinguons tf=0 et tf=1.

Espérons que cette aide!

30
répondu suthee 2015-10-30 09:21:19
la source

il n'est pas nécessairement le cas que plus l'occurrence d'un terme dans un document Plus est la pertinence... la contribution de la fréquence des termes à la documentation de la pertinence est essentiellement une fonction sous-linéaire... donc le journal de rapprocher cette sous-fonction linéaire...

il en va de même pour les idf... une fonction linéaire de Tsahal peut augmenter trop les notes du document avec des termes de Tsahal élevés (qui pourraient être des termes rares en raison de fautes d'orthographe)... un sublinéaire fonction effectue beaucoup mieux...

20
répondu Debasis 2014-11-24 12:09:17
la source

Autres questions sur