preguntar acerca de tf-idf

1
réponses

Utilisation de la transformation TfidfVectorizer de Sklearn

J'essaie d'obtenir le vecteur TF-idf pour un seul document en utilisant L'objet TfidfVectorizer de Sklearn. Je crée un vocabulaire basé sur certains documents de formation et utilise fit_transform pour former le TfidfVectorizer. Ensuite, je veux trou …
demandé sur 1970-01-01 00:33:33
2
réponses

Pourquoi le log est-il utilisé pour calculer le poids de fréquence de terme et IDF, inverse la fréquence de document?

la formule pour IDF est log (N / df t ) au lieu de Juste N / DF T. Où N = nombre total de documents dans la collection, et df t = fréquence des documents du terme t on dit que la bûche est utilisée parce qu'elle "amortit" l'effet des FDI. Qu'est- …
demandé sur 1970-01-01 00:33:34
5
réponses

Cosine similarity et tf-idf

je suis déconcerté par le commentaire suivant au sujet de TF-IDF et Cosinus Similar. j'étais en train de lire sur les deux et puis sur wiki sous Cosine Similarity je trouve cette phrase "en cas de recherche d'information, la similarité cosine de …
demandé sur 1970-01-01 00:33:31
5
réponses

Simple implémentation de la similarité n-Gram, TF-idf et cosinus en Python

je dois comparer des documents stockés dans un DB et trouver un score de similarité entre 0 et 1. la méthode que je dois utiliser doit être très simple. Mise en œuvre d'une version vanille de n-grammes (où il est possible de définir combien …
demandé sur 1970-01-01 00:33:30
1
réponses

TF * IDF pour les requêtes de recherche

Ok, donc j'ai suivi ces deux messages sur TF * IDF mais je suis un peu confus: http://css.dzone.com/articles/machine-learning-text-feature fondamentalement, je veux créer une requête de recherche qui contient des recherches à travers p …
demandé sur 1970-01-01 00:33:32
2
réponses

tf-idf fonction de poids en utilisant des sklearn.extraction de caractéristiques.texte.TfidfVectorizer

cette page: http://scikit-learn.org/stable/modules/feature_extraction.html mentions: comme tf–idf est un très souvent utilisé pour les traits de texte, il y a aussi une autre classe appelée TfidfVectorizer qui combine toutes le …
demandé sur 1970-01-01 00:33:34
6
réponses

Python: tf-idf-cosine: pour trouver la similarité des documents

je suivais un tutoriel qui était disponible sur Part 1 & Part 2 . Malheureusement, l'auteur n'a pas eu le temps pour la dernière section, qui consistait à utiliser la similarité cosinus pour trouver la distance entre deux documents. J'ai su …
demandé sur 1970-01-01 00:33:32
7
réponses

Comment calculer la similitude cosinus de deux vecteurs?

Comment trouver la similitude de cosinus entre les vecteurs? je dois trouver la similitude pour mesurer la parenté entre deux lignes de texte. Par exemple, j'ai deux phrases comme: système d'interface utilisateur …
demandé sur 1970-01-01 00:33:29