preguntar acerca de text-mining

7
réponses

Qu’est-ce que «entropie et gain d’information»?

Je lis ce livre ( NLTK) et c'est déroutant. Entropie est définie comme: Entropie est la somme de la probabilité de chaque étiquette fois la probabilité logarithmique de cette même étiquette Comment entropie et maximum d'entropie, en termes …
demandé sur 1970-01-01 00:33:29
1
réponses

Utilisation de la transformation TfidfVectorizer de Sklearn

J'essaie d'obtenir le vecteur TF-idf pour un seul document en utilisant L'objet TfidfVectorizer de Sklearn. Je crée un vocabulaire basé sur certains documents de formation et utilise fit_transform pour former le TfidfVectorizer. Ensuite, je veux trou …
demandé sur 1970-01-01 00:33:33
3
réponses

Comment calculer TF * IDF pour qu’un seul nouveau document soit classé?

j'utilise des vecteurs document-terme pour représenter une collection de documents. J'utilise TF*IDF pour calculer le poids du terme pour chaque vecteur de document. Je pourrais alors utiliser cette matrice pour former un modèle de classification de …
demandé sur 1970-01-01 00:33:34
3
réponses

De meilleurs documents textuels que TF / idf et cosine similarity?

j'essaie de regrouper le flux Twitter. Je veux mettre chaque tweet à un cluster qui parlent du même sujet. J'ai essayé de regrouper le flux en utilisant un algorithme de regroupement en ligne avec TF/idf et la similarité de cosinus mais j'ai trouvé q …
demandé sur 1970-01-01 00:33:33
4
réponses

Meilleur algorithme de regroupement? (expliquée simplement)

Imaginez le problème suivant: vous avez une base de données contenant environ 20.000 textes dans un tableau appelé "articles" vous voulez connecter les articles apparentés en utilisant un algorithme de regroupement afin d'afficher les articles appa …
demandé sur 1970-01-01 00:33:29
6
réponses

Détecter le langage de texte en R

en R j'ai une liste de tweets et je voudrais garder seulement ceux qui sont en anglais. je me demandais si l'un de vous connais un paquet R qui fournit un moyen simple d'identifier la langue d'une chaîne. Cheers, z ... …
demandé sur 1970-01-01 00:33:31
13
réponses

R Paquet tm entrée invalide dans ‘utf8towcs’

j'essaye d'utiliser le paquet tm dans R pour effectuer une analyse de texte. J'ai fait le lien suivant: require(tm) dataSet <- Corpus(DirSource('tmp/')) dataSet <- tm_map(dataSet, tolower) Error in FUN(X[[6L]], ...) : invalid input 'RT @ …
demandé sur 1970-01-01 00:33:32
5
réponses

Y a-t-il des API pour l’analyse de texte/extraction en Java? [fermé]

je veux savoir s'il y a une API pour faire l'analyse de texte en Java. Quelque chose qui peut extraire tous les mots d'un texte, des mots séparés, des expressions, etc. Quelque chose qui peut informer si un mot est un nombre, date, année, nom, monna …
demandé sur 1970-01-01 00:33:31
7
réponses

Trouver les Phrases de mots 2 et 3 en utilisant le paquet TM

j'essaie de trouver un code qui fonctionne réellement pour trouver les phrases de deux et trois mots les plus fréquemment utilisées dans R text mining package (peut-être qu'il y a un autre package que je ne connais pas). J'ai essayé d'utiliser le gén …
demandé sur 1970-01-01 00:33:32