preguntar acerca de data-mining

11
réponses

Quelle est la différence entre la régression linéaire et la régression logistique?

Lorsque nous avons à prédire la valeur d'un catégorique (ou discrètes) résultat nous utilisons régression logistique. Je crois que nous utilisons régression linéaire pour prédire également la valeur d'un résultat compte tenu des valeurs d'entrée. A …
demandé sur 1970-01-01 00:33:32
6
réponses

Comment extraire les mots clés utilisés dans le texte? [fermé]

Comment puis-je extraire des données sur une pile de texte pour obtenir des mots-clés par utilisation? ("Jacob Smith" ou "clôture") Et Existe-t-il un logiciel pour le faire déjà? même semi-automatiquement, et s'il peut filtrer des mots simples comme …
demandé sur 1970-01-01 00:33:29
6
réponses

Implémentation Python de L’algorithme optique (Clustering)

Je cherche une implémentation décente de l'algorithme OPTICS en Python. Je vais l'utiliser pour former des groupes de points basés sur la densité (paires(x,y)). Je cherche quelque chose qui prend des paires (x,y) et génère une liste de clusters, où …
demandé sur 1970-01-01 00:33:31
4
réponses

Détection des valeurs aberrantes dans l’exploration de données [fermé]

j'ai quelques questions concernant la détection des valeurs aberrantes: pouvons-nous trouver des valeurs aberrantes en utilisant k-means et est-ce une bonne approche? Existe-t-il un algorithme de regroupement qui n'accepte aucune entrée de l'utilis …
demandé sur 1970-01-01 00:33:31
2
réponses

Analyse Matlab-PCA et reconstruction de données multidimensionnelles

j'ai un grand ensemble de données multidimensionnelles(132 dimensions). je suis un débutant dans l'exploration de données et je veux appliquer L'analyse des composants principaux en utilisant Matlab. Cependant, j'ai vu qu'il y a beaucoup de fonctio …
demandé sur 1970-01-01 00:33:32
3
réponses

De meilleurs documents textuels que TF / idf et cosine similarity?

j'essaie de regrouper le flux Twitter. Je veux mettre chaque tweet à un cluster qui parlent du même sujet. J'ai essayé de regrouper le flux en utilisant un algorithme de regroupement en ligne avec TF/idf et la similarité de cosinus mais j'ai trouvé q …
demandé sur 1970-01-01 00:33:33
5
réponses

Comment effectuer le regroupement K-means sur des données de séries chronologiques?

Comment puis-je faire K-means clustering de données de séries chronologiques? Je comprends comment cela fonctionne lorsque les données d'entrée sont un ensemble de points, mais je ne sais pas comment regrouper une série temporelle avec 1XM, où M est …
demandé sur 1970-01-01 00:33:30
3
réponses

Scikit-Learn: prévoir de nouveaux points avec DBSCAN

j'utilise DBSCAN pour regrouper certaines données en utilisant Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) cependant, j'ai trouvé qu'il n'y avait pas de fonction intégrée (à part "fi …
demandé sur 1970-01-01 00:33:35
4
réponses

Meilleur algorithme de regroupement? (expliquée simplement)

Imaginez le problème suivant: vous avez une base de données contenant environ 20.000 textes dans un tableau appelé "articles" vous voulez connecter les articles apparentés en utilisant un algorithme de regroupement afin d'afficher les articles appa …
demandé sur 1970-01-01 00:33:29
4
réponses

Fonction de coût pour la régression logistique

dans les modèles des moindres carrés, la fonction de coût est définie comme le carré de la différence entre la valeur prévue et la valeur réelle en fonction de l'intrant. quand nous faisons une régression logistique, nous changeons la fonction de co …
demandé sur 1970-01-01 00:33:32