preguntar acerca de apache-spark-mllib

3
réponses

Quelle est la différence entre HashingTF et CountVectorizer dans Spark?

J'essaie de faire la classification doc dans Spark. Je ne suis pas sûr de ce que fait le hachage dans HashingTF; est-ce qu'il sacrifie une quelconque précision? J'en doute, mais je ne sais pas. L'étincelle doc dit qu'il utilise le "hachage truc"... j …
demandé sur 1970-01-01 00:33:36
3
réponses

Formation progressive du modèle de SLA

j'essaie de savoir s'il est possible d'avoir une "formation incrémentielle" sur les données en utilisant MLlib dans Apache Spark. ma plate-forme est prédiction IO, et c'est essentiellement une enveloppe pour Spark (MLlib), HBase, ElasticSearch et d …
demandé sur 1970-01-01 00:33:35
4
réponses

Traitement des ensembles de données déséquilibrés dans Spark MLlib

je travaille sur un problème de classification binaire particulier avec un ensemble de données fortement déséquilibré, et je me demandais si quelqu'un avait essayé de mettre en œuvre des techniques spécifiques pour traiter les ensembles de données dé …
demandé sur 1970-01-01 00:33:35
1
réponses

AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’

je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur 1970-01-01 00:33:36
2
réponses

Enregistrer le modèle ML pour une utilisation future

j'appliquais des algorithmes D'apprentissage automatique comme la régression linéaire, la régression logistique et Bayes naïve à certaines données, mais j'essayais d'éviter D'utiliser des RDDs et de commencer à utiliser des images de données parce qu …
demandé sur 1970-01-01 00:33:35