preguntar acerca de apache-spark-mllib
3
réponses
Quelle est la différence entre HashingTF et CountVectorizer dans Spark?
J'essaie de faire la classification doc dans Spark. Je ne suis pas sûr de ce que fait le hachage dans HashingTF; est-ce qu'il sacrifie une quelconque précision? J'en doute, mais je ne sais pas. L'étincelle doc dit qu'il utilise le "hachage truc"... j …
demandé sur
1970-01-01 00:33:36
3
réponses
Formation progressive du modèle de SLA
j'essaie de savoir s'il est possible d'avoir une "formation incrémentielle" sur les données en utilisant MLlib dans Apache Spark.
ma plate-forme est prédiction IO, et c'est essentiellement une enveloppe pour Spark (MLlib), HBase, ElasticSearch et d …
demandé sur
1970-01-01 00:33:35
4
réponses
Traitement des ensembles de données déséquilibrés dans Spark MLlib
je travaille sur un problème de classification binaire particulier avec un ensemble de données fortement déséquilibré, et je me demandais si quelqu'un avait essayé de mettre en œuvre des techniques spécifiques pour traiter les ensembles de données dé …
demandé sur
1970-01-01 00:33:35
1
réponses
AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’
je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous:
from pyspark.mllib.clustering import KMeans
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur
1970-01-01 00:33:36
2
réponses
Enregistrer le modèle ML pour une utilisation future
j'appliquais des algorithmes D'apprentissage automatique comme la régression linéaire, la régression logistique et Bayes naïve à certaines données, mais j'essayais d'éviter D'utiliser des RDDs et de commencer à utiliser des images de données parce qu …
demandé sur
1970-01-01 00:33:35