preguntar acerca de apache-spark
2
réponses
Scala Spark DataFrame: dataFrame.sélectionner plusieurs colonnes avec une séquence de noms de colonnes
val columnName=Seq("col1","col2",....."coln");
y a-t-il un moyen de faire le dataframe.sélectionnez opération pour obtenir dataframe contenant seulement les noms de colonne spécifiés .
Je sais que je peux faire dataframe.select("col1","col2"...)
m …
demandé sur
1970-01-01 00:33:36
5
réponses
Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche
j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode
df.saveAsTable(tablename,mode).
le code ci-dessus foncti …
demandé sur
1970-01-01 00:33:35
6
réponses
Meilleure façon de convertir un champ string en timestamp en Spark
j'ai un CSV dans lequel un champ est datetime dans un format spécifique. Je ne peux pas l'importer directement dans mon Dataframe car il doit être un timestamp. Donc je l'importe comme chaîne de caractères et le transforme en Timestamp comme ceci
im …
demandé sur
1970-01-01 00:33:35
6
réponses
Comment travailler efficacement avec SBT, Spark et les dépendances» fournies»?
je construis une application Apache Spark dans Scala et J'utilise SBT pour la construire. Voici la chose:
quand je développe sous IntelliJ IDEA, je veux que les dépendances à L'étincelle soient incluses dans le chemin de classe (je lance une applic …
demandé sur
1970-01-01 00:33:36
2
réponses
Comment mettre à jour un RDD?
nous sommes en train d'élaborer le cadre Spark dans lequel nous transférons les données historiques dans des ensembles de données de RDD.
fondamentalement, RDD est immuable, lire seulement ensemble de données sur lesquelles nous faisons des opératio …
demandé sur
1970-01-01 00:33:34
4
réponses
Traitement des ensembles de données déséquilibrés dans Spark MLlib
je travaille sur un problème de classification binaire particulier avec un ensemble de données fortement déséquilibré, et je me demandais si quelqu'un avait essayé de mettre en œuvre des techniques spécifiques pour traiter les ensembles de données dé …
demandé sur
1970-01-01 00:33:35
5
réponses
Comment puis-je itérer les RDD dans apache spark (scala)
j'utilise la commande suivante pour remplir un RDD avec un tas de tableaux contenant 2 chaînes ["filename", "content"].
maintenant je veux itérer sur chacune de ces occurrences pour faire quelque chose avec chaque nom de fichier et le contenu.
val …
demandé sur
1970-01-01 00:33:34
1
réponses
AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’
je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous:
from pyspark.mllib.clustering import KMeans
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur
1970-01-01 00:33:36
1
réponses
Filtre spark DataFrame sur la chaîne contient
j'utilise étincelle 1.3.0 et Spark Avro 1.0.0.
Je travaille à partir de l'exemple sur la page de référentiel. Ce code suivant fonctionne bien
val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avr …
demandé sur
1970-01-01 00:33:36
3
réponses
Comment écrire le RDD résultant dans un fichier csv en Python Spark
j'ai un résultat de RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). C'est la sortie dans ce format:
[(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]
ce que je veux c'est créer un fichier CSV avec une co …
demandé sur
1970-01-01 00:33:35