preguntar acerca de apache-spark

2
réponses

Scala Spark DataFrame: dataFrame.sélectionner plusieurs colonnes avec une séquence de noms de colonnes

val columnName=Seq("col1","col2",....."coln"); y a-t-il un moyen de faire le dataframe.sélectionnez opération pour obtenir dataframe contenant seulement les noms de colonne spécifiés . Je sais que je peux faire dataframe.select("col1","col2"...) m …
demandé sur 1970-01-01 00:33:36
5
réponses

Enregistrez la base de données Spark comme table de partitionnement dynamique dans la ruche

j'ai un exemple d'application qui fonctionne pour lire des fichiers csv dans une base de données. La dataframe peut être stockée sur une table ruche au format parquet en utilisant la méthode df.saveAsTable(tablename,mode). le code ci-dessus foncti …
demandé sur 1970-01-01 00:33:35
6
réponses

Meilleure façon de convertir un champ string en timestamp en Spark

j'ai un CSV dans lequel un champ est datetime dans un format spécifique. Je ne peux pas l'importer directement dans mon Dataframe car il doit être un timestamp. Donc je l'importe comme chaîne de caractères et le transforme en Timestamp comme ceci im …
demandé sur 1970-01-01 00:33:35
6
réponses

Comment travailler efficacement avec SBT, Spark et les dépendances» fournies»?

je construis une application Apache Spark dans Scala et J'utilise SBT pour la construire. Voici la chose: quand je développe sous IntelliJ IDEA, je veux que les dépendances à L'étincelle soient incluses dans le chemin de classe (je lance une applic …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment mettre à jour un RDD?

nous sommes en train d'élaborer le cadre Spark dans lequel nous transférons les données historiques dans des ensembles de données de RDD. fondamentalement, RDD est immuable, lire seulement ensemble de données sur lesquelles nous faisons des opératio …
demandé sur 1970-01-01 00:33:34
4
réponses

Traitement des ensembles de données déséquilibrés dans Spark MLlib

je travaille sur un problème de classification binaire particulier avec un ensemble de données fortement déséquilibré, et je me demandais si quelqu'un avait essayé de mettre en œuvre des techniques spécifiques pour traiter les ensembles de données dé …
demandé sur 1970-01-01 00:33:35
5
réponses

Comment puis-je itérer les RDD dans apache spark (scala)

j'utilise la commande suivante pour remplir un RDD avec un tas de tableaux contenant 2 chaînes ["filename", "content"]. maintenant je veux itérer sur chacune de ces occurrences pour faire quelque chose avec chaque nom de fichier et le contenu. val …
demandé sur 1970-01-01 00:33:34
1
réponses

AttributeError: l’objet ‘DataFrame’ n’a pas d’attribut ‘map’

je voulais convertir le cadre de données spark pour ajouter en utilisant le code ci-dessous: from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c i …
demandé sur 1970-01-01 00:33:36
1
réponses

Filtre spark DataFrame sur la chaîne contient

j'utilise étincelle 1.3.0 et Spark Avro 1.0.0. Je travaille à partir de l'exemple sur la page de référentiel. Ce code suivant fonctionne bien val df = sqlContext.read.avro("src/test/resources/episodes.avro") df.filter("doctor > 5").write.avr …
demandé sur 1970-01-01 00:33:36
3
réponses

Comment écrire le RDD résultant dans un fichier csv en Python Spark

j'ai un résultat de RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). C'est la sortie dans ce format: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] ce que je veux c'est créer un fichier CSV avec une co …
demandé sur 1970-01-01 00:33:35