preguntar acerca de apache-spark
1
réponses
Comment puis-je me connecter à une base de données postgreSQL dans Apache Spark en utilisant scala?
Je veux savoir comment puis-je faire les choses suivantes dans scala?
Se connecter à une base de données postgreSQL en utilisant Spark scala.
écrire des requêtes SQL comme SELECT, UPDATE etc. pour modifier une table dans
cette base de données.
Je …
demandé sur
1970-01-01 00:33:34
2
réponses
Esprit soufflé: RDD.méthode zip ()
Je viens de découvert le RDD.zip() méthode et je ne peux pas imaginer ce que son contrat pourrait éventuellement être.
Je comprends ce qu'il fait , bien sûr. Cependant, il a toujours été ma compréhension que
l'ordre des éléments dans un RDD e …
demandé sur
1970-01-01 00:33:35
1
réponses
Quelle est la signification de «niveau de localité» sur le cluster Spark
Quelle est la signification du titre "niveau de localité" et des données d'état 5
local --> processus local --> nœud local --> rack local --> Tout?
... …
demandé sur
1970-01-01 00:33:34
3
réponses
Créer une nouvelle colonne avec la fonction dans Spark Dataframe
J'essaie de comprendre la nouvelle API dataframe dans Spark. cela semble être un bon pas en avant, mais avoir du mal à faire quelque chose qui devrait être assez simple. J'ai un dataframe avec 2 colonnes, "ID" et "Montant". Comme exemple générique …
demandé sur
1970-01-01 00:33:35
4
réponses
Convertir la chaîne pyspark au format de date
J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date.
J'ai essayé:
df.select(to_date(df.STRING_COLUMN).alias('new_date')).show()
Et je reçois une chaîne de nulls. Que …
demandé sur
1970-01-01 00:33:36
2
réponses
Spark: soustraire deux DataFrames
Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData contient les lignes de todaySchemRDD qui n'existent …
demandé sur
1970-01-01 00:33:35
2
réponses
Inclure des valeurs null dans une jointure Apache Spark
Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut.
Voici le comportement D'étincelle par défaut.
val numbersDf = Seq(
("123"),
("456"),
(null),
("")
).toDF("numbers")
v …
demandé sur
1970-01-01 00:33:37
1
réponses
Aplatir les rangées dans Spark
Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant:
Test.json:
{"a":1,"b":[2,3]}
val test = sqlContext.read.json("test.json")
Comment puis-je le conve …
demandé sur
1970-01-01 00:33:35
4
réponses
Comment puis-je trouver la taille D’un RDD
J'ai RDD[Row], qui doit être conservé dans un référentiel tiers.
Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel.
Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …
demandé sur
1970-01-01 00:33:35
3
réponses
Mode autonome Spark: comment compresser la sortie spark écrite sur HDFS
Lié à mon autre question, mais distinct:
someMap.saveAsTextFile("hdfs://HOST:PORT/out")
Si j'enregistre un RDD sur HDFS, Comment puis-je dire à spark de compresser la sortie avec gzip?
Dans Hadoop, il est possible de définir
mapred.output.compr …
demandé sur
1970-01-01 00:33:33