preguntar acerca de apache-spark

1
réponses

Comment puis-je me connecter à une base de données postgreSQL dans Apache Spark en utilisant scala?

Je veux savoir comment puis-je faire les choses suivantes dans scala? Se connecter à une base de données postgreSQL en utilisant Spark scala. écrire des requêtes SQL comme SELECT, UPDATE etc. pour modifier une table dans cette base de données. Je …
demandé sur 1970-01-01 00:33:34
2
réponses

Esprit soufflé: RDD.méthode zip ()

Je viens de découvert le RDD.zip() méthode et je ne peux pas imaginer ce que son contrat pourrait éventuellement être. Je comprends ce qu'il fait , bien sûr. Cependant, il a toujours été ma compréhension que l'ordre des éléments dans un RDD e …
demandé sur 1970-01-01 00:33:35
1
réponses

Quelle est la signification de «niveau de localité» sur le cluster Spark

Quelle est la signification du titre "niveau de localité" et des données d'état 5 local --> processus local --> nœud local --> rack local --> Tout? ... …
demandé sur 1970-01-01 00:33:34
3
réponses

Créer une nouvelle colonne avec la fonction dans Spark Dataframe

J'essaie de comprendre la nouvelle API dataframe dans Spark. cela semble être un bon pas en avant, mais avoir du mal à faire quelque chose qui devrait être assez simple. J'ai un dataframe avec 2 colonnes, "ID" et "Montant". Comme exemple générique …
demandé sur 1970-01-01 00:33:35
4
réponses

Convertir la chaîne pyspark au format de date

J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date. J'ai essayé: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() Et je reçois une chaîne de nulls. Que …
demandé sur 1970-01-01 00:33:36
2
réponses

Spark: soustraire deux DataFrames

Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contient les lignes de todaySchemRDD qui n'existent …
demandé sur 1970-01-01 00:33:35
2
réponses

Inclure des valeurs null dans une jointure Apache Spark

Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut. Voici le comportement D'étincelle par défaut. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") v …
demandé sur 1970-01-01 00:33:37
1
réponses

Aplatir les rangées dans Spark

Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant: Test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json") Comment puis-je le conve …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment puis-je trouver la taille D’un RDD

J'ai RDD[Row], qui doit être conservé dans un référentiel tiers. Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel. Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …
demandé sur 1970-01-01 00:33:35
3
réponses

Mode autonome Spark: comment compresser la sortie spark écrite sur HDFS

Lié à mon autre question, mais distinct: someMap.saveAsTextFile("hdfs://HOST:PORT/out") Si j'enregistre un RDD sur HDFS, Comment puis-je dire à spark de compresser la sortie avec gzip? Dans Hadoop, il est possible de définir mapred.output.compr …
demandé sur 1970-01-01 00:33:33