preguntar acerca de apache-spark

Question

1

réponses

Comment puis-je me connecter à une base de données postgreSQL dans Apache Spark en utilisant scala?

Je veux savoir comment puis-je faire les choses suivantes dans scala? Se connecter à une base de données postgreSQL en utilisant Spark scala. écrire des requêtes SQL comme SELECT, UPDATE etc. pour modifier une table dans cette base de données. Je …

apache-spark psql scala

demandé sur 1970-01-01 00:33:34

2

réponses

Esprit soufflé: RDD.méthode zip ()

Je viens de découvert le RDD.zip() méthode et je ne peux pas imaginer ce que son contrat pourrait éventuellement être. Je comprends ce qu'il fait , bien sûr. Cependant, il a toujours été ma compréhension que l'ordre des éléments dans un RDD e …

apache-spark

demandé sur 1970-01-01 00:33:35

1

réponses

Quelle est la signification de «niveau de localité» sur le cluster Spark

Quelle est la signification du titre "niveau de localité" et des données d'état 5 local --> processus local --> nœud local --> rack local --> Tout? ... …

apache-spark cluster-computing

demandé sur 1970-01-01 00:33:34

3

réponses

Créer une nouvelle colonne avec la fonction dans Spark Dataframe

J'essaie de comprendre la nouvelle API dataframe dans Spark. cela semble être un bon pas en avant, mais avoir du mal à faire quelque chose qui devrait être assez simple. J'ai un dataframe avec 2 colonnes, "ID" et "Montant". Comme exemple générique …

apache-spark dataframe scala

demandé sur 1970-01-01 00:33:35

4

réponses

Convertir la chaîne pyspark au format de date

J'ai un dataframe date pyspark avec une colonne de chaîne au format MM-dd-yyyy et j'essaie de le convertir en une colonne de date. J'ai essayé: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() Et je reçois une chaîne de nulls. Que …

apache-spark apache-spark-sql pyspark pyspark-sql

demandé sur 1970-01-01 00:33:36

2

réponses

Spark: soustraire deux DataFrames

Spark version 1.2.0 on pourrait utiliser subtract 2 SchemRDDs terminer avec seulement le contenu différent de la première val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contient les lignes de todaySchemRDD qui n'existent …

apache-spark dataframe rdd

demandé sur 1970-01-01 00:33:35

2

réponses

Inclure des valeurs null dans une jointure Apache Spark

Je voudrais inclure des valeurs null dans une jointure Apache Spark. Spark n'inclut pas les lignes avec null par défaut. Voici le comportement D'étincelle par défaut. val numbersDf = Seq( ("123"), ("456"), (null), ("") ).toDF("numbers") v …

apache-spark apache-spark-sql join scala sql

demandé sur 1970-01-01 00:33:37

1

réponses

Aplatir les rangées dans Spark

Je fais des tests pour spark en utilisant scala. Nous lisons généralement les fichiers json qui doivent être manipulés comme l'exemple suivant: Test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json") Comment puis-je le conve …

apache-spark apache-spark-sql distributed-computing scala

demandé sur 1970-01-01 00:33:35

4

réponses

Comment puis-je trouver la taille D’un RDD

J'ai RDD[Row], qui doit être conservé dans un référentiel tiers. Mais ce référentiel tiers accepte un maximum de 5 Mo en un seul appel. Je veux donc créer une partition en fonction de la taille des données présentes dans RDD et non en fonction du no …

apache-spark apache-spark-sql

demandé sur 1970-01-01 00:33:35

3

réponses

Mode autonome Spark: comment compresser la sortie spark écrite sur HDFS

Lié à mon autre question, mais distinct: someMap.saveAsTextFile("hdfs://HOST:PORT/out") Si j'enregistre un RDD sur HDFS, Comment puis-je dire à spark de compresser la sortie avec gzip? Dans Hadoop, il est possible de définir mapred.output.compr …

apache-spark compression hdfs scala

demandé sur 1970-01-01 00:33:33

1
2
3
4
5
6

Las etiquetas más populares

preguntar acerca de apache-spark