preguntar acerca de apache-spark

5
réponses

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je veux définir un partitionneur personnalisé sur les DataFrames, dans Scala, mais je ne vois pas comment le faire. L'une des tables de données avec lesquelles je travaille contient …
demandé sur 1970-01-01 00:33:35
3
réponses

Apache Spark: carte vs mapPartitions?

Quelle est la différence entre un RDD l' map et mapPartitions méthode? Et flatMap se comporte - t-il comme map ou comme mapPartitions? Grâce. (modifier) c'est-à-dire quelle est la différence (sémantiquement ou en termes d'exécution) entre def m …
demandé sur 1970-01-01 00:33:34
8
réponses

Spark-charger le fichier CSV en tant que DataFrame?

Je voudrais lire un CSV dans spark et le convertir en DataFrame et le stocker dans HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai eu: java.lang.Runt …
demandé sur 1970-01-01 00:33:35
10
réponses

Charger le fichier CSV avec Spark

Je suis nouveau sur Spark et j'essaie de lire des données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que …
demandé sur 1970-01-01 00:33:35
3
réponses

Renommer les noms de colonnes d’un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFrame dans Spark-Scala. maintenant je viens avec code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.col …
demandé sur 1970-01-01 00:33:36
5
réponses

Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark

Je voudrais convertir une colonne de chaîne d'un dataframe en une liste. Ce que je peux trouver à partir de l'API Dataframe est RDD, j'ai donc essayé de le convertir en RDD en premier, puis d'appliquer la fonction toArray au RDD. Dans ce cas, la long …
demandé sur 1970-01-01 00:33:35
4
réponses

Mise à jour d’une colonne dataframe dans spark

En regardant la nouvelle api spark dataframe, on ne sait pas s'il est possible de modifier les colonnes dataframe. Comment pourrais-je changer une valeur dans la ligne x colonne y d'un dataframe? Dans pandas ce serait df.ix[x,y] = new_value Edit: …
demandé sur 1970-01-01 00:33:35
4
réponses

Comment réduire la verbosité de la sortie d’exécution de Spark?

Comment réduire la quantité d'informations de trace produites par Spark runtime? La valeur par défaut est trop détaillée, Comment l'éteindre, et l'allumer quand j'en ai besoin. Merci Mode verbeux scala> val la = sc.parallelize(List(12,4,5, …
demandé sur 1970-01-01 00:33:35
3
réponses

Quand les accumulateurs sont-ils vraiment fiables?

Je veux utiliser un accumulateur pour recueillir des statistiques sur les données que je manipule sur un travail Spark. Idéalement, je le ferais pendant que le travail calcule les transformations requises, mais puisque Spark recalculerait les tâches …
demandé sur 1970-01-01 00:33:35
6
réponses

Qu’est-ce que le mode yarn-client dans Spark?

Apache Spark a récemment mis à jour la version 0.8.1, dans laquelle le mode yarn-client est disponible. Ma question Est, qu'est-ce que le mode yarn-client signifie vraiment? Dans la documentation il est dit: Avec le mode yarn-client, l'applicatio …
demandé sur 1970-01-01 00:33:33