preguntar acerca de bigdata
22
réponses
Requête Elasticsearch pour renvoyer tous les enregistrements
J'ai une petite base de données dans Elasticsearch et à des fins de test, j'aimerais récupérer tous les enregistrements. Je suis d'essayer d'utiliser une URL de la forme...
http://localhost:9200/foo/_search?pretty=true&q={'matchAll':{''}}
Que …
demandé sur
1970-01-01 00:33:32
2
réponses
Spark RDD — comment fonctionnent-ils
J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur
1970-01-01 00:33:34
1
réponses
Comment réaliser plusieurs DataFrames pandas en une seule dataframe dask plus grande que la mémoire?
j'analyse des données délimitées par tabulations pour créer des données tabulaires, que j'aimerais stocker dans un HDF5.
mon problème est que je dois regrouper les données dans un format, puis les transférer dans HDF5. Il s'agit de données de taill …
demandé sur
1970-01-01 00:33:36
7
réponses
Comment convertir un fichier csv en parquet
Je suis nouveau à BigData.J'ai besoin de convertir un fichier csv/txt au format Parquet. J'ai beaucoup cherché mais impossible de trouver une quelconque façon de le faire. Est-il un moyen d'y parvenir?
... …
demandé sur
1970-01-01 00:33:34
5
réponses
Quelle est la différence entre Apache Pig et Apache Hive?
Quelle est la différence exacte entre le porc et la ruche? J'ai découvert que les deux ont la même signification fonctionnelle parce qu'ils sont utilisés pour faire le même travail. La seule chose est l'implimentation qui est différente pour les deux …
demandé sur
1970-01-01 00:33:32
9
réponses
est-il possible d’importer un fichier json(contient 100 documents) dans elasticsearch serveur.?
y a-t-il un moyen d'importer un fichier JSON (contient 100 documents) dans elasticsearch server? Je veux importer un gros fichier json en es-serveur..
... …
demandé sur
1970-01-01 00:33:33
11
réponses
Hbase compte rapidement le nombre de rangées
en ce moment je implémente le nombre de lignes sur ResultScanner comme ceci
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
si les données atteignent des millions, l'informatique temporelle est grande.Je veux c …
demandé sur
1970-01-01 00:33:32
2
réponses
Comment créer une grande pandas dataframe partir d’une requête sql sans manquer de mémoire?
j'ai du mal à interroger une table de plus de 5 millions d'enregistrements de ma base de données de serveur MS SQL. Je veux être capable de sélectionner tous les enregistrements, mais mon code semble échouer lors de la sélection de beaucoup de donné …
demandé sur
1970-01-01 00:33:33
3
réponses
Comment le planificateur Apache Spark scheduler divise-t-il les fichiers en tâches?
dans spark-summit 2014, Aaron donne la parole une compréhension plus profonde de Spark internes , dans sa diapositive, page 17 montrer une étape a été divisé en 4 tâches comme ci-dessous:
ici, je veux savoir trois choses sur la f …
demandé sur
1970-01-01 00:33:35
2
réponses
Travailler avec le big data en python et numpy, pas assez de ram, comment sauvegarder des résultats partiels sur disque?
j'essaie d'implémenter des algorithmes pour des données à 1000 dimensions avec 200k+ points de données en python. Je veux utiliser numpy, scipy, sklearn, networkx et d'autres bibliothèques utiles. Je veux effectuer des opérations telles que la distan …
demandé sur
1970-01-01 00:33:33