preguntar acerca de bigdata

22
réponses

Requête Elasticsearch pour renvoyer tous les enregistrements

J'ai une petite base de données dans Elasticsearch et à des fins de test, j'aimerais récupérer tous les enregistrements. Je suis d'essayer d'utiliser une URL de la forme... http://localhost:9200/foo/_search?pretty=true&q={'matchAll':{''}} Que …
demandé sur 1970-01-01 00:33:32
2
réponses

Spark RDD — comment fonctionnent-ils

J'ai un petit programme Scala qui fonctionne bien sur un seul nœud. Cependant, je le redimensionne pour qu'il fonctionne sur plusieurs nœuds. C'est ma première tentative de ce genre. J'essaie juste de comprendre comment les RDDs fonctionnent dans Spa …
demandé sur 1970-01-01 00:33:34
1
réponses

Comment réaliser plusieurs DataFrames pandas en une seule dataframe dask plus grande que la mémoire?

j'analyse des données délimitées par tabulations pour créer des données tabulaires, que j'aimerais stocker dans un HDF5. mon problème est que je dois regrouper les données dans un format, puis les transférer dans HDF5. Il s'agit de données de taill …
demandé sur 1970-01-01 00:33:36
7
réponses

Comment convertir un fichier csv en parquet

Je suis nouveau à BigData.J'ai besoin de convertir un fichier csv/txt au format Parquet. J'ai beaucoup cherché mais impossible de trouver une quelconque façon de le faire. Est-il un moyen d'y parvenir? ... …
demandé sur 1970-01-01 00:33:34
5
réponses

Quelle est la différence entre Apache Pig et Apache Hive?

Quelle est la différence exacte entre le porc et la ruche? J'ai découvert que les deux ont la même signification fonctionnelle parce qu'ils sont utilisés pour faire le même travail. La seule chose est l'implimentation qui est différente pour les deux …
demandé sur 1970-01-01 00:33:32
9
réponses

est-il possible d’importer un fichier json(contient 100 documents) dans elasticsearch serveur.?

y a-t-il un moyen d'importer un fichier JSON (contient 100 documents) dans elasticsearch server? Je veux importer un gros fichier json en es-serveur.. ... …
demandé sur 1970-01-01 00:33:33
11
réponses

Hbase compte rapidement le nombre de rangées

en ce moment je implémente le nombre de lignes sur ResultScanner comme ceci for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } si les données atteignent des millions, l'informatique temporelle est grande.Je veux c …
demandé sur 1970-01-01 00:33:32
2
réponses

Comment créer une grande pandas dataframe partir d’une requête sql sans manquer de mémoire?

j'ai du mal à interroger une table de plus de 5 millions d'enregistrements de ma base de données de serveur MS SQL. Je veux être capable de sélectionner tous les enregistrements, mais mon code semble échouer lors de la sélection de beaucoup de donné …
demandé sur 1970-01-01 00:33:33
3
réponses

Comment le planificateur Apache Spark scheduler divise-t-il les fichiers en tâches?

dans spark-summit 2014, Aaron donne la parole une compréhension plus profonde de Spark internes , dans sa diapositive, page 17 montrer une étape a été divisé en 4 tâches comme ci-dessous: ici, je veux savoir trois choses sur la f …
demandé sur 1970-01-01 00:33:35
2
réponses

Travailler avec le big data en python et numpy, pas assez de ram, comment sauvegarder des résultats partiels sur disque?

j'essaie d'implémenter des algorithmes pour des données à 1000 dimensions avec 200k+ points de données en python. Je veux utiliser numpy, scipy, sklearn, networkx et d'autres bibliothèques utiles. Je veux effectuer des opérations telles que la distan …
demandé sur 1970-01-01 00:33:33