preguntar acerca de pytables

1
réponses

Y a-t-il un avantage de vitesse d’analyse ou d’utilisation de la mémoire à l’utilisation de HDF5 pour le stockage de grands tableaux (au lieu de fichiers binaires plats)?

Je traite de grands tableaux 3D, que j'ai souvent besoin de découper de différentes manières pour effectuer une variété d'analyses de données. Un "cube" typique peut être ~100GB (et deviendra probablement plus grand dans le futur) Il semble que le …
demandé sur 1970-01-01 00:33:34
1
réponses

HDF5 prendre plus D’espace que CSV?

Prenons l'exemple suivant: Préparer les données: import string import random import pandas as pd matrix = np.random.random((100, 3000)) my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])] mydf = pd.DataFrame(matrix, …
demandé sur 1970-01-01 00:33:33
1
réponses

Comment réaliser plusieurs DataFrames pandas en une seule dataframe dask plus grande que la mémoire?

j'analyse des données délimitées par tabulations pour créer des données tabulaires, que j'aimerais stocker dans un HDF5. mon problème est que je dois regrouper les données dans un format, puis les transférer dans HDF5. Il s'agit de données de taill …
demandé sur 1970-01-01 00:33:36
2
réponses

Conversion gros csv en hdf5

j'ai un fichier csv ligne 100M (en fait beaucoup de fichiers csv séparés) totalisant 84 GO. J'ai besoin de le convertir en un fichier HDF5 avec un ensemble de données float unique. J'ai utilisé h5py dans testing sans aucun problème, mais maintenant …
demandé sur 1970-01-01 00:33:34