preguntar acerca de dask

1
réponses

Comment réaliser plusieurs DataFrames pandas en une seule dataframe dask plus grande que la mémoire?

j'analyse des données délimitées par tabulations pour créer des données tabulaires, que j'aimerais stocker dans un HDF5. mon problème est que je dois regrouper les données dans un format, puis les transférer dans HDF5. Il s'agit de données de taill …
demandé sur 1970-01-01 00:33:36
3
réponses

Lecture accélérée d’un très grand fichier netcdf en python

j'ai un très grand fichier netCDF que je suis en train de lire en utilisant netCDF4 en python Je ne peux pas lire ce fichier tout d'un coup car ses dimensions (1200 x 720 x 1440) sont trop grandes pour que le fichier entier soit en mémoire à la foi …
demandé sur 1970-01-01 00:33:36
2
réponses

Comment paralléliser apply () sur les DataFrames de Pandas en utilisant tous les noyaux sur une seule machine?

depuis août 2017, Pandas DataFame.appliquer() est malheureusement encore limité à travailler avec un seul noyau, ce qui signifie qu'une machine à plusieurs noyaux gaspillera la majorité de son temps de calcul lorsque vous exécutez df.apply(myfunc, ax …
demandé sur 1970-01-01 00:33:37
2
réponses

python dask DataFrame, support (trivialement parallélisables) ligne à appliquer?

j'ai récemment trouvé DASK module qui vise à être un python facile à utiliser le module de traitement en parallèle. Pour moi, ça marche avec les pandas. après avoir lu un peu sur sa page de manuel, Je ne trouve pas le moyen de faire cette …
demandé sur 1970-01-01 00:33:35