Systèmes de fichiers distribués: GridFS vs. GlusterFS vs. Ceph vs. Benchmarks HekaFS [fermé]

je suis actuellement à la recherche d'un bon système de fichiers distribués.

Il doit:

  • open source
  • être extensible horizontalement (la réplication et de la fragmentation)
  • n'ont pas de point d'échec unique
  • ont une empreinte relativement faible

Voici les quatre candidats les plus prometteurs, à mon avis:

le système de fichiers sera utilisé principalement pour les fichiers multimédia (images et audio). Il existe de très petits fichiers ainsi que des fichiers de taille moyenne (1 KB - 10 MB). Le nombre de fichiers devrait être d'environ plusieurs millions.

existe-il des points de repère concernant performances,la charge CPU, consommation de mémoire et évolutivité? Quelles sont vos expériences en utilisant ces systèmes ou d'autres systèmes de fichiers distribués?

37
demandé sur pjs 2013-07-02 16:04:27

4 réponses

Je ne suis pas sûr que votre liste soit correcte. Cela dépend de ce que vous entendez par système de fichiers.

si vous voulez dire un système de fichiers qui est mountable dans un système d'exploitation et utilisable par toute application qui lit et écrit des fichiers en utilisant des appels POSIX, alors GridFS ne se qualifie pas vraiment. C'est juste comment MongoDB stocke des objets formatés par BSON. C'est un Objet plutôt qu'un système de fichiers.

Il y a projet faire GridFS montable, mais c'est un peu bizarre car GridFS n'a pas de concepts pour des choses comme les répertoires hiérarchiques, bien que les chemins soient autorisés. Aussi, je ne suis pas sûr comment distribué écrit sur gridfs-fuse serait.

GlusterFS et Ceph sont comparables et sont distribués, des systèmes de fichiers montables reproductibles. Vous pouvez lire une comparaison entre les deux ici (et suivi mise à jour de la comparaison), bien que garder à l'esprit que les points de repère sont faits par quelqu'un qui est un peu biaisé. Vous pouvez aussi regarder les ce débat sur le sujet.

en ce qui concerne les HekaFS, C'est GlusterFS qui est configuré pour le cloud computing, ajoutant cryptage et multitenance ainsi qu'une interface D'utilisateur administrative.

26
répondu sockets-to-me 2017-03-02 10:23:09

Après Ceph pendant 11 mois, j'ai conclu que ça craint vraiment, alors je suggère de l'éviter. J'ai essayé XtreemFS, RozoFS et QuantcastFS mais les trouvais pas assez bon.

je recommande vivement LizardFS qui est une fourchette de spécialité MooseFS. LizardFS caractéristiques intégrité des données, surveillance et des performances supérieures, avec très peu de dépendances.

11
répondu Onlyjob 2016-12-07 17:27:58

OrangeFS, n'importe qui?

je cherche une DFS HPC et j'ai trouvé cette discussion ici: http://forums.gentoo.org/viewtopic-t-901744-start-0.html

Beaucoup de bonnes données et les comparaisons :)

après quelques discussions L'OP a décidé pour les orangistes, citant: "OrangeFS. Il ne supporte pas les quotas ni les serrures de fichiers (bien que toutes les opérations d'E/S soient atomiques et la cohérence est conservée sans serrures). Mais cela fonctionne, et fonctionne bien et stable. En outre, ce être pas un système général de stockage de fichiers, mais dédié au HPC, ciblé sur les entrées / sorties parallèles, y compris ROMIO support. Tous les tests ont été faits pour la distribution des données de bande. a) pas de quotas - au diable les quotas. J'ai abandonné de toute façon, même glusterfs soutient pas commun les quotas basés sur uid/gid, mais les limites de taille des répertoires, plus comme LVM fonctionne. b) plusieurs serveurs de métadonnées actifs sont pris en charge et stables. Par rapport aux métadonnées dédiées stockage (noeud unique) cela donne +50% de performance sur les petits fichiers et pas de différence significative sur les grandes. C) Excellente performance sur les gros blocs de données (dd bs=1M). Elle est limitée par une somme de disque dur local (n'oubliez pas que chaque noeud participe aussi comme serveur de données) vitesse et bande passante réseau disponible. La consommation CPU sur une telle charge est décente et est d'environ 50% du noyau simple sur un noeud client et environ 10% pourcentage sur chaque autres données des nœuds de serveur. d) performance équitable sur les grands ensembles de petits fichiers. Pour le test, je n'ai pas testé le noyau linux 3.1. Il a fallu 5 minute sur OrangeFS (avec des paramètres accordés) et presque 2 minutes sur NFSv4 (accordé aussi) pour comparaison. La charge CPU est d'environ 50% du cœur simple (bien sûr, il est effectivement distribué entre les cœurs) sur le client et environ plusieurs percents sur chaque noeud. E) Prise en charge de ROMIO MPI I/O API. C'est un délicieux pour les applications MPI aware, qui permet d'utiliser PVFS2 / OrangeFS fonctions d'entrée-sortie en parallèle directement à partir des applications. f) pas de support pour les fichiers spéciaux (sockets, fifo, block devices). Ainsi ne peut pas être utilisé en toute sécurité comme / maison et je l'utilise NFSv4 pour cette tâche fournissant aux utilisateurs quota restreint petit espace à la maison. Bien que le plus distribué les systèmes de fichiers ne prennent pas en charge les fichiers spéciaux de toute façon. "

2
répondu Raul Kist 2014-01-10 17:46:42

Je ne sais pas sur les autres systèmes que vous avez posté mais j'ai fait une comparaison de 3 cms/Frameworks PHP sur le stockage local vs GlusterFS pour voir s'il fait mieux sur les tests du monde réel que les benchmarks bruts. Malheureusement pas.

http://blog.lavoie.sl/2013/12/glusterfs-performance-on-different-frameworks.html

1
répondu sebastien 2013-12-07 05:49:23