Limites pratiques D'ElasticSearch + Cassandra
j'ai l'intention d'utiliser ElasticSearch pour indexer ma base de données Cassandra. Je me demande si quelqu'un a vu les limites pratiques de ElasticSearch. Faire les choses ralentissent dans le pétaoctet de gamme? En outre, Est-ce que quelqu'un a des problèmes à utiliser ElasticSearch pour indexer Cassandra?
4 réponses
Voir ce fil de 2011, qui mentionne des configurations ElasticSearch avec 1700 fragments chacun de 200 Go, ce qui serait dans la gamme de 1/3 petaoctet. Je m'attendrais à ce que L'architecture D'ElasticSearch supporte une extensibilité horizontale presque illimitée, parce que chaque indice de fragment fonctionne séparément de tous les autres fragments.
Les limites pratiques (qui s'appliquerait à toute autre solution) inclure le temps nécessaire pour charger une quantité de données dans le première place. La gestion d'un cluster Cassandra (ou de tout autre datastore distribué) de cette taille impliquera également une charge de travail importante uniquement pour la maintenance, l'équilibrage de la charge, etc.
Sonian est la société à laquelle kimchy fait allusion dans ce fil. Nous avons plus d'un petaoctet sur AWS à travers plusieurs clusters ES. Il n'y a pas de limite technique à la portée horizontale, mais comme L'ADN l'a mentionné, il y a des problèmes pratiques. Le plus grand est de loin le réseau. Il s'applique à chaque stockage de données distribué. Vous ne pouvez passer tant de choses à travers le fil à la fois. Quand ES doit récupérer d'une défaillance, il doit déplacer des données. La meilleure option est d'utiliser plus petits fragments à travers plus de noeuds (plus de transfert simultané), mais vous risquez un taux d'échec plus élevé et le coût exhorbitant par octet.
comme L'ADN mentionné, 1700 fragments, mais ce n'est pas 1700 fragments mais il y a 1700 index chacun avec 1 fragment et 1 Réplique. Il est donc tout à fait possible que ces 1700 index ne soient pas présents sur une seule machine mais soient répartis autour de plusieurs machines. Donc, ce n'est jamais un problème
je suis actuellement en train de commencer le travail avec Elisandra (Elasticsearch + Cassandra)
je suis aussi, ayant des problèmes pour indexer Cassandra avec elasticsearch. Mon problème est essentiellement la configuration du noeud.
en Faisant $ nodetool status
Host ID
et puis ruiner:
curl -XGET http://localhost:9200/_cluster/state/?pretty=true
Vous pouvez vérifier que l'un de l' node:
est le même nom Host ID