Pourquoi Hadoop n'est-il pas un entrepôt de données ?
Quelles sont les raisons fonctionnelles pour lesquelles Hadoop ne peut pas être un entrepôt de données
Sur plusieurs sites, on peut voir des instructions indiquant qu'un cluster Hadoop ne remplace pas un entrepôt de données traditionnel. Cependant, je ne trouve pas les vraies raisons pour lesquelles.
Je suis conscient que techniquement, il y a des choses qui ne sont pas disponibles / matures dans Hadoop, mais je recherche vraiment l'impact fonctionnel .
Ce que j'ai trouvé jusqu'à présent, y compris mesures d'atténuation
J'ai trouvé quelques arguments, mais aucun n'est si critique que je déconseillerais d'utiliser Hadoop comme DWH. Voici une sélection :
- Vous ne pouvez pas faire de requêtes ad hoc rapides ou de rapports , car Hadoop a tendance à entraîner des frais généraux pour la carte et à réduire les tâches.
Cependant, dans la situation que je regarde, cela ne devrait pas poser de problème car les données ne sont disponibles que via le datamart (régulier). En outre, vous pourriez utiliser spark sql si vous vouliez creuser dans quelques tables.
- Vous ne pouvez pas obtenir certains résultats , car Hadoop ne prend pas en charge les procédures stockées.
Dans la situation que je regarde, il n'y a pas beaucoup de procédures stockées (heureusement!) et en utilisant des outils comme R ou Python, vous pouvez vraiment obtenir n'importe quel résultat dont vous avez besoin.
- Vous ne pouvez pas récupérer des catastrophes , car Hadoop n'a pas de sauvegardes intégrées
Cependant, comme tout le code est scripté et que les données peuvent être déchargées vers un sauvegarde, il devrait être possible de se remettre des catastrophes.
- Vous ne pouvez pas faire de conformité et de confidentialité , car il n'y a pas de sécurité et de lignée de données
Avec une boîte à outils comme Knox + Ranger + Atlas, cela peut être réalisé.
- Ce n'est pas facile de construire des requêtes , car vous ne pouvez pas construire le flux mais devez écrire du code sql ou pig.
Il semble y avoir plusieurs outils comme Talend où vous pouvez créer des flux avec des icônes comme dans une requête typique constructeur.
- Hadoop est plus difficile à maintenir , car il nécessite des connaissances spécifiques
C'est vrai, mais dans la situation que je regarde, il y a une bonne quantité de connaissances car ils utilisent actuellement une plate-forme d'analyse Hadoop.