Quels sont les outils et les techniques open source pour construire une plate-forme complète d'entrepôt de données? [fermé]

je suis à la recherche de ces outils open source éventuellement libre ou avec la version d'essai gratuite pour mettre en place la pile complète de données d'entrepôt.

j'en connais peu comme Pentaho open source Mondrian server, mais je n'ai pas pu obtenir de résultat google pour configurer la plate-forme complète. Je ne suis pas sûr que ces composants soient compatibles entre eux? Quelqu'un pourrait-il les énumérer avec leur position dans la chaîne?

30
demandé sur A-B-B 2010-07-22 15:19:10

5 réponses

The Open Source Data Warehousing does a great job at identifying OSS components that could be used to build a Data Warehouse stack: Infrastructure (servers, OS, databases), Integration Management (ETL, EAI, etc), Information Management (DW/Mart/ODS, OLap Servers, etc), Information Delivery (Portal, Dashboard, Analytics/OLAP Client, etc). Voici un résumé:

Open Source BI/DW Projects

BI et Analytique

bases de données

intégration

Je recommande de parcourir la présentation. De bonnes choses.

42
répondu Pascal Thivent 2017-01-31 12:44:21

une pile (ou suite) de datawarehouse se compose habituellement de trois couches. Ceux-ci sont généralement référencés comme ETL (chargement), Database & Reporting (interface). De plus, il existe des outils un peu plus perfectionnés pour répondre aux besoins en matière de rendement et d'expertise. Il s'agit de Cubes et Statistical Analysis Tools .

en ce qui concerne l'interopérabilité, les outils ETL et les outils de rapport doivent prendre en charge toute base de données que vous utilisez. Cependant, puisqu'il y a seulement deux grandes bases de données open source, il n'y a généralement pas de problème à mélanger différentes solutions.

comme pour les détails -

1 - ETL

le chargement de données peut être réalisé par des outils open-source tels que L'intégration de données de Pentaho ou Talend (une extension eclipse). Je suggère de googler "open source etl" pour adapter la solution à vos besoins spécifiques.

2 - DB

vous aurez besoin d'une base de données relationnelle (RDBMS). Les deux joueurs open-source les plus importants sont PostgreSQL (utilisé par Stack Overflow) et MySQL. Alors que MySQL a une plus grande base d'utilisateurs, Postgres gagne de plus en plus de popularité depuis la mise en œuvre de plusieurs fonctionnalités cruciales qui manquaient dans les versions précédentes.

3 - Reporting

Pentaho offre de plate-forme de reporting. Comme BIRT (une autre éclipse extension.) Encore une fois, Google est votre ami pour des comparaisons spécifiques. Notez que lorsque vous choisissez Pentaho pour les outils ETL et Reporting, vous êtes susceptible de profiter d'une meilleure intégration. Vous avez également mentionné Mondrian, qui est un outil pour générer des requêtes MDX sur un RDBMS. MDX est la langue standard pour interroger les cubes.

à ce moment, en supposant que vous partiez de zéro, je vous recommande de configurer les deux premières couches de l'entrepôt de données - ETL & DB. Vous pouvez ensuite ajouter n'importe quel nombre d'outils de rapport ci-dessus.

9
répondu shmichael 2010-07-23 09:05:53

C'est une autre question similaire 20 milliards de lignes/mois - Hbase / Hive / Greenplum / quoi?

la partie la plus pertinente:

Je ne peux pas le souligner assez: obtenir quelque chose qui joue bien avec les outils de rapport de série.

.

Ruche ou HBase vous mettre dans l'entreprise de la construction d'un front-end personnalisé, que vous Je ne veux pas sauf si vous êtes heureux de passer les 5 prochaines années à écrire des formatteurs de rapport personnalisés en Python.

4
répondu Sandeep 2017-05-23 12:02:20

développement sur ce que Pascal a écrit:

OLAP server: Mondrian

AJAX tableaux croisés dynamiques: Saiku

OLAP schema designer: Pentaho Schema Workbench

OLAP globale designer: Pentaho Concepteur d'Agrégation

ETL: Pentaho Kettle

Report designer: Pentaho Report Designer

Qualité Des Données: DataCleaner

Colonnes De L'Entrepôt De Données: MonetDB

Data Mining: RapidMiner

3
répondu Neil McGuigan 2013-08-09 04:53:11

de la Qualité des Données et le Profilage - http://sourceforge.net/projects/dataquality/

il a également la connexion de Ruche et l'établi de travail de données pour créer des données de la vie réelle.

-1
répondu vivek 2014-01-16 07:40:40