Quels sont les outils et les techniques open source pour construire une plate-forme complète d'entrepôt de données? [fermé]
je suis à la recherche de ces outils open source éventuellement libre ou avec la version d'essai gratuite pour mettre en place la pile complète de données d'entrepôt.
j'en connais peu comme Pentaho open source Mondrian server, mais je n'ai pas pu obtenir de résultat google pour configurer la plate-forme complète. Je ne suis pas sûr que ces composants soient compatibles entre eux? Quelqu'un pourrait-il les énumérer avec leur position dans la chaîne?
5 réponses
The Open Source Data Warehousing does a great job at identifying OSS components that could be used to build a Data Warehouse stack: Infrastructure (servers, OS, databases), Integration Management (ETL, EAI, etc), Information Management (DW/Mart/ODS, OLap Servers, etc), Information Delivery (Portal, Dashboard, Analytics/OLAP Client, etc). Voici un résumé:
Open Source BI/DW Projects
BI et Analytique
- BEE - http://bee.insightstrategy.cz/en/index.html
- BIRT - http://www.eclipse.org/birt
- JasperSoft - http://www.jaspersoft.com
- MarvelIT - http://www.marvelit.com/dash.html
- OpenI - http://openi.sourceforge.net
- OpenReports – http://oreports.com
- Orange - http://www.ailab.si/orange
- Palo - http://www.palo.net
- Pentaho - http://www.pentaho.com
- R - http://www.r-project.org
- SpagoBI - http://spagobi.eng.it
- Weka - http://www.cs.waikato.ac.nz/~ml/index.html
- VitalSigns - http://vitalsigns.sourceforge.net/
bases de données
- http://greenplum.org (bizgres)
- http://www.ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
intégration
- Apatar - http://www.apatar.com
- CloverETL - http://cloveretl.berlios.de/
- JitterBit - http://www.jitterbit.com/
- KETL - http://www.ketl.org
- Octopus - http://www.enhydra.org/tech/octopus/index.html
- OSDQ - http://sourceforge.net/projects/dataquality
- Pentaho - http://www.pentaho.com
- Red Hat - http://www.redhat.com
- de la Saga.M31 Galaxy - http://galaxy.sagadc.com
- Talend - http://www.talend.com
- SnapLogic – http://www.snaplogic.com
Je recommande de parcourir la présentation. De bonnes choses.
une pile (ou suite) de datawarehouse se compose habituellement de trois couches. Ceux-ci sont généralement référencés comme ETL
(chargement), Database
& Reporting
(interface). De plus, il existe des outils un peu plus perfectionnés pour répondre aux besoins en matière de rendement et d'expertise. Il s'agit de Cubes
et Statistical Analysis Tools
.
en ce qui concerne l'interopérabilité, les outils ETL et les outils de rapport doivent prendre en charge toute base de données que vous utilisez. Cependant, puisqu'il y a seulement deux grandes bases de données open source, il n'y a généralement pas de problème à mélanger différentes solutions.
comme pour les détails -
1 - ETL
le chargement de données peut être réalisé par des outils open-source tels que L'intégration de données de Pentaho ou Talend (une extension eclipse). Je suggère de googler "open source etl" pour adapter la solution à vos besoins spécifiques.
2 - DB
vous aurez besoin d'une base de données relationnelle (RDBMS). Les deux joueurs open-source les plus importants sont PostgreSQL (utilisé par Stack Overflow) et MySQL. Alors que MySQL a une plus grande base d'utilisateurs, Postgres gagne de plus en plus de popularité depuis la mise en œuvre de plusieurs fonctionnalités cruciales qui manquaient dans les versions précédentes.
3 - Reporting
Pentaho offre de plate-forme de reporting. Comme BIRT (une autre éclipse extension.) Encore une fois, Google est votre ami pour des comparaisons spécifiques. Notez que lorsque vous choisissez Pentaho pour les outils ETL et Reporting, vous êtes susceptible de profiter d'une meilleure intégration. Vous avez également mentionné Mondrian, qui est un outil pour générer des requêtes MDX sur un RDBMS. MDX est la langue standard pour interroger les cubes.
à ce moment, en supposant que vous partiez de zéro, je vous recommande de configurer les deux premières couches de l'entrepôt de données - ETL & DB. Vous pouvez ensuite ajouter n'importe quel nombre d'outils de rapport ci-dessus.
C'est une autre question similaire 20 milliards de lignes/mois - Hbase / Hive / Greenplum / quoi?
la partie la plus pertinente:
Je ne peux pas le souligner assez: obtenir quelque chose qui joue bien avec les outils de rapport de série.
.
Ruche ou HBase vous mettre dans l'entreprise de la construction d'un front-end personnalisé, que vous Je ne veux pas sauf si vous êtes heureux de passer les 5 prochaines années à écrire des formatteurs de rapport personnalisés en Python.
développement sur ce que Pascal a écrit:
OLAP server: Mondrian
AJAX tableaux croisés dynamiques: Saiku
OLAP schema designer: Pentaho Schema Workbench
OLAP globale designer: Pentaho Concepteur d'Agrégation
ETL: Pentaho Kettle
Report designer: Pentaho Report Designer
Qualité Des Données: DataCleaner
Colonnes De L'Entrepôt De Données: MonetDB
Data Mining: RapidMiner
de la Qualité des Données et le Profilage - http://sourceforge.net/projects/dataquality/
il a également la connexion de Ruche et l'établi de travail de données pour créer des données de la vie réelle.