data warehouse

data warehouse - SQL/NoSQL - Programmation

Marsh Posté le 11-09-2005 à 00:27:25    

Bonsoir
Je veux construire un entrepôt de données (data warehouse)
SVP est ce que vous pouvez m'aider avec des documents et vos connaissances dans ce domaine.
Merci d'avance et bonne continuation.  :wahoo:  

Reply

Marsh Posté le 11-09-2005 à 00:27:25   

Reply

Marsh Posté le 11-09-2005 à 02:14:18    

moi je veux bien que tu fasses un petit toppo quand tu auras fini, parceque j'entends souvent ce terme, et je ne vois pas trop la différence avec une simple base de données : les volumes peuvent être les mêmes, la complexité des traîtements aussi, la charge utilisateur aussi... bref, faut qu'on m'explique la différence réelle, puisque ça a deux noms différents :D

Reply

Marsh Posté le 11-09-2005 à 10:36:37    

C'est l'utilisation faite des données qui est particulière.
 
En général, les données sont chargées (en début de mois par exemple), puis ce ne sont que des SELECT, avec des conditions multiples.
 
Exemple: Nombre de voitures rouges, décapotables, 3 portes, avec jantes de 16" vendues sur les 3 derniers mois, etc.
 
Donc ce sont en pratiques des données en très grande quantité, et il faut les organiser en vue de l'utilisation, càd des SELECT assez monstrueux, mais que des SELECT ;)

Reply

Marsh Posté le 11-09-2005 à 11:19:08    

ah ok...
 
ça sent la dénormalisation à donf et la redondance de données à mort alors :)
 
genre si j'ai une table "voiture" avec "modèle, couleur, immatriculation", je peux aussi avoir une table "modèle_couleur" avec "modèle, couleur, nombre", afin de se passer d'un count() lors de la recherche des données, c'est bien ça ?
 
bah... ça a quoi de compliqué ? c'est aussi simple qu'une base classique à faire, sauf que là où on ferait des vues, on fait des vues matérialisées et indexées, et voilà :spamafote:

Reply

Marsh Posté le 11-09-2005 à 11:42:32    

Dénormalisation, oui, sûrement :)
 
Mais surtout des index bien pensés, et nombreux.
Et très peu de 'bind variables' car on fait peu de SELECT, mais on veut que le SGBD trouve le meilleur plan d'exécution en fonction des stats.

Reply

Marsh Posté le 11-09-2005 à 11:53:05    

Bonjour à tous
Ce que je peux dire que un data warehouse ou entrepôt de données désigne un système d'information et agrégeant des données thématiques, intégrées, non volatiles et historiées, dans le but de faciliter la prise de décisions stratégiques, et je peux dire que ce type des BD peu assemblé plusieurs base de données à la fois, et le but de l'utiliser est la prise à la décision, par exemple pour des grands sujet de recherche, on trouves une quantité très grande d’informations (30 Mo).
Et pour moi je veux connaître comment je peux construire cet entrepôt de données et les outils utiliser pour cela.
Je suis dans l'attente de vos messages pour que la discussion soit importante.
Merci d'avance et bonne continuation.

Reply

Marsh Posté le 11-09-2005 à 11:55:57    

mounia3 a écrit :

Bonjour à tous
Ce que je peux dire que un data warehouse ou entrepôt de données désigne un système d'information et agrégeant des données thématiques, intégrées, non volatiles et historiées, dans le but de faciliter la prise de décisions stratégiques, et je peux dire que ce type des BD peu assemblé plusieurs base de données à la fois, et le but de l'utiliser est la prise à la décision, par exemple pour des grands sujet de recherche, on trouves une quantité très grande d’informations (30 Mo).
Et pour moi je veux connaître comment je peux construire cet entrepôt de données et les outils utiliser pour cela.
Je suis dans l'attente de vos messages pour que la discussion soit importante.
Merci d'avance et bonne continuation.


 :sweat:

Reply

Marsh Posté le 11-09-2005 à 13:22:29    

:heink: il a pas voulu dire 30 Go ? Parceque déjà 30 Go, mise à part si VRAIMENT y'a aucune mise à jour en semaine, et qu'il y a wathmile utilisateurs qui tapent dedans en affichant des rapports portant sur toutes les lignes de toutes les tables, je ne vois pas l'intérêt de passer à un tel système. Oracle ou SQL Server ont tout ce qu'il faut pour bosser proprement sans dénormalisation, même avec 30 Go (notamment les vues matérialisées)

Reply

Marsh Posté le 11-09-2005 à 13:23:26    

Parceque 30 Mo, une petite base Acces écrite à la goret devrait suffir à obtenir de bonnes performances :D

Reply

Marsh Posté le 11-09-2005 à 14:14:00    

En effet, y a pas besoin de dénormalisation "dans les tables", des vues matérialisées et des index spéciaux (on peut créer un index portant sur des champs d'autres tables dans Oracle :D ) sont tout indiqués pour un data warehouse.

Reply

Marsh Posté le 11-09-2005 à 14:14:00   

Reply

Marsh Posté le 11-09-2005 à 14:46:11    

je suis nouveau dans ce domaine, 8-9 mois donc il faut relativiser tout ce que je peux dire.
alors pour moi les étapes importantes du projet complet, car si tu ne te focalises que sur l'aspect technique de ta dwh tu vas te planter:
1) te renseigner, comprendre, étudier le vocabulaire utilisé dans le monde des dwh afin de te lancer véritablement dans le projet (cube,olap-rolap,dimension,etl,...), comprendre a quel résultat tu dois arriver
2) bien connaitre tes besoins utilisateurs, discuter avec eux quand a savoir ce qu'ils veulent pouvoir analyser
3) déterminer les données que tu vas importer dans ta dwh
4) contruire ton mcd, mpd, et importer tes données, soit via un etl maison, comme des scripts pl/sql, soit via des outils comme datastudio,decision stream
5)une fois que tes données sont dans la dwh la il faut aussi un outil pour les traiter, soit via des cubes, soit via des outils de reporting
 
arjuna: effectivement pour une dwh relationnelle (il y a aussi les cubes qui sont une autre approche), il y aura énormément de dénormalisation, et de redondance au niveau des données autres que les faits, la raison est simple, le but est d'avoir un temps de traitement le plus court possible, et donc on utilisera une schema typique dwh qui est le star schema ou schema en etoile , en gros c'est une table de fait, tres volumineuse, qui contiendra tout ce qui est montant etc, relié a des tables de dimension (localisation, temps, libellé) par max une jointure afin de speeder le traitement au maximum, et je peux te dire que passer par une jointure supplémentaire ralentit énormément le traitement dans ces cas la, on tourne sous oracle 9i et je peux t'affirmer que c'est le cas. L'interet d'une dwh c'est de pouvoir analyser les données sans nuire a la production.
 
En gros mon conseil, c'est de se renseigner encore et encore sur toutes les étapes d'un processus dwh, la récolte d'informations auprès des utilisateurs, les spécifités d'une dwh par rapport aux schemas relationnels classiques (la 3fn c'est le mal), comment réaliser l'import via un etl, documenter le tout,si possible te trouver un sponsor influent auprès de ta boite (tres important ^^ ), en gros ce que j'ai pu en voir de ma courte expérience, c'est qu'une dwh c'est énormément de sujet a maitriser, et pas juste gèrer qques tables.

Reply

Marsh Posté le 11-09-2005 à 17:06:23    

Bonjours
Merci casimimir vraiment sur votre réponse qui est sérieuse, et aussi vous essayer de répondre d'une façon technique. Et je veux dire comme ça nous devons discuter dans les forums.
Moi qui est débutante mais vous vous avez une expérience de 8 mois.  
SVP, après la création des modèles de data warehouse (mcd,..), qu'est ce que je peux faire par ces modules, c-à-d qu'est ce que les outils que je peux utilisé pour construire cet entrepôt de données :??:

Reply

Marsh Posté le 11-09-2005 à 21:42:29    

tu veux dire les outils pour l'alimenter? ou pour créer le design? si c'est pour le design je dirais que le papier-crayon devrait être une gross partie du job

Reply

Marsh Posté le 12-09-2005 à 19:12:41    

Bonjour
Merci bien pour votre réponse
bien sur je parle plus sur la modélisation. Mais je pose la question sur alimentation des données. :sarcastic:

Reply

Marsh Posté le 12-09-2005 à 19:13:46    

Sinon, mounia3, rassure-nous : c'est bien 30 Go de données, pas 30 Mo ?

Reply

Marsh Posté le 12-09-2005 à 21:47:50    

Moi je veux dire q'une base de données de grande taille avec des données spatio-temporelle tu comprend, et je pense que dans les forum on essaye de corrigé les erreurs et d'aider les gens pour que le forum et la discussion soient importants.
Et mon questions si vous avez des information et des idées sur le data warehaouse.
Merci bien tu es très gentil et tu aide les gens.
 :pt1cable:

Reply

Marsh Posté le 12-09-2005 à 22:07:59    

Arjuna a écrit :

moi je veux bien que tu fasses un petit toppo quand tu auras fini, parceque j'entends souvent ce terme, et je ne vois pas trop la différence avec une simple base de données : les volumes peuvent être les mêmes, la complexité des traîtements aussi, la charge utilisateur aussi... bref, faut qu'on m'explique la différence réelle, puisque ça a deux noms différents :D


 
 
 
c la façon de l'alimenter qui diffère...dans un datawarehouse tes données sont traitées via un ETL avant d'être chargée...éventuellement tu peux déjà les consolider un peu, bref, c déjà de la donnée un peu manipulée qui rentre...
 
le schéma de BD est très différent aussi (flocon, étoile, etc...)


---------------
Jubi Photos : Flickr - 500px
Reply

Marsh Posté le 12-09-2005 à 22:08:54    

mounia3 a écrit :

Moi je veux dire q'une base de données de grande taille avec des données spatio-[b]temporelle [/b]tu comprend, et je pense que dans les forum on essaye de corrigé les erreurs et d'aider les gens pour que le forum et la discussion soient importants.
Et mon questions si vous avez des information et des idées sur le data warehaouse.
Merci bien tu es très gentil et tu aide les gens.
 :pt1cable:


 
tu confonds pas avec un exemple classique de cube OLAP ?


---------------
Jubi Photos : Flickr - 500px
Reply

Marsh Posté le 13-09-2005 à 11:39:11    

Bonjour
je citerai ici le problème de le début, mon but de réaliser un SIG spatio-temporel, dans cela il faut construire une BD qui prend les champs de temps en considération, après quelque sue le net, j'ai trouvé que tous les projet décisionnel utilise data warehouse dans le but de faciliter la prise de décisions stratégiques et aussi "Le dwh est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision", et aussi le prof encadrant il m a dit qu'on va construire une dwh.
Moi je suis perdu, j'ai pas trouver des chose sur les BD spatio-temporelle seulement des livres qui je peux pas les acheté, et pour ça j'ai dit qu'il faut trouver les outils de construction de dwh le plus vite possible car j'ai pas de temps, et aussi je ne comprend pas la différence exacte entre les BD normale et dwh.
Et après je dois faire la liaison en ma BD et MapInfo pour construire des cartes.
C’est ça mon projet, Si vous avez des aidées je souhaite que vous pouvez m'aider de choisir le chemin de travail.
Merci et bonne continuation. :pt1cable:

Reply

Marsh Posté le 13-09-2005 à 11:54:33    

voici déja un lien http://www.grappa.univ-lille3.fr/p [...] ie003.html
 
les outils de construction dans ton cas cela peut-etre de simple scripts en pgsql, transac-sql, ou pl/sql, suivant la db qui va héberger ta dwh, en ultra-simplifié le schema de la figure1.2 sur le lien est spatio-temporel pour une dwh relationelle, la différence avec un environnement c'est la structure qui est optimisée pour le décisionnel, starschema vs snowflake, le type de donnée que l'on va y retrouver, et l'historisation au niveau de détails souhaités que l'on ne retrouvera pas forcément dans l'environnement de production.

Reply

Marsh Posté le 23-09-2005 à 20:32:36    

Bonsoir à tous
Merci bien pour votre réponse et pour le document. :jap:  
j'ai déjà réaliser un modèle en étoile et je sais pas comment je peux utiliser ce modèle pour construire le script correspond, je veux connaître l'outils qui m'aider à utiliser ce modèle qui est réalisé seulement sur papier.  
Je pense qu'il y a la possibilité d'utiliser MCDesigner mais j'ai jamais utiliser cet outils.
Merci d'avance et bonne continuation

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed