[Calcul de DELTA ][Business Intelligence]

[Business Intelligence] [Calcul de DELTA ] - SQL/NoSQL - Programmation

Marsh Posté le 23-02-2007 à 17:34:23    

Bonjour tous,
j'ai un petit souci de réflexion si quelqu"un peut m'aider!!
 
je vous explique la situation :
On a un infocentre alimenté par plusieurs systèmes de base de données, l'alimentation est journalière et consiste à chaque fois à supprimer ce qui existe et charger les nouvelles données, le processus de chargement met en place un ETL. le volume de données étant en croissance continue et rapide cette phase d'alimentation prend énormément de temps (des fois plus de 12h). Je suis en train de réflechir sur une solution qui ne prend, à chaque fois ou chaque jour, que l'information décisionnelle ou celle qui a été modifiée et remplacer dans l'infocentre, cela veut dire que ce qui na pas été modifié reste intact et le reste change. notre domaine d'intervention est la source (système de base de données) le canal (ETL) et également la destination (datawarehouse). Cela revient à comment extraire et calculer le DELTA des informations modifiées entre deux journées succesives et comment l'injecter dans l'infocentre à travers l'ETL mis en place biensur. Le travail étant fait sous ORACLE.
est ce que quelqu'un a une idée?

Reply

Marsh Posté le 23-02-2007 à 17:34:23   

Reply

Marsh Posté le 24-02-2007 à 10:39:19    

hello,
a priori je dirais d'abord d'identifier précisement qu'elles sont les traitements qui prennent beaucoup de temps, a savoir est ce le load dans ton staging area ou ta transformation proprement dite.
 
sinon pour l'incrémentiel il n'y a pas de secret, il faut que tu détermines d'abord ton critére de sélection, que ce soit un timestamp de modification de record ou un identifiant ou peu importe.
Pour l'injecter dans ton etl cela reste le meme principe, au lieu de faire un truncate tu fais un update/insert basé sur ta business key, en pur oracle c'est un merge, sinon ca dépend de ton etl, mois je travaille avec cognos decision stream et il le gere,c'est a dire que durant le load, il vérifie si ton record a une correspondance basé sur une clé que tu définis, si elle existe il met a jour les champs que tu décides, sinon il insere le record.
 
12h ca me parait assez long tout de meme, on parle de quel volume de donnée et cela concerne quel business?

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed