Data Warehousing Del 3 af 3: Data Warehouse arkitekturer og implementering Aalborg Universitet, d. 8. februar 2007 B e n t M ø l l e r M a d s e n
Data Warehouse begreber Enterprise Data Warehouse Data Mart Operational Data Store (ODS)
Enterprise Data Warehouse Et data warehouse oprettet til at opbevarer alle virksomhedens data. Det kan tage mange år at opbygge et komplet Enterprise Data Warehouse. Start med en lille løsning og udbyg løbende. Mange datakilder Mange subjects eller forudsætningsfri omkring emner Ofte baseret på en normaliseret model
Data Mart En relativt lille data warehousing løsning ”Altid” baseret på en dimensionel model. Koncentrere sig om et enkelt eller få emner/subjects og/eller en enkelt afdeling Kort implementeringstid (måneder)
Data Mart Uafhængig data mart Afhængig data mart Datakilder er OLTP-systemer Afhængig data mart Datakilden er en virksomheds (Enterprise) Data Warehouse
Operational Data Store (ODS) Anvendt til at give adgang til data fra forskellige kilder meget hurtigt – fra få sekunder til enkelte timers forsinkelse Der foretages relativt få transformeringer Kan være datakilde til Data Warehouse
Forskellige arkitekturer Rapportering direkte fra kilder Uafhængige Data Marts Centralt Data Warehouse Hub-and-spoke
Rapportering direkte fra kilder Fordele: Hurtigt og billigt at implementere Ingen vedligeholdelse af redundante data Adgang til realtids data Adgang til alle operationelle data Ulemper: Kan være besværligt rent teknisk Kan være et sikkerhedsproblem Ikke muligt at ”berige” data Svært at sammenstille data på tværs af kilder Dårlige svartider på rapportkørsler Kan forstyrre driften af de operationelle systemer Manglende adgang til de historiske data
Uafhængige Data Marts Fordele ved arkitektur: Ulemper ved arkitektur Hurtig implementering Omkostningseffektivt Hurtigt synligt udbytte Gentagelig proces Ulemper ved arkitektur ”Ø’er” af data Ingen helhedsbetragtning Ingen synergieffekter Udtræk fra kildesystemer Transformering og rensning af data Ufuldstændige metadata
Centralt Data Warehouse Fordele ved arkitektur Centraliseret kontrol Helhedsbetragtning Konsistente metadata Dataintegritet Ulemper ved arkitektur Uoverskuelig model at trække beslutningsdata ud af Længere forespørgseltid Der tages måske ikke hensyn til individuelle behov Prioriteringsproblemer ved opbygning Svært at styre
Hub-and-spoke Fordele ved arkitektur Ulemper ved arkitektur Centraliseret kontrol Helhedsbetragtning Konsistente metadata Dataintegritet Individuelle behov opfyldes i data marterne Ulemper ved arkitektur Omfattende løsning Ressourcekrævende
Bill Inmons ”Corporate Information Factory” arkitektur Exploration Warehouse Data Mart Stjerneskema RDBMS / OLAP Slutbrugeradgang Kildedata Data Mining Rapporterings- værktøj Slutbruger- applikationer (Enterprise) Data Warehouse Emneorienteret Integreret Normaliseret Fuld historik RDBMS Ingen slutbrugere Operational Data Store Aktuelle data Lille/ingen forsinkelse OLAP Staging area Extraction, Trans- formation, Loading
Ralph Kimballs data warehouse arkitektur Lager flade filer RDBMS Databehandling Rensning Integrering Strukturering Standardisering Conformed dimensions Ingen slutbruger- adgang Data mart #1 Slutbrugeradgang Stjerneskema Emneorienteret RDMBS / MOLAP Del af DW Bus Data mart #2 Kildedata OLAP Rapporterings- værktøj Slutbruger- applikationer Modeller, Forecast Fordeling, Data mining Kildesystemer Data Staging Area Data Warehouse Præsentationsservere DW Bus
Implementering af Data Warehouse
Implementering af Data Warehouse Fastlæggelse af den problemstilling man søger at løse. Er data warehouse overhovedet en relevant Planlægge hvor mange ressourcer man vil afsætte til opgaven Opbygge viden internt i virksomheden/organisationen Hyre eksterne konsulenter til opgaven Valg af data warehouse arkitektur Bestemme om Data Warehouse skal implementere på en gang eller gennemgå en iterativ proces
Implementering af Data Warehouse Logisk design af target med udgangspunkt i de behov der skal opfyldes. Skal data opsummeres i Data Warehouse eller beholdes på transaktionsplan? Fastlæggelse af dimensioner og fakta Foretag kildeanalyse og find ud af om der kan findes kilder til dække alle databehovene Kilder kan både være interne og eksterne Hvis behovene ikke dækkes vil man så reevaluere designet af target eller arbejde på at indarbejde de nye behov i OLTP-systemerne Er datakvaliteten i orden i kilderne
Implementering af Data Warehouse Udarbejd ETL-processer til at overføre data fra kilder til data warehouse Hvordan skal data renses for fejl i kildedata. Hvordan skal data transformeres til analysebehov? Sammen med kildeanalysen er dette den væsentligste del af opgaven med at opbygge et data warehouse. Træk data ud fra data warehouse til præsentations- og analyseprogrammer. Udarbejd standardrapporter og gør det muligt for superbrugere selv at udvikle rapporter Hav en række testbrugere til at teste resultatet. Er rapporterne anvendelige Er data i rapporterne valide
Implementering af Data Warehouse Automatiser ETL-processen, så den foregår på et tidspunkt, hvor det ikke vil genere almindelige brugeres anvendelse af kildesystemerne. Undervis brugere i anvendelse af rapporterings- og analyseværktøjer Evaluering af implementeringsprocessen Hvis en iterativ implementeringsproces er valgt, så fortsæt med næste område. Foretag løbende tilpasninger data warehouset og ETL-processen, hvis der sker ændringer i analysebehovet og/eller kildegrundlaget.
Andre begreber indenfor eller med relation til Data Warehousing/BI Enterprise Application Integration (EAI) Enterprise Information Integration (EII) Realtime Data Warehousing Master Data Management (MDM) Customer Data Integration (CDI) Product Information Management (PIM) / Product Data Integration (PDI) Etc.
Litteratur Ralph Kimball et al. W. H. Inmon The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling The Data Warehouse Lifecycle Toolkit Expert Methods for Designing, Developing, and Deploying Data Warehouses The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data W. H. Inmon Building the Data Warehouse