OLAP / Multidimensionel analyse Online Analytical Processing Aalborg Universitet, d. 27. marts 2007 B e n t M ø l l e r M a d s e n
Decision Support System Andre data-kilder OLTP-systemer Tekstfiler … Produktions- system ERP Opsamling, rensning & bearbejdning af data DWH Data Mining Analyse-værktøjer Excel Rapporter OLAP
OLAP Multidimensionalt syn på data Hierarkier i dimensioner Beregninger mellem fakta og indenfor dimensioner Adskillelse af datastruktur og -præsentation Fleksibel brugerflade Rotation Slicing and dicing Drill-down/drill-up (på hierarkier) Tabeller, krydstabeller/-tabuleringer og grafer Hurtig tilgang til data Understøttelse af flere brugere
Alternativer til OLAP SQL & Application Express Regneark
Analyseformål Beskrivende Forklarende Forudsigende Beslutnings-tagen Aggregering Fordelinger Regressions-analyse Klyngeanalyse Beslutningstræer Fremskrivning/ forecast Modeller What-if simulationer Budgettering
OLTP vs. OLAP Karakteristika OLTP OLAP Typisk operation Indtastning/opdatering Analyser Datas alder Nuværende Historiske og nuværende Aggregeringsniveau Detaildata/atomare data Aggregerede data Datakrav til forespørgsel Minimale Store Forespørgsel-mønster Individuelle forespørgsler Iterative forespørgsler
OLTP vs. OLAP Eks. på OLTP-forespørgsel Eks. på OLAP-forespørgsel Hvilke produkter solgte vi på sidste ordre til kunde nr. 84305? Eks. på OLAP-forespørgsel Hvem er de 3 bedste salgsmedarbejdere på omsætning i det jyske marked indenfor sko set over de sidste 12 måneder?
Data i en relationel database Dato Tekst Sted Art Beloeb Antal Ansvarlig 01-03-04 Salg 814 1410 7300,00 73 Low 04-03-03 Tlf 800 1100 2280,00 low Artnr Navn 1100 Omsætning indenlandsk salg 1410 Administrationsomkostninger
Kube-opfattelsen i OLAP Sjælland Tid Produkter Fyn & øerne Jylland Q1 Q2 Q3 Q4 Område Sko Overtøj Skjorter Bukser Andet 11
Sammenligning mellem (fakta-)tabel og kube Dimensioner Nøgler Marked Maaned Produkt Marked Maaned Salg Sko Jylland Jan 240 Skjorte Fyn Feb 250 Bukser Sjælland Mar 690 425 300 500 125 400 800 Jan Feb Mar Produkt Jylland Fyn Sko Sjælland Skjorte Bukser
Mange dimensioner Produkt Marked Dimensioner Marked Tid Kanal Sjælland Tid Produkt Fyn Jylland Q1 Q2 Q3 Q4 Marked Sko Overtøj Skjorter Bukser Andet Dimensioner Marked Tid Kanal Organisation Produktion Produkt Kategori Medarbejder
Multidimensional Type Structures Jan 2004 Feb 2004 Mar 2004 Apr 2004 Maj 2004 Jun 2004 Jul 2004 Aug 2004 Sep 2004 Okt 2004 Produkt Overtøj Skjorter Bukser Sko Andet Marked Jylland Fyn Sjælland Ansvarlig bmm joe hfl low
Beregning mellem kuber Sjælland Fyn Jylland Q1 Q2 Q3 Q4 Sko Overtøj Skjorter Bukser Andet Omsætning Sjælland Fyn Jylland Q1 Q2 Q3 Q4 Sko Overtøj Skjorter Bukser Andet Q1 Q2 Q3 Q4 Sko Overtøj Skjorter Bukser Andet Pris Mængde
Beregninger indenfor dimensioner DB Tid Produkt Var. Omk. Oms. Q1 Q2 Q3 Q4 Dækningsbidrag Sko Overtøj Skjorter Bukser Andet Formler DB = Oms – Var. Omk Konsolideringsfaktor i Palo 1.0/1.5 Oms: 1.0 Var. Omk.: -1.0 20
Hierarkier Rekursivt/Parent-Child/Ragged hierarki Ofte samme art elementer i hele hierarkiet Typisk stykliste og organisationshierarki Id Produkt Parent_id 1 Cykel 2 Stel 3 Hjul 4 Styr 5 Krank 6 Eger 7 Slange
Hierarkier Niveaubaseret hierarki Kun samme art elementer indenfor et niveau Typisk tid og geografi Id Land Verdensdel Verden 1 Danmark Europa 2 Tyskland 3 USA Nordamerika 4 Canada 5 Kina Asien
OLAP Måder at gemme data på i OLAP ROLAP (Relational) MOLAP (Multidimensionel) HOLAP (Hybrid) Summerede data i MOLAP model og atomare data i ROLAP løsning
OLAP-værktøjer Oracle OLAP (MOLAP database) Oracle Discoverer (ROLAP & MOLAP brugerfladeværktøj) Microsoft SQL Server Analysis Services (MOLAP database) Hyperion Essbase (nu købt af Oracle) Applix TM1 (MOLAP) MIS ALEA (MOLAP) PARIS Technologies PowerOLAP (MOLAP) Jedox Palo (MOLAP) (Open Source) Pentaho Mondrian (ROLAP) (Open Source)
Palo Gratis MOLAP database Hukommelsesbaseret Læse- og skrivemuligheder Flere forskellige brugerflader til Palo databasen Excel tilføjelsesprogram Selvstændig Java klient (jpalo.com) Web-/php-sider Version 1.0c vs. 1.5 Simpel og let tilgængelig Hjemmeside: palo.net
Mangler i Palo 1.0 og 1.5 Ingen brugerstyring (kun 1.0) Ingen direkte understøttelse af attributter på dimensionselementer (kun 1.0) Manglende mulighed for at opbygge formler/beregninger i Palo Kun addition og subtraktion indenfor dimensioner i en kube Denne mulighed vil eftersigende komme i version 2.0 planlagt til at udkomme denne sommer.
Værktøjer til load af data ind i Palo Palo Excel tilføjelsesprogram Specialversion af Kettle Baseret på en ældre version 2.3.1 af Kettle www.3a-strategy.com/public_files/kettle/ IMP:Palo Begrænset gratis udgave til PALO af et kommercielt ETL-værktøj specifikt rettet mod OLAP-databaser Endnu ikke tilgængelig på hjemmesiden www.imppalo.com
Data Mining værktøjer SAS SPSS Clementine Gratis / open source KNIME (installeret i Oracle menuen) www.knime.org Orange Tanagra Weka Yale