12. Multidimenzionális modellezés I. Flashcards
Multidimenzionális modellezés 4 komponense
Cél: Több szempontból adatok megismerése
Adatkocka –> 3 dimenzió, 3 élen
Fő komponensek:
-Tények
-Dimenziók
-Hierarchia
-Aggregációk
Tények
Adat típus:
-numerikus: pld. nyereség
-enumerikus: konstansok halmaza
Származás:
-forrásból
-ETL-ben számolt
-On The Fly –> riportban számoljuk ki
Kimball konszolidációs szabályai:
-additív –> minden dimenzió fele lehet aggregálni
-féladditív –> pld. idő dimenziónál nem lehet
-nem additív –> pld. százalékok
Dimenziók
Felhasználó szemszögéből vett nézet egy üzleti mutató számra
-Bármennyi oszlop
-Elsődleges kulcsa –> FK a ténytáblában
-adatok denormalizáltak (ismétlődések)
-véges számú hierarchiai kapcsolat (pld termék –> altermék)
-Tartalmaz legalább 1db Hierarchia objektumot (Level of Graduality Node) és virtuális All-Node-t
-Dimenzió modellezésnek egységesnek kell lennie (kimball)
Hierarchiák
- Lapos struktúra
- Lapos + All Node
- Kiegyensúlyozott fa
- Kiegyensúlyozattlan fa
- Párhuzamos struktúra
- Heterarchia (több-többhöz)
Aggregációs szabályok
additív –> összeadható
féladditív –> csak bizonyos dimenziók mentén lehet összeadni
nem additív –> nem összeadható, más aggregáló műveletek esetleg (avg, min, max)
Csillagséma
Klasszikus séma
1db ténytábla, több dimenzió
Denormalizált adatok
+Átlátható,Egyszerű
+Kevés join-t kell használni –> gyors olvasás
Galaxis és Hópehely séma
Galaxis séma:
-csillag séma kibővítése (kimball)
-2db/több ténytábla –> 1/több közös dimenzió –> galaxis
-dimenzión keresztül egyik tényből átmehetünk másikba
Hópehely:
-csillagséma normalizálása (3NF) –> (leíró adatokat nem akarjuk ismétlődően tárolni)
+Költséges join műveletek elkerülése a cél –> dimenziók normalizálása