Adattárházak Flashcards
Adattárház
Tárgyorientált, integrált, az adatok történetiségét tároló, nem illékony adatrendszer, amelynek fő célja az adatokból történő hatékony információkinyerés biztosítása, elsősorban a döntéshozatali folyamatok támogatása céljából.
Tárgyorientált, tematikus
• Az adattárház a döntéshozók elemzési követelményeire fókuszál a döntéshozatal különböző szintjein, azaz különböző témákra, mint eladás, ügyfélviselkedés.
• Hagyományos adatbázis ezzel szemben az alkalmazások által végrehajtandó funkciókra fókuszál, azaz funkció-orientált. Például egy eladás regisztrálása.
Adattárház célja
• Adat olvasás
• Nagy mennyiségű adat gyors elérése
• Historikus adatok alapuló információval ellátás
• Döntéshozás támogatása
Integrált
Az adattárház heterogén adatforrásokból dolgozik, de ahhoz, hogy az adatokat át tudja venni, egy szabványos formára kell alakítania, egységbe rendezve egy helyre kell gyűjtenie. Az egységes megközelítés konkrétan egyetlen kulcsstruktúrát és egyetlen adatmegjelenítési módot jelent.
Nem illékony, tartós
Az adattárházba bevitt adatok csak akkor tűnnek el, ha explicit módon töröljük őket. A bekerült adatok tehát tartósan meg is maradnak (akár 5-10 évig).
Idő függő
Az adattárház adatai történeti adatokat (historical data), több éves tevékenységeket fognak át. Az adatokat az időpontok és időintervallumok szerint tárolják és kezelik, a forrásrendszerek változását nyomon követve.
Adattárházak által támogatott alkalmazások
• OLAP -> adat elemzés
• DSS -> döntés támogatás
• Data Mining -> tudásfeltárás
Adatpiac
Az adattárház része, mely a kiválasztott tárgyakra fókuszál. Hatóköre osztályszintű, míg az adattárházé szervezeti szintű.
Adattárházak koncepcionális felépítése
• ETL -> adat tisztítás és formázás
• OLAP, DSS, Data Mining -> új infó generálása
ETL részei
• Extract
• Transform
• Load
Extract
Adatokat gyűjt több, heterogén adatforrásból. Az adatforrások lehetnek hagyományos adatbázisok vagy különböző formátumú állományok.
Transform
Az adatforrás formátumában lévő adatot átalakítja adattárház formátumúvá.
Load
Betölti az átalakított adatot az adattárházba. Az adattárház frissítését is magában foglalja (propagating updates). A frissítési frekvencia változó, havitól a napi többszöriig.
Adattisztítás lépései
- Elemekre bontás
- Szabványosítás
- Verifikálás
- Illesztés
- Dokumentálás
Elemekre bontás
Az adatok atomi részekre bontását jelenti.
Szabványozás
Egységes jelölés bevezetése.
Verifikálás
A szabványosított elemek konzisztenciájának ellenőrzése.
Illesztés
Az aktuálisan vizsgált rekord (vagy néhány mezője) szerepel-e más helyen a céladatbázisban és tartalmában ugyanazon adatokat tartalmazza-e.
A rendszer itt a tárolt adatok alapján bizonyos belső korrelációkat tár fel, és figyeli, hogy a bejövő adatok mennyire felelnek meg a feltárt szabályszerűségeknek.
Ha egy adott nevű ügyfél már szerepel az adattárházban és egy rekordban újra találkozunk a nevével, leellenőrizhetjük, hogy a megfelelő lakcím, telefonszám, tartozik-e hozzá.
Dokumentálás
Ha sikerült megtisztítanunk egy adatot, akkor ezt a folyamatot megfelelően dokumentálni kell, általában a metaadatok értelemszerű módosításával.
Végfelhasználói eszközök
• OLAP eszközök -> ad hoc lekérdezések
• Riportoló eszközök -> előre definiált lekérdezések
• Statisztikai eszközök -> adatelemzés
• Adatbányászati eszközök -> tudás feltárás
Adattárházak osztályozása
Adattárházak nagyságrendekkel nagyobbak, mint a forrás adatbázisok.
• Vállalatszintű
• Virtuális
• Logikai
• Adatpiac
Vállalatszintű adattárház
Nagy projektek, masszív idő és erőforrás beruházással.
Virtuális adattárházak
A forrásadatbázisokon (a hatékony elérés miatt) materializált nézeteket valósít meg.
Logikai adattárházak
Adategyesítést, terjesztést és virtualizációt használnak.