56 - OLAP-určení, rozdíly oproti OLTP, datový model (datová kostka a operace, zobrazení kostky), datové sklady (struktura, komponenty) Flashcards

1
Q

Základní pojmy, big data, databázový model

A

Konceptuální schéma -> popisuje metadata systému, je v drtivé většině OBJEKTOVÉ, může mít grafickou syntax (ER, UML) nebo textovou syntax (CDL – Concept Definition Language). Schéma se používá jak pro vývojáře, tak pro uživatele.

Relační konceptuální schéma je velmi odlišné od objektového, v tomto ohledu jsou výhodné objektové databázové systémy, není potřeba složité transformace, ale relační systémy jsou mnohem používanější v praxi (často s doplněním objektových vlastností)

Big data
• Big data jsou data tak veliká a komplexní, že se stává obtížným zpracovávat je dostupnými databázovými prostředky nebo tradičními aplikacemi.
• musíme nově řešit výpočetní prostředky a ostatní technologie pro sběr, zpracování, ukládání, vyhledávání, sdílení, přenos, analýzu a vizualizaci.
• Hlavní důvody pro zavedení a další používání pojmu big data:
○ nárůst kapacity pro ukládání dat
○ nárůst výpočetní síly
○ velká dostupnost dat

• 3 (až 4)V:
	○ Volume (objem): generovaná data jsou produkována ve větších kvantech, nežli tradiční data
	○ Velocity (rychlost): rychlost zpracování
	○ Variety (různost): velká různost vstupních dat, která jsou zpracována na různá výstupní data
	○ někdy se přidává i Veracity (ne-pravdivost)

Databázový model
• Modely, které je schopen interpretovat systém pro řízení databázového systému SŘBD
• Jinak též zvané produkční modely
• V jejich definičním jazyku musejí být zapsána metadata pro všechny datové struktury uložené v databázi
• Prozatím budeme uvažovat relační a objektový datový model

pyramida - big data ExecutiveIS -> DecisionSS -> ManagementIS -> OLTP online transaction processing

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

OLTP

A

OLTP - on-line transaction processing

• Třída informačních systémů, které zpracovávají transakčně orientované aplikace
• Termín transakční je dvojznačný:
	○ databázové transakce
	○ komerční transakce
• mohou se ovšem překrývat
• Tento termín je rovněž používán v případě, kdy systém odpovídá okamžitě na uživatelovy požadavky změnou stavu.

• příkladem aplikace pro komerční transakce může být např.  bankomat.

* metodologie, která poskytuje koncovému uživateli přístup k rozsáhlým objemům dat a pomáhá jejich zkoumání.
* podpora pro databázové transakce, které zahrnují i síťové zpracování a mohou být dlouhé a distribuované
* užívají zpracování typu klient/server a dovolují transakcím běžet na rozdílných platformách v síti
* pro decentralizované databázové systémy musejí OLTP distribuovat transakce mezi mnoho počítačů a síť

aneb.

* slouží pro každodenní operace
* zaměřené na přesné uchovávání aktuálních dat 
* krátké jednoduché ACID transakce
* velké množství změn relativně jednoduchých dat 
* strukturované a opakující se dotazy
* velikost - řádově jednotky až desítky GB 
* metrika - průchodnost TRANSAKCÍ
* probíhá nad operačními DB -> důraz na konzistenci a možnost zotavení
* výkonné pro jednotlivé operace, pomalé pro komplexní agregované dotazy
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

OLAP

A

OLAP - On-Line Analytical Processing
• slouží k podpoře rozhodování
• pracuje s konsolidovanými agregovanými daty z heterogenních zdrojů (operační DB - i několik různých, pomocné soubory - text, CSV, excel)
• malé množství změn složitých dat
• velká intenzita jedinečných a složitých dotazů
• důraz na sumarizaci a konsolidaci dat, ne na přesnost jednotlivých záznamů
• průchodnost dotazů mnohem důležitější, nežli spolehlivé zpracování transakce
• velikost - řádově stovky GB až jednotky TB
• metrika - průchodnost DOTAZŮ, odezva

• pracuje nad datovými skladišti:
	○ databáze sloužící k podpoře rozhodování, která je uložena odděleně od operační databáze 
	○ data typicky ukládána multidimenzionálně (dimenze často hierarchické)
	○ ukládají i všechna historická data
	○ vyžadují speciální organizaci dat, přístupové a implementační metody
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Business intelligence

A

• procesy, technologie a nástroje potřebné k přetvoření dat a informací do znalostí pro podporu rozhodování na různých úrovních
• Př.:
○ Manager potřebuje vědět, kterým klientům může nabídnout po telefonu úvěrovou kartu, u kterých klientů je vysoké riziko odchodu ke konkurenci
○ Manager potřebuje znát vývoj tržeb za posledních třicet dní v členění dle regionů a produktů či jak se liší skutečný výkon společnosti od plánovaného

* Vstup: velké objemy (big data) primárních (produkčních) dat
* Výstup: znalosti, které lze využít v procesu rozhodování

• Prostředky business intelligence:
	1. Datové sklady (data warehouses)
		§ systém převodu a uložení dat pro analýzu, definovaní formálního modelu dat
		§ slouží především pro ukládání primárních detailních dat izomorfní homodelu (modelování reálného systému)
		§ výsledkem vesměs pevného počtu dotazů jsou především data explicitně uvedená v databázi bez dalších agregačních úprav
		§ výhodné především pro jednoduché transakce (vkládání, mazání…) -OLTP, naopak nevhodné pro složitější analýzu velkých dat

	2. OLAP (On-line AnalyticalProcessing)
		§ rozhraní pro manipulaci s modelem a zpřístupnění výsledků uživateli a dalším aplikacím

	3. Data Mining(dolování dat)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

DATOVÉ SKLADY (DATA WAREHOUSES)

A

• Podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých na získávání znalostí a podporu rozhodování
• obsahuje operační i agregovaná data.
• Datovým skladem nazýváme technologii
○ natažení (extrakce a transformation)
○ uložení (loading) a
○ poskytování
• dat pro podporu rozhodování prováděnou analýzou informací a vytvářením znalostí

• je typicky provozován odděleně od základní operační databáze (též databáze detailů nebo produkční databáze)

Datové trhy (Data mart) - podmnožiny datového skladiště poskytující data jednotlivým oddělením

Nevhodnost produkčních databází jako datových skladů:

	○ slouží především pro ukládání primárních detailních dat izomorfního modelu (modelování reálného systému)
	○ výsledkem vesměs pevného počtu dotazů jsou především data explicitně uvedená v databázi bez dalších agregačních úprav
	○ výhodné především pro jednoduché transakce (vkládání, mazání…) - OLTP, naopak nevhodné pro složitější analýzu velkých dat
	○ obvykle decentralizovanost systémů OLTP - data potřebná pro analýzu jsou většinou uložena v různých heterogenních DB na různých serverech, není většinou k dispozici integrovaný zdroj údajů a je složité tato data integrovat a homogenizovat
	○ nehomogenní struktura údajů – různé názvy vlastností, datové typy…
	○ nevhodnost technologie pro analýzy pro standardní výpočtové prostředky a modely
	○ degradace výpočetního výkonu databázového stroje  –neustále se opakujícími stejnými agregačními výpočty
	○ případně nejsou uchovávány historické údaje – uchovávají se zpravidla pouze aktuální dat

Vhodný model = vícerozměrnost

	○ aby bylo možno provádět komplexní analýzu a vizualizaci, jsou data v datovém skladu typicky modelována multidimenzionálně.
	○ jiný datový model, nežli relační
	○ klade důraz na strukturu pro budoucí dotazy ad hoc vyžadující agregační a statistické výpočty
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vlastnosti datového skladu, Datový sklad x produkční databáze, Požadavky na datový sklad

A

Vlastnosti datového skladu

1. Orientace podle dimenzí = Fakta jsou zapisována podle vlastností vyjádřeného průsečíkem n-dimenzí

2. Integrace
	○ data týkající se konkrétního předmětu se ukládají pouze jednou
		§ jednotná terminologie, jednotky veličin
	○ vytvořen případně integrací několika heterogenních zdrojů dat - relační databáze, textové soubory, on-line transakce
		§ problém nekonzistentních zdrojů dat
	○ nutnost úpravy, vyčištění a sjednocení (integrace) vstupních dat
		§ je nutné ověřit konzistenci v pojmenování proměnných, jejich struktury a jednotkách pro různé zdroje dat

3. Čas
	○ klíčový atribut (lineární, uspořádaný a spojitý), vhodný na spojité grafy
	○ Časový horizont datového skladu je zpravidla podstatně delší než u produkční databáze
		§ Produkční databáze: pouze současně aktuální data
		§ Data v datovém skladu: poskytují informace z historické perspektivy (např. posledních 5-10 let)
	○ Každá klíčová struktura v datovém skladu
		§ obsahuje čas, explicitně nebo implicitně
		§ klíč u produkčních dat nemusí vždy obsahovat čas

4. Neměnnost
	○ Zpravidla fyzicky oddělené uložení dat transformovaných z produkčních databází
	○ V datových skladech se data nemění, manipulace s daty je tedy jednodušší.
		§ dva typy operací: vkládání dat a čtení dat
		§ optimalizace a normalizace ztrácí smysl
		§ nepotřebuje se zpracování transakcí, zotavení, mechanismy pro řízení souběžného přístupu

produkční databáze X Datový sklad

Uživatelé a orientace systému: zákazník X obchodník
Datový obsah: současná, detailní X historická, sloučená
Návrh databáze: ER model + aplikace X multidimenzionální kostka, dimenze, fakta
Pohled na data: aktuální, lokální X evoluční, agregovaný
Přístupové vzory: jednoduchá aktualizace X read-only, ale komplexní dotazy

Požadavky na datový sklad
• schopnost agregace
• databáze navržená pro analytické dotazy
• možnost integrovat data z více aplikací
• častá operace čtení z databáze
• nahrání dat po určité časové periodě
• možnost využití současných i historických dat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Architektura datového skladu (získání dat, uložení dat, předávání výsledků)

A

Schéma: -> data (produkční db, monitoring data,..) -> ETL (extrakce, transformace, zavedení (loading)) -> datový sklad (a datové trhy) -> OLAP -> uživatelé (analýza,..)

!!! Získání dat !!! (Hlavní cíl: integrace údajů)

* Zdrojová data + místo přípravy dat (ETL)
* extrahování dat z mnoha produkčních databází a externích zdrojů
* čištění, transformování a integrování těchto dat - Extraction, Transformation, Loading - ETL
* Periodické doplňování datového skladu tak, aby odrážel změny v produkčních databázích a přenos dat  z datového skladu, nejčastěji do pomalejší archivní paměti.

• Extrakce – výběr dat různými metodami
	○ Přímá extrakce
		§ Liší se způsobem zachycení změn v DB od posledního nahrání
			□ Zachycení pomocí log souborů (vytvořených databází)
			□ Zachycení pomocí databázových triggerů
		§ Při každé změně se spustí trigger, který zapíše změnu do souboru
			□ Zachycení pomocí samotných databázových aplikací
				® Editace aplikace tak, aby ukládala záznamy o provedených změnách v DB

	○ Odložená extrakce
		§ Nezachycují změny při jejich vzniku, ale až při nahrávání se porovnává zdrojová a cílová DB
			□ Zachycení pomocí časových razítek
		§ Razítky jsou označeny záznamy, které byly přidány nebo editovány – ty se pak při nahrávání dat naleznou (problém s mazáním)
			□ Zachycení pomocí porovnávání souborů
		§ Vytvoří se soubor s kopií dat ve stavu současném a včerejším, pak se soubory porovnají (velmi neefektivní)

• Transformace – ověření, čištění (ověření nekonzistencí), integrace a časové označení dat
  • různé typy polí
  • různé názvy polí
  • různá sémantika polí (stejná pole různé sémantiky)
  • chybějící položky (povinné/volitelné položky)
  • různá integritní omezení• Loading – přesun dat do datového skladu
    ○ Iniciální nahrávání - Nahrávání všech dat do prázdného skladu
    ○ Inkrementální nahrávání - promítnutí změn v DB do datového skladu (provádí se periodicky)
    ○ Přepis dat - kompletní smazání obsahu skladu a nahrání aktuálních dat

!!! Uložení dat !!!

• Datový sklad + datové trhy + uložení metadat
• Datové trhy (Data mart) - podmnožiny datového skladiště poskytující data jednotlivým oddělením - k hlavnímu datovému skladu je přidruženo několik datových trhů (data marts) různých dílčích uživatelů.

• data ve skladu a trhu jsou uložena a spravována jedním nebo více skladovými servery, které prezentují multidimenzionální pohled na data OLAPu a/nebo přímo různým koncovým prostředkům
• Jde o oddělené skladiště pro uložení velkého množství především historických dat
• Je navrženo pro analýzu, ne pro rychlý přístup k datům
• Jsou pro uživatele read-only
• Musí být přístupná pro více druhů nástrojů –odpovídající rozhraní Repozitory -> pro ukládání a správu metadat(katalogu) a pro monitorování a administraci systému datového skladu

• Typy metadat:
	○ Produkční metadata - obsahují informace o všech zdrojích dat pro datový sklad (struktura, umístění atd.)
	○ Metadata o extrakci a transformaci - informace o tom, jaké metody byly použity při ETL fázi, různá omezení apod.
	○ Metadata pro koncového uživatele - informace o datovém skladu a datech v něm, další obchodní a jiné informace, které může využít pro analýzu

• Uložiště multidimenzionálních údajů
	○ relační x multidimenzionální databázový model
		§ formát dat
		§ objem dat – nutnost komprese
		○ 4 základní typy uložišť –podle způsobu uložení dat (viz dále)
			§ MOLAP
			§ ROLAP
			§ HOLAP
			§ DOLAP

!!! Předávání výsledků !!!

• přes model multidimenzionální databáze samotné získání informací (OLAP, data mining, tiskové sestavy atd.)
• Tenký klient
	○ Pro přístup k údajům požívá např. www prohlížeč
	○ Vše ostatní běží na serveru
	○ Výhoda: možnost použití různých platforem, levný HW
	○ Nevýhoda: omezení uživatelského rozhraní (protokol HTTP)
• Tlustý klient
	○ Aplikace běží na lokálním počítači, údaje jsou na serveru
	○ Vyšší nároky na hardware pro lokální stanice
	○ Nutnost více kopií SW –dražší licence
	○ Nutnost vývoje aplikace pro různé OS zvlášť
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

OLAP: Online Analytical Processing (Data Warehousing)

A
  • technologie uložení dat v databázi, která umožňuje uspořádat velké objemy dat tak, aby byla data přístupná a srozumitelná uživatelům zabývajícím se analýzou obchodních trendů a výsledků (Business Intelligence).
  • Způsob uložení dat se svým zaměřením liší od běžněji užívaného OLTP (Online Transaction Processing), kde je důraz kladen především na snadné a bezpečné ukládání změn v datech v konkurenčním (víceuživatelském) prostředí.

Základní rozdíly mezi OLAP a OLTP vyplývají z rozdílného použití – u OLAP se jedná o jednorázově nahrávaná data, nad kterými jsou prováděny složité dotazy, u OLTP jsou data průběžně a často modifikována a přidávána, a to obvykle mnoha uživateli zároveň.

OLTP
- slouží pro každodenní operace
- zaměřené na přesné uchovávání aktuálních dat
- krátké jednoduché ACID transakce (atomicity, consistency, isolation, durability)
- velké množství změn relativně jednoduchých dat
- strukturované a opakující se dotazy
- velikost - řádově jednotky až desítky GB
- metrika - průchodnost transakcí
- probíhá nad operačními DB
• důraz na konzistenci a možnost zotavení
• výkonné pro jednotlivé operace, pomalé pro komplexní agregované dotazy

OLAP
- slouží k podpoře rozhodování
- pracuje s konsolidovanými agregovanými daty z heterogenních zdrojů (operační DB - i několik různých, pomocné soubory - text, CSV, excel)
- malé množství změn složitých dat
- velká intenzita jedinečných a složitých dotazů
- důraz na sumarizaci a konsolidaci dat, ne na přesnost jednotlivých záznamů
- průchodnost dotazů mnohem důležitější, nežli spolehlivé zpracování transakce
- velikost - řádově stovky GB až jednotky TB
- metrika - průchodnost dotazů, odezva
- pracuje nad datovými skladišti
• databáze sloužící k podpoře rozhodování, která je uložena odděleně od operační databáze
• data typicky ukládána multidimenzionálně (dimenze často hierarchické)
• ukládají i všechna historická data
• vyžadují speciální organizaci dat, přístupové a implementační metody

  • NEMÁ NF, VÍCE INDEXŮ, AGREGOVANÉ A PŘEDPOČÍTÁNÉ HODNOTY
    • OLAP nepoužívá na rozdíl od OLTP normalizované uložení dat v 3NF formě – data jsou v uložena tak, aby umožňovala rychlou realizaci složitých dotazů, časté je zdvojené (redundantní) uložení, které by v případě OLTP komplikovalo provádění změn v datech,
    • OLAP používá podstatně více indexů než OLTP – opět to souvisí se zaměřením, kde indexy umožňují rychlé provedení složitých dotazů,
    • OLAP na rozdíl od OLTP často používá přepočítané agregované a odvozené hodnoty.• 12 pravidel pro OLAP:
    1. Multidimenzionální konceptuální model - OLAP by měl poskytovat uživateli multidimenzionální model tak, aby odpovídal jeho potřebám a aby tento model mohl využívat pro analýzu shromážděných údajů.
      2. Transparentnost -  Aby uživatel mohl plně využít svoji produktivitu, odbornost a prostředí docílíme tím, že technologie systému OLAP, jeho databáze a architektura výpočtu bude transparentní. Důležité je, že vstupní data jsou heterogenní a jejich homogenitu zajistíme pomocí ETL.
      3. Dostupnost - Systém OLAP by měl přistupovat pouze k údajům, které jsou potřebné pro analýzu. Systém by měl navíc být schopen přistupovat ke všem takovým údajům nezávisle na tom, z kterého heterogenního podnikového zdroje pocházejí a jak často jsou obnovované.
      4. Stabilní výkonnost - Při rostoucí velikosti DB by nemělo nastat snížení výkonu, Uživatel nesmí pocítit žádné podstatné snížení výkonu i když velikost databází postupem času narůstá
      5. Architektura klient-server - Systém OLAP musí fungovat na základě architektury klient/server. Důležitá je cena, výkon, flexibilita, interoperabilita
      6. Generická dimenzionalita - Každá dimenze údajů musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech
      7. Dynamické ošetření řídkých matic -  Systém OLAP musí být schopen přizpůsobit svoje fyzické schéma na konkrétní analytický model, který optimálně ošetří řídké matice za současného udržení požadované úrovně výkonu
      8. Podpora pro více uživatelů - Systém OLAP musí být schopen podporovat více uživatelů nebo skupin uživatelů pracujících současně na konkrétním modelu.
      9. Neomezené křížové dimenzionální operace - Systém OLAP musí rozeznat dimenzionální hierarchie a automaticky vykonávat výpočty v rámci dimenzí a mezi dimenzemi
      10. Intuitivní manipulace s údaji - Možnost přeorientování na detailní úroveň a zpět,  Uživatelské rozhraní musí umožňovat všechny manipulace s daty v pro něj přístupném (user-friendly) prostředí. Například musí zvládat intuitivně operace drill-down a roll-up
      11. Flexibilní vykazování - Schopnost uspořádat řádky, sloupce a buňky způsobem, který umožní analýzu a intuitivní prezentaci analytických sestav
      12. Neomezené dimenze a úrovně agregace -V závislosti na požadavcích procesu rozhodování může mít analytický model více dimenzí, přičemž každá z nich může mít víceúrovňovou hierarchii. Analytický model by neměl být uměle omezovaný počtem dimenzí a úrovní hierarchie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Architektury serveru OLAP

A

Shrnutí
MOLAP - Multidimenzionální paměťový stroj založený na polích (array) - techniky řídkých matic
ROLAP - Užívá relační nebo rozšířená relační SŘBD
Hybridní OLAP (HOLAP) - Uživatelská flexibilita kombinující MOLAP a ROLAP
- Data v relačních tabulkách, agregace se ukládají do multidimenzionálních struktur
- Využití multidimezionální cache

DOLAP = Desktop OLAP, Multidimenzionální tabulky uloženy na klientském počítači, datový sklad na serveru ve formě relačních tabulek - prostě multidimenzialita uložená na desktopu v nějákém spešl softwaru

Multidimenzionální OLAP (MOLAP)

* Multidimenzionální paměťový stroj založený na polích (array) - techniky řídkých matic
* Rychlé indexování předzpracovaných agregovaných dat
* Data se získávají z DB nebo datového skladu
* Ukládají se do vlastních datových struktur
* Databáze konstruována pro rychlé vyhledávání údajů
* Výhoda:  maximální výkon
* Nevýhoda:  redundance údajů, velké prostorové nároky

Relační OLAP (ROLAP)

• Užívá relační nebo rozšířená relační SŘBD
• Zahrnují optimalizaci back-endu SŘBD, implementaci agregační navigační logiky a dodatečných pomůcek a služeb
• Velká možnost škálování
• Údaje jsou získávány z relačních tabulek, jsou uživateli předkládány jako multidimenzionální pohled
• Data jsou uložena jako záznamy relační tabulky (datová skladiště nad klasickými nebo rozšířenými relačními DB)
• Žádná redundance - speciální SQL podpora pro multidimenzionální dotazování
  • Hvězdicové schéma
    ○ užívá většina datových skladišť k reprezentaci multidimenzionálního modelu
    ○ jedna tabulka hodnot
    ○ jedna tabulka pro každou dimenzi (sloupce odpovídají atributům dimenze)
    ○ Každá n-tice v CENTRÁLNÍ TABULKA HODNOT sestává z ukazatele do každé dimenze, který poskytuje jeho multidimensionální souřadnice.
  • Sněhová vločka (snowflake) - hierarchie dimenzí je explicitně reprezentována normalizováním tabulek dimenzí (vlastně to samé ale jednotlivé tabulky normalizovány)
  • Sumarizační tabulky - obsahují předagregovaná data - v nejjednodušším případě odpovídají předagregovaná data agregování tabulky hodnot podle jedné nebo více vybraných dimenzí

Porovnání !!!

ROLAP

  • Data uložena v relačních tabulkách
  • Možnost získat detailní i agregovaná data
  • Velké datové prostory
  • Veškerý přístup k datům prostřednictvím datového skladu
  • Použití komplexních SQL dotazů k získání dat ze skladu
  • Datové kostky jsou vytvářeny za běhu
  • Multidimenzionální pohledy vytváří prezentační vrstva
  • Známé prostředí a možnost použití známých nástrojů
  • Limitované použití komplexních analýz
  • Omezené použití operace drill-across

MOLAP

  • Data neuložena v relačních tabulkách
  • Různá agregovaná data uložena v multidimenz. databázi
  • Průměrně velké datové prostory
  • Přístup jak do MDDB (sumy), tak do datového skladu (detailní data)
  • Vytváření datových kostek předem
  • Použití technologie pro ukládání multidim. dat v polích, ne tabulkách
  • Technologie pro zpracování řídkých matic
  • Rychlejší přístup
  • Velká knihovna funkcí pro komplexní analýzu
  • Snadná analýza bez ohledu na počet dimenzí
  • Rozšiřující prostor pro operace drill-downa slice-and-dice
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Multidimenzionální datová kostka

A

Definice multidimenzionální kostky
• Nechť existuje uspořádaná množina n dimenzí{D1, D2, D3, … ,Dn}
• tj. existuje relace uspořádání R ( < ) nad množinou dimenzí (např. čas, katalog, místo)

* počet různých prvků relace R je n! (počet permutací nad n, počet různých uspořádání) (čas, katalog, místo; místo, katalog, čas;...)
* je to také počet stěn n-dimenzionální kostky. Proto má 3D kostka na vrhcáby 6, tj. 3! stěn a dvoudimenzionální čtverec 2, tj. 2! stěn. 

• Nechť existuje uspořádaná podmnožina aktivních dimenzí{A1, A2, A3, … ,Am}, kde m < =n,A1 =Di1, A2= Di2, A3= Di3, … ,Am= Dim a Di1  <  Di2 < Di3 < … < Dim Aktivní dimenze budou uspořádány stejně jako v původní množině všech dimenzí

roll-up–(vyrolování) - vzrůst agregace a zobecnění - posun o jednu úroveň výše v uspořádání kuboidů -> snížení počtu aktivních dimenzí o 1
○ vzrůst úrovně agregace
○ Posun o jednu úroveň výše v uspořádání kuboidů
○ Vstup: uspořádaná množina m aktivních dimenzí {A1, A2, A3, … , Ai,… ,Am-1 , Am}, kde m>=1
○ Výstup: uspořádaná množina m-1aktivních dimenzí {A1, A2, A3, … ,Am}, tj. Ai bylo deaktivováno.
○ Nejčastěji se deaktivuje nejmenší dimenze Am, tj. z {A1, A2, A3, … ,Am} vznikne {A1, A2, A3, … , Am-1 }

drill-down(zavrtání) - snížení úrovně agregace a zvýšení detailu, Posun o jednu úroveň níže v uspořádání kuboidů, zvýšení počtu aktivních dimenzí o jedna
○ Vstup: uspořádaná množina m viditelných dimenzí {A1, A2, A3, … ,Am}, kde m<=n
○ Výstup: uspořádaná množina m+1aktivních dimenzí {A1, A2, A3, … , Ai,… ,Am-1 , Am}, kde Ai je vybrána z neaktivních Di tak, aby platila definice aktivních dimenzí
○ Nejčastější variantou je přidání nejmenší neaktivní dimenze na konec, tedy vznikne {A1, A2, A3, … ,Am, Am+1}
○ Pro m=n bude výsledkem detail všech hodnot
○ Je možné provést i zavrtání do základního kuboidu, neboť i jeho fakta jsou agregací detailních hodnot pro všechny aktivní dimenze

pivoting(přetočení) – změna relace R pro uspořádání dimenzí (prostě to prohážeš - “otočíš”)
○ Změna uspořádání R nad stejnou množinou dimenzí
○ Vstup: uspořádaná množina dimenzí {D1, D2, D3, … ,Dn}, kde uspořádání je jedna z možných relací R, kterých je n!
○ Výstup: uspořádaná množina dimenzí {Dx1, Dx2, Dx3, … ,Dxn} a obecně jiná relace uspořádání R(jedna z možných n!)
○ Jde o otočení jedné ze stěn kostky k sobě, proto pivoting.

slicing&dicing(seříznutí) – výběr projekce = Změna skutečné kardinality jedné nebo více dimenzí = prostě SELECT WHERE -
○ Změna skutečné kardinality jedné nebo více dimenzí
○ Vstup: uspořádaná množina dimenzí {D1, D2, D3, … ,Dn}, kde k1, k2, k3, … ,ki,…,kn jsou skutečné kardinality jednotlivých dimenzí
○ Výstup: uspořádaná množina dimenzí {D1, D2, D3, … ,Dn}a obecně jiné k1, k2, k3, … ,li,…,kn, kde ki <>li

!!! ○ Změnu lze provést výběrem, nastavením filtru ve tvaru predikátu apod. Výsledek ovlivňují i filtry neaktivních dimenzí !!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Reprezentace multidimenzionálních dat ve 2D

A
  • například pro tisk, zobrazení na monitoru, …

Dynamická tabulka (DT)
• od společnosti Vema
• rozdělena na sloupce dimenzí a sloupce faktů
• hierarchie dimenzí není – dimenze jsou ploché
• řádek tvoří uspořádanou n-tici dimenzních a faktových položek
• sloupce klíčů lze zaměňovat a třídit – pivoting
• zakrýváním klíčových sloupců lze zvyšovat a snižovat agregaci – roll-up, drill-down
• všechny sloupce lze zneviditelnit, případně nastavit filtry – slice & dice
• prostorově náročnější, avšak jsou vidět všechny agregační i dimenzní položky

Kontingenční tabulka (KT)
• od společnosti MS
• řádky i sloupce jsou dimenze (hierarchické)
• fakta jsou průsečíky dimenzí
• fakt je proto v zásadě pouze jediný, více faktů se v průsečíku hůře zobrazuje, řeší se to záložkami nebo více sloupci, což je nepřehledné
• dimenze lze přesunovat a zaměňovat – pivoting
• zakrýváním hierarchie dimenzí lze zvyšovat a snižovat agregaci – roll-up, drill-down
• všechny sloupce lze zneviditelnit nebo nevyužívat – slice&dice
• prostorově méně náročná, avšak nejsou vidět všechny faktové položky a hierarchie dimenzí může být nepřehledná

How well did you know this?
1
Not at all
2
3
4
5
Perfectly