10 Datahantering och Dataarkitektur Flashcards
Vilka fem “pelare” bör dataarkitekturen för BI baseras på?
Datakvalitet
Databredd (flera källor)
Data i rätt tid (timeliness)
Relevant data (ska ge affärsnytta)
Rätt detaljnivå på data (granularity)
Vad innebär databredd och hur samlas denna data in?
Flera datakällor:
- data-warehouse lösningar för att komma åt data från alla operationella systemen
- big data levererar än mer data
Vad innebär datakvalitet? (3)
Att datat är:
Logiskt sammanhållen (consistent)
Fullständig (complete)
Korrekt (accurate)
Vad påverkar datakvalitet? (2)
Datakvalitén börjar vid inmatningen:
- felaktiga inmatningsfält
- förkortningar/stavfel
Operationella system är inkonsistenta:
- olika begrepp
- olika information (samma kund i olika system)
Kan påverkas i ETL = Transformeringen
Vad är Data Governance?
Data Governance [kontroll över, och styrning av, data] är det ramverk som organiserar sättet att skapa strategier, sätta mål, och ge riktlinjer för hanteringen av verksamhetsdata
- tex gemensamma verksamhetsdefinitioner (vad innebär “kund”?)
Vad innebär Inmon-arkitekturen?
lagring, hämtning
Data lagras relationellt, detaljerat, på ett ställe, höggradigt normaliserat
Data marts optimerade för BI-utvinning byggs runt detta, speglar centrala data
- ibland endast visuella vyer (datan finns i databasen)
Vad innebär Kimball-arkitekturen?
lagring, hämtning
Data lagras dimensionellt, i denormaliserade stjärnscheman med gemensamma dimensioner
Data hämtas antingen direkt från källsystem, eller från data lagrat i staging-området (ETL)
Vilka två nya tekniklösningar dataarkitekturer finns?
Extremt snabba in-memory-tekniker:
- stora datamängder lagras i primärminnet (RAM)
Lagring i Hadoop DFS:
- data kan sedan tex laddas in i ett Data Warehouse och/eller… laddas in i ett in-memory-system för analys
Vad är MDM?
(Master Data Management)
- tekniker för att öka referensdatas korrekthet
Vad gör ett MDM-system?
MDM-systemet förser
transaktions- och andra källsystem med korrekta värden på referensdata (kundkoder, artikelkoder, etc)
- underlättar överföring till ett data warehouse
Hur fungerar ett dubbelriktat MDM-systen?
MDM-lagringen sker ”mellan” de operationella systemen och analyssystemen
Alla de tre delarna kan initiera nyupplägg och ändringar
– men MDM-systemet sköter synkronisering och ev. konflikthantering
Vad menas med “i rättan tid” gällande dataarkitektur?
Man vill reducera Data Latency
- data ska uppdateras i realtid för att förminska felaktigt beslutsfattande
Vilka olika typer av “Latency” pratas det om kopplat till BI och vilka aktiviteter är kopplade till dessa? (3)
Capture latency
- händelse -> källsystem -> BI-system
Analysis latency
- BI-system -> dashboard/rapport/varning
Decision latency
- analys (t ex rapport) -> beslut