DW/BI/BA etc Flashcards
Metadata
Data om data. Beskriver egenskaper hos datan, exempelvis när samlades den in och om den har behandlats
OLAP
OLAP är en term för att beskriva analysering, karaktärisering och sammanfattning av strukturerad data lagrad i t.ex. data warehouses eller data marts med hjälp av s.k. “cubes”. Detta är en del av deskriptiv analytics som också kallas för Business Intelligence (BI) eller business reporting. Syftet är att stödja strategiskt beslutsfattande genom att erbjuda multidimensionella ad hoc-analyser.
2/2p svar: “Online analytics processing. Till skillnad från OLTP-system som behandlar transaktioner och basdata i organisationen analyserar OLAP multidimensionell data och själva analysen av den: exempelvis data cubes.”
(*cubes = multidimensionella datastrukturer skapade för att extrahera en subset av datavärden för att besvara en specifik företagsfråga).
Data warehouse (DW)
- En datakälla/en slags pool av data producerad för att stödja beslutsfattande.
- Ett DW lagrar framförallt historisk data som kan vara av intresse för organisationens beslutsfattare och den är strukturerad för att vara tillgänglig i en form som gör den redo för analys (t.ex. genom OLAP, data mining och andra beslutsfattande applikationer).
- Det är en subjektsorienterad, integrerad och icke-volatil samling data som alltså stödjer managers beslutsfattande.
OLTP-system
OLTP står för Online Transaction Processing. OLTP-system används för hantering av transaktioner såsom leveranser, inventeringskontroll, fakturering och andra ofta återkommande/förutsägbara/repetitiva aktiviteter. Baseras på traditionella, relationella databaser.
Det är högvolymsystem byggda för att hantera stora volymer av transaktioner på ett så effektivt sätt som möjligt. Kan liknas vid ERP-system, t.ex. SAP, som hanterar basdata och transaktioner i organisationer.
Hur skiljer sig DW och OLTP-system åt från en beslutsfattares synvinkel?
Framförallt är OLTP gjorda för transaction processing och är transaktionsdrivet, inte för att stödja beslutsfattare (vilket DW är utformat för genom att vara analytiskt drivet). OLTP-system saknar historisk data relevant för beslutsfattande och är utformat för att hantera många transaktioner i realtid. OLTP finns mer för att stödja den operativa verksamheter och aktiviteter som är mer repetitiva och förutsägbara (t.ex. fakturering eller kontroll av inventering/leveranser). OLTP kan alltså hjälpa med att fatta snabba, precisa och operationella beslut. DW är utformat för att hantera stora mängder data från olika källor och för att lagra datan så att den kan analyseras på ett meningsfullt sätt. DW är optimerade för att stödja beslutsfattande genom att möjliggöra djupgående analyser och rapportering av data över tid genom tillgång till historisk data, trender och mönster vilket kan underlätta för strategiska beslut.
Vad innebär dimensionell modellering?
- Dimensionell modellering kan beskrivas som designen av datarepresentationen inom data warehouses.
- Det är en datamodelleringsteknik som syftar till att boosta processande av komplexa och multidimensionella förfrågningar.
- Man delar in data i (oftast) en central faktatabell och omringat av och sammankopplat via främmande nycklar med flera dimensionetabeller.
- Kan implementeras genom antingen ett “star schema” eller “snowflake schema”.
Ge en definition av faktatabell och dimensionell modell. Beskriv kort vad star schema inom dimensionell modellering innebär och dess fördelar och nackdelar.
- Star schema är designat för att ge snabb svarstid och enkelhet till en read-only databas.
- En central faktatabell innehåller ett stort antal rader som relaterar till observerad fakta och främmande nycklar. Faktatabellen innehåller deskriptiva attribut som krävs för att utföra beslutsanalys och query reporting och de främmande nycklarna används för att koppla till dimensionstabellerna. Innehåller få kolumner och många rader.
- Dimensionstabellerna är länkade till faktatabellen via främmande nycklar och innehåller attribut som beskriver datan inom faktatabellen; de anger hur datan ska bli analyserad och sammanfattad. Svarar på frågorna vem, vad, när, hur var. Innehåller få rader men många kolumner. GLIS är ett exempel på en dimensionell modell (man kan t.ex. titta per period, institution och kurs).
- Exempel: dagligvaruhandel. faktatabellen = antal köpta produkter i varukorgen, deras sammanlagt pris etc. Dimensionerna är t.ex. kund (attribut = ålder, tid som kund etc), produkt (attribut = produkttyp, avdelning), tid (datum, vardag/helg) och plats (region, affär, vilken typ etc)
Fördelar med star schema: 1) enkel att förstå även för icke-tekniska användare 2) enkelt att addera nya fakta eller dimensioner
Nackdelar: 1) svårt att ändra övergripande strukturen 2) risk för redundant data
Snowflake schema inom dimensionell modellering
<3en delvis normaliserad star schema<3
Ett snowflake schema är en dimensionell modell som liknsom namnet antyder är utformat med (oftast) en central faktatabell omringad av flera dimensionella tabeller i ett slags snoflingemönster runtomkring. Faktatabellen är kopplad till flera dimensioner genom främmande nycklar.
Dimensionstabellerna är normaliserade till flera relaterade tabeller (jämförelsevis star schema som är denormaliserad och där varje dimension representeras av endast en tabell).
Exempel: dagligvaruhandel. Faktatabell = t.ex. sålda enheter. Kopplas till dimensionen “datum” som i sin tur kopplas till två nya dimensionella tabeller för “kvartal” och “månad”
Fördelar: förenklar uppdateringar
Nackdelar: ökad komplexitet
Normalisering
Normalisering innebär att man delar upp en tabell i mindre delar för att minska redundans och kopplingar mellan tabeller för att undvika avvikelser. Normalisering är en viktig process för att säkerställa att databaser är effektiva, korrekta och lätta att hantera.
Cubes in OLAP
- OLAP använder sig av s.k. cubes för att representera multidimensionell data.
- Cubes kan alltså definieras som multidimensionella datastrukturer som tillåter snabba dataanalyser.
- Det kan även definieras som möjligheten att effektivt manipulera och analysera data utifrån flera perspektiv.
Genom att arrangera data i cubes överkommer man relationella databasers begränsning; nämligen att relationella databaser inte är lämpliga för snabba analyser av stora mängder data.
Cubes är skapade för att extrahera en subset av datavärden för att besvara en specifik företagsfråga.
Beskriv relationen mellan OLAP och OLTP.
OLTP hanterar transaktionella och operativa day-to-day aktiviteter (t.ex. fakturering, kontroll av leveranser etc). OLAP är å andra sidan designat för att genom analysering, karaktärisering och summering av data inom t.ex. data warehouses kunna ge multidimensionella ad hoc-analyser för att stödja strategiskt beslutsfattande.
OLAP och OLTP är tätt sammankopplade. OLAP använder sig av data som finns i OLTP-system i sina multidimensionella analyser. Beslut som baserats på/tagits med hjälp av OLAP kan sedan bli automatiserade business processes i OLTP.
Data mart (DM)
En nerskalad version av ett DW som fokuserar på requests från en specifik avdelning, t.ex. marknadsföring eller sales. (Dvs småskaliga datalager byggda för enskilda funktioner, avdelningar eller processer). Dvs ett Subjektsorienterat /avdelningsorienterat DW
- “Bottom up approach”
- Finns både virtuella, dependent och independent data marts
- Står i kontrast till EDW (enterprise-wide data warehouse)
Beskriv Enterprise-wide data warehouse (EDW). Vilka nackdelar finns det?
Ett Data Warehouse som sträcker sig över hela organisationen och samlar all data från alla avdelningar i ett enda stort warehouse. Brukar också kallas Inmon-approachen. (2/2 poäng)
_________________________
- Erbjuder en enhetlig helhetsbild över organisationen. Kan beskrivas som ett storskaligt/sammankopplat nätverk av många data marts.
- Top-down approach. Dvs först en data warehouse för hela verksamheten, sen DM på avdelningsnivå. Även en datadriven approach.
- Nackdelar är att de är dyra och tar lång tid att utveckla. Många företag börjar med en eller några data marts för att sedan allteftersom verksamheter växer utveckla ett EDW som “tar upp” alla DMs. Kan också vara ett sätt att genom enstaka DM’s visa på lönsamhet för att motivera investering i EDW’s. Centraliserad utveckling
ETL
Extract, transform, load. Själva processen i att hämta data från flera källor, behandla den så den är i rätt format och att till slut ladda in den i DW.
Independent data mart
Ett data mart (litet datalager) som hämtar data direkt från olika källor (snarare än från ett centrallager som ett dependent data mart gör).
Nackdel: kan få olika svar (om vi har olika ETL process?)
Dependent data mart
En “subset” som skapas direkt från data warehouset, dvs hämtar data från ett centrallager (VS ett independent data mart som hämtar data från olika källor). Kallas för Hub & Spoke arkitektur.
Fördel: Har enhetlig data pga delar ETL-process.
ODS
Operational data store. Ett mellanlager eller separat system dit data laddas innan uppladdning i ett data warehouse. Kan användas t.ex. för dashboard eller rapportering, eller som ställe att bearbeta data.
Granularity/Granularitet
Grad av detalj i datan. T.ex. transaktion eller periodisk snapshot.
Hög granularitet = stora korn, dvs odetaljerat (t.ex. en snapshot).
Låg granularitet = små korn, mycket detaljerat (t.ex. en transaktion)
Drill down/(drill up)
OLAP-teknik där användaren navigerar mellan olika lager av data; från den mest sammanfattade (up) till den mest detaljerade (down).
Data integration
Innehåller tre huvudaktiviteter:
1) Data access
2) Data federation
3) Change capture
När dessa tre aktiviteter är korrekt implementerade är data gjort tillgänglig för flera ETL-verktyg och DW-miljöer.
Big data brukar ofta beskrivas utifrån fyra V:n; volume, velocity, variety och veracity. Vad innebär vart och ett av dessa (ge gärna exempel utgående från data)? Vilka implikationer finns det för analytics?
Volume syftar på de stora mängderna data som genereras och ökar exponentiellt. T.ex. i online streaming tjänster som YouTube eller genom automatiskt genererad GPT-data. Massiva datasets finns tillgängliga och kan användas för analys. Implikationer för analytics innebar förut lagringsutrymme men idag handlar det mer om att avgöra relevans bland de stora mängderna data.
Velocity syftar på hur snabbt nya data genereras, t ex genom sensorer i Internet of Things-apparater, smart meters och GPS-devices. Velocity handlar också hur snabbt data bör processas för att möta behoven och kraven. Implikationer för analytics innebär just att klara av att processa data lika snabbt som det genereras (desto äldre datan blir, ju mindre värdefull blir den. Tänk t.ex. patienthälsa eller trafiksystem).
Variety syftar på de många olika formerna som data kan anta (TYPERNA av data), från strukturerade, numeriska sensordata, till audio/video eller grafdata, till semistrukturerad text. Man uppskattar att stora delar av organisationers data är o-/semistrukturerad och därför inte lämpade för vanliga databasscheman men att detta ändå är viktigt för analytics att inkludera i beslutsfattande.
Veracity syftar på kvaliteten eller pålitligheten på data, vilken kan variera kraftigt i big data tillämpningar. Grundprincipen är att bevara allt och ta ställningen eller behandla för pålitligheten i analysfasen.
Vilka implikationer har de fyra V’na i Big data för beslutsfattare jämfört med data typiskt för DW? Vilka två huvudsakliga problem finns det?
Generellt sett kommer inte alla big data att
visa alla dessa egenskaper, t ex väderdata blir volymmässigt stora i antal observationer men tar inte nödvändigtvis mycket lagringsutrymme.
Däremot genereras de oerhört tätt. Samma håller för Twitterdata.
Big data innebär två stora utmaningar för beslutsfattare som vill använda sig av dem. Den första är lagring av data (t ex hur lagra dessa enorma mängder data som genereras oerhört snabbt) och den andra är hur analysera dem (utöver volym och velocitet har vi ju problem med olika typer av data och deras pålitlighet). Vanligen anses distribuerad lagring (bryta ner lagringen på många enskilda noder ofta i en molnomgivning) och distribuerad processering (bryta ner behandlingen till mindre uppgifter som kan skötas parallelt och oberoende av
varandra i en molnomgivning) som i Hadoop/MapReduce omgivningen vara lösningen.
Vad används de fyra V:na till?
4V (eller 3V eller 5V) modellerna är ett sätt att försöka karaktärisera egenskaperna hos big data, och framför allt, hur de skiljer sig från vanliga (“traditionella”) data
Vad är grundprincipen i big data?
Grundprincipen är att bevara allt och ta ställningen eller behandla för pålitligheten i analysfasen. Generellt sett kommer inte alla big data att visa alla dessa egenskaper, t ex väderdata blir volymmässigt stora i antal observationer men tar inte nödvändigtvis mycket lagringsutrymme. Däremot genereras de oerhört tätt. Samma håller för Twitterdata.
Vad är data science och vilka tre huvudprocesser är viktiga inom data science?
Data science är ett interdisciplinärt fält fokuserat på att extrahera kunskap och insikter från data för att stödja beslutsfattande. Sker genom bl.a. computation, statistik, och vetenskapliga metoder. Det utgörs av tre huvudsakliga uppgifter:
Exploration
Dvs identifiering av mönster i information. Data exploration handlar om att försöka förstå datan innan man bygger predictions. Utgör det första steget i data science processen efter att man har hittat data. Exempel: man vill spara pengar genom att veta när priset på mjölk är billigast. Genom att notera priset på olika dagar kan vi identifiera mönster i dagarna då mjölken är som billigast.
Inference
Ett sätt att garantera integriteten i ett dataset, dvs om det identifierade mönstret är pålitligt. Exempel: vi besöker butiken tre måndagar och ser att mjölken kostar 20 kr och tre tisdagar och ser att den kostar 15kr. Inferens handlar då om att veta om detta är ett mönster som kommer hålla i framtiden, om mönstret kan bekräftas.
Prediction
Prediktioner handlar om att ta informerade och underbyggda antaganden och beslut om framtida händelser baserat på tidigare data. Dvs om vi kan bekräfta att butiken säljer mjölk för 15kr på tisdagar kan vi PREDICERA med ganska gott självförtroende att det kommer kosta 15kr nästa tisdag.