07 Avancerad analys och Big Data Flashcards
Vad är en analysapplikation?
- Henry Morris (3)
Fristående från operationella system/källor
Sammanför data från flera källor och möjliggör analys
över tid
Kan automatisera uppgifter för att optimera vissa
affärsprocesser (ge direkt affärsnytta)
Vad är Big Data? (3+2)
Definierat som åtminstone något av:
- enormt stora, snabbt inflödande, multistrukturerade
(eng. volume, velocity, variety) - värdeskapande och korrekta
(eng. value, veracity)
Vilka två generella lagringsformer finns för hantering av Big Data?
Relationsdatabashanterare/data warehouse
- traditionella, men kraftfulla
- för strukturerad data, dvs med fördefinierad datamodell
Hadoop
- även för ostrukturerad data, dvs text, video, bild, sensordata, strömmande data, webbdata, data från sociala media
Vilka två lager bestod Hadoop 1.0 utav?
Mapreduce
- framework/programmeringsskiktför datahantering och klusterhantering
HDFS
- Hadoop Distributed File System
Vilka tre lager bestod Hadoop 2.0 utav?
Mapreduce
- framework/programmeringsskikt för datahantering
YARN (Yet Another Resource Negotiator)
- tog över resurshanteringen för
klustren från MapReduce
HDFS (Hadoop Distributed File System)
- består av ett antal noder ordnade i kluster
- data ordnas i filer med pekare
Vad är en NoSQL-databas? (1+4)
En databas som inte bygger på relationsmodellen:
- ingen SQL, ingen ACID
- snabb datahantering viktigare än korrekthet till 100%
- open source
- skalbar horisontellt
Vilka huvudtyper av NoSQL-databaser finns? (4)
(Wide) Column Store-DB (t ex HBase )
Document Store-DB (t ex MongoDB)
Key/Value Store-DB (t ex DynamoDB)
Graph Store-DB (t ex Neo4J)
Vilka två typer av avancerad analys finns?
Data Mining och statistisk analys
- avancerad matematik på ”råa” (icke-aggregerade) datamängder, utförs av specialister, s.k. data scientists
– ofta på Big Data från data warehouse eller Hadoop- implementationer
Prediktiv analys (med hjälp av Data Mining)
- skapar och testar modeller med hjälp av verklig data
- för att förutse händelser och klassificera företeelser
- trend att bygga in avancerad analys i existerande BI-plattformar för att öka tillgängligheten/användbarheten och därmed affärsnyttan