Big data Flashcards
I boken ”Big Data …” diskuteras det att det finns en mörk sida till Big data och man ställer upp frågor som:
- Kommer det vara maskiner, snarare än människor, som fattar besluten?
- Hur reglerar du en algoritm?
För ett kortfattat resonemang.
Kapitel 8 listar framförallt 3 risker/hot med Big data:
- PRIVACY
Big data kan på ett sätt ses som ett hot mot individens privatliv (privacy), och deras rätt till att vara anonyma online och offline. Tack vare telefoner, konstant internetuppkoppling, bankomatkort, sociala medier, m.m. kan företag ha en konstant inblick i vårt liv, vem vi pratar med, vad vi gillar och var vi befinner oss - nästan på en spionagenivå.
Även om personlig information, som användarnamn och IP adresser, har ersatts med unika nummerkoder för anonymitet, kan dessa personliga nummerkoder användas (och används) för att följa upp våra dataspår. Ju mer information som samlas in av olika organisationer och där våra ”gagdets” följer oss i varje rörelse och beslut, desto bättre kan data pricksäkert identifiera personer på exempelvis Netflix, trots anonymitet. Med hjälp av en sammankoppling av olika tjänster ser systemen mönster och kan snabbt komma till slutsats om användare. I och med att vi samlar in mer data och även kombinerar mer data, löser Big data upp många av de hittills välfungerande anonymiseringsmetoder vi upplever ”vattentäta”. Tillräcklig data gör perfekt anonymisering omöjlig. - PREDICTIVE PUNISHMENT
I och med en sådan konstant övervakning, kan Big data effektivt förutspå trender och mönster, inte bara i sådant som individens köpbeteende, utan även brottsliga beteende. Vilket leder oss in på den andra risken med Big data (Predictive punishment). Det tycks högst möjligt att, tack vare Big data, kartlägga brottstrender och ingripa innan brott begås. Vilket är att se som en positiv konsekvens ur ett perspektiv i och med att man m.h.a. data på ett mer rättvist sätt kan profilera folk som faktiskt planerar brottsliga aktiviteter, istället för att påverkas av biases, såsom subjektiva attityder och bristande information, för att skapa misstanke. Men det innebär också att ett sådant samhälle skulle behöva helt nya regler och strafflagar än de vi idag följer. Vår syn på rättvisa och fri vilja behöver också revideras i och med ett sådant samhällsskifte, eftersom vi idag bygger vårt rättssystem på efterföljande konsekvenser av felaktigt handlande. Huruvida det är intressant att låta maskiner fatta beslut baserat på de korrelationer som identifieras, och därmed bortse från vårt så kärt hållna kausala fokus, beror av vilket perspektiv man håller.
Individen blir dock på ett sätt delvis fråntagen sin individualitet - eftersom dennes förutsedda beteende baseras på mönster, grundade i andras individers beteende - huruvida det är moraliskt rätt är tvivelaktigt. - THE DICTATORSHIP OF DATA
Ytterligare en viktig aspekt är de potentiella risker det innebär om Big data blir ett verktyg för diktatoriskt styre (The dictatorship of data). I en positiv aspekt ger Big data oss möjligheter att effektivisera beslutsfattande och nå rationella beslut - men detta kan även bringa extremt negativa konsekvenser om vi blint följer vad datan visar eller om kompetensen missbrukas. Det kan finnas en risk i att sluta att lita på den mänskliga intuitionen och att förlita sig helt på data, eftersom man då kan glömma att ifrågasätta information eller sluta använda oss av vår moraliska kompass. Ett exempel är fallet med Google Flu Trends, där det identifierats en korrelation mellan sökord och utfallet av sjukdomsutbrott, vilket felaktigt kan tolkas ha ett visst kausalt samband. Korrelationen behöver inte tyda på att alla som söker efter vissa nyckelord har insjuknat.
Dessa aspekter gör det värt att ställa sig frågan om det kommer vara maskiner eller människor som fattar besluten i framtiden - i många områden kanske det kan vara en förbättring att tillämpa maskinärt beslutsfattande - men viktigt att beakta, för att inte falla offer för dictatorship of data, är att algoritmer bör (delvis) programmeras med deduktiva regler som bl.a. speglar de moraliska värderingar samhället håller.
Boken trycker på att Big data bör användas som underlag för mänskligt beslutsfattande, att det är ett effektivt sätt att minska mänskliga fel i själva beslutsprocessen - men beslutet ifråga kanske fortfarande bör ligga i människans händer.
Redogör för principiella skillnader mellan dataanalysverktyg:
- rapportering analysverktyg
- prediktiva analysverktyg
- preskriptiva analysverktyg
Analysera respektive dataanalysverktyg med avseende på kognitiva aspekter på beslutsfattande och informationstekniskt stöd.
DESKRIPTIV ANALYS (rapportering analysverktyg)
Handlar om att beskriva historiska utfall och fakta/kunskap.
→ Historik för låntagare med denna/liknande profil har sett ut följande…
Detta kan vara av mycket omfattande mängd och komplex struktur, där moderna dataanalysverktyg kan komma att underlätta. Data warehousing kan integrera många datakällor och skapa en omfattande databas, där Big data kan bidra till bättre kartläggning/beskrivningar.
PREDIKTIV ANALYS
Handlar om att förutse möjliga utfall och dess sannolikheter
→ Skulle denna kund kunna betala tillbaka detta lån?
Problemet hos mänskliga beslutsfattare är att bunden rationalitet och biases är ofrånkomliga. Vår kognitiva förmåga är begränsad, bl.a. av tidsram, mental förmåga, fysiska faktorer, etc, och kan komma att ha en betydande effekt på resultatet. Subjektiva aspekter kan spela in, och vi tycks tyvärr ganska dåliga på att se mönster och har svårt att vara konsekventa i vår bedömning (från fall till fall), samt tenderar att antingen felaktigt väga in olika faktorer, eller tom beakta helt irrelevanta sådana. Att förutse framtida utfall är vidare en komplicerade process med traditionella metoder (t.ex. stickprov) där bl.a. (ofrånkomliga) mänskliga misstag, så som mätfel eller inmatningsfel, kan också få betydande konsekvenser för resultatet. Genom att använda sig av tekniska analysverktyg kan vi effektivisera och förbättra prediktiv analys, eftersom vi eliminerar biases och andra mänskliga felfaktorer. Genom Big data blir felmarginal hos isolerade datapunkter vidare inte ett problem, så länge variationen är tillräcklig, utan genom tillräcklig mängd får vi fram precision, trots potentiella fel inom stickprovet (målet n = alla).
PRESKIPTIV ANALYS (beslut)
Handlar om att, baserat på deskriptiv och prediktiv analys, rekommendera en viss aktion.
→ Ska (bör) lån beviljas?
Tekniska dataanalysverktyg överträffat mänsklig (kognitiv) förmåga. Där vårt minne och processkraft står handfallen har tekniken fortfarande många nivåer kvar att stega uppåt.
Människan tenderar fästa för stor vikt vid kausalitet, medan datorer nöjer sig med korrelation - vilket är att föredra i många fall! Genom att använda dataanalysverktyg för att finna mönster kan många fler faktorer beaktas i bedömningen, och en mer träffsäker sådan kan formuleras. När man bortser från kausalitet, och helt enkelt struntar i varför något mönster formas utan bara ser till hur det formas, kommer man ifrån risken att värdera olika faktorer fel.