DW/BI/BA etc Flashcards

1
Q

Metadata

A

Data om data. Beskriver egenskaper hos datan, exempelvis när samlades den in och om den har behandlats

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

OLAP

A

OLAP är en term för att beskriva analysering, karaktärisering och sammanfattning av strukturerad data lagrad i t.ex. data warehouses eller data marts med hjälp av s.k. “cubes”. Detta är en del av deskriptiv analytics som också kallas för Business Intelligence (BI) eller business reporting. Syftet är att stödja strategiskt beslutsfattande genom att erbjuda multidimensionella ad hoc-analyser.

2/2p svar: “Online analytics processing. Till skillnad från OLTP-system som behandlar transaktioner och basdata i organisationen analyserar OLAP multidimensionell data och själva analysen av den: exempelvis data cubes.”

(*cubes = multidimensionella datastrukturer skapade för att extrahera en subset av datavärden för att besvara en specifik företagsfråga).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Data warehouse (DW)

A
  • En datakälla/en slags pool av data producerad för att stödja beslutsfattande.
  • Ett DW lagrar framförallt historisk data som kan vara av intresse för organisationens beslutsfattare och den är strukturerad för att vara tillgänglig i en form som gör den redo för analys (t.ex. genom OLAP, data mining och andra beslutsfattande applikationer).
  • Det är en subjektsorienterad, integrerad och icke-volatil samling data som alltså stödjer managers beslutsfattande.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

OLTP-system

A

OLTP står för Online Transaction Processing. OLTP-system används för hantering av transaktioner såsom leveranser, inventeringskontroll, fakturering och andra ofta återkommande/förutsägbara/repetitiva aktiviteter. Baseras på traditionella, relationella databaser.

Det är högvolymsystem byggda för att hantera stora volymer av transaktioner på ett så effektivt sätt som möjligt. Kan liknas vid ERP-system, t.ex. SAP, som hanterar basdata och transaktioner i organisationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hur skiljer sig DW och OLTP-system åt från en beslutsfattares synvinkel?

A

Framförallt är OLTP gjorda för transaction processing och är transaktionsdrivet, inte för att stödja beslutsfattare (vilket DW är utformat för genom att vara analytiskt drivet). OLTP-system saknar historisk data relevant för beslutsfattande och är utformat för att hantera många transaktioner i realtid. OLTP finns mer för att stödja den operativa verksamheter och aktiviteter som är mer repetitiva och förutsägbara (t.ex. fakturering eller kontroll av inventering/leveranser). OLTP kan alltså hjälpa med att fatta snabba, precisa och operationella beslut. DW är utformat för att hantera stora mängder data från olika källor och för att lagra datan så att den kan analyseras på ett meningsfullt sätt. DW är optimerade för att stödja beslutsfattande genom att möjliggöra djupgående analyser och rapportering av data över tid genom tillgång till historisk data, trender och mönster vilket kan underlätta för strategiska beslut.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad innebär dimensionell modellering?

A
  • Dimensionell modellering kan beskrivas som designen av datarepresentationen inom data warehouses.
  • Det är en datamodelleringsteknik som syftar till att boosta processande av komplexa och multidimensionella förfrågningar.
  • Man delar in data i (oftast) en central faktatabell och omringat av och sammankopplat via främmande nycklar med flera dimensionetabeller.
  • Kan implementeras genom antingen ett “star schema” eller “snowflake schema”.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ge en definition av faktatabell och dimensionell modell. Beskriv kort vad star schema inom dimensionell modellering innebär och dess fördelar och nackdelar.

A
  • Star schema är designat för att ge snabb svarstid och enkelhet till en read-only databas.
  • En central faktatabell innehåller ett stort antal rader som relaterar till observerad fakta och främmande nycklar. Faktatabellen innehåller deskriptiva attribut som krävs för att utföra beslutsanalys och query reporting och de främmande nycklarna används för att koppla till dimensionstabellerna. Innehåller få kolumner och många rader.
  • Dimensionstabellerna är länkade till faktatabellen via främmande nycklar och innehåller attribut som beskriver datan inom faktatabellen; de anger hur datan ska bli analyserad och sammanfattad. Svarar på frågorna vem, vad, när, hur var. Innehåller få rader men många kolumner. GLIS är ett exempel på en dimensionell modell (man kan t.ex. titta per period, institution och kurs).
  • Exempel: dagligvaruhandel. faktatabellen = antal köpta produkter i varukorgen, deras sammanlagt pris etc. Dimensionerna är t.ex. kund (attribut = ålder, tid som kund etc), produkt (attribut = produkttyp, avdelning), tid (datum, vardag/helg) och plats (region, affär, vilken typ etc)

Fördelar med star schema: 1) enkel att förstå även för icke-tekniska användare 2) enkelt att addera nya fakta eller dimensioner

Nackdelar: 1) svårt att ändra övergripande strukturen 2) risk för redundant data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Snowflake schema inom dimensionell modellering

A

<3en delvis normaliserad star schema<3

Ett snowflake schema är en dimensionell modell som liknsom namnet antyder är utformat med (oftast) en central faktatabell omringad av flera dimensionella tabeller i ett slags snoflingemönster runtomkring. Faktatabellen är kopplad till flera dimensioner genom främmande nycklar.

Dimensionstabellerna är normaliserade till flera relaterade tabeller (jämförelsevis star schema som är denormaliserad och där varje dimension representeras av endast en tabell).

Exempel: dagligvaruhandel. Faktatabell = t.ex. sålda enheter. Kopplas till dimensionen “datum” som i sin tur kopplas till två nya dimensionella tabeller för “kvartal” och “månad”

Fördelar: förenklar uppdateringar
Nackdelar: ökad komplexitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Normalisering

A

Normalisering innebär att man delar upp en tabell i mindre delar för att minska redundans och kopplingar mellan tabeller för att undvika avvikelser. Normalisering är en viktig process för att säkerställa att databaser är effektiva, korrekta och lätta att hantera.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cubes in OLAP

A
  • OLAP använder sig av s.k. cubes för att representera multidimensionell data.
  • Cubes kan alltså definieras som multidimensionella datastrukturer som tillåter snabba dataanalyser.
  • Det kan även definieras som möjligheten att effektivt manipulera och analysera data utifrån flera perspektiv.

Genom att arrangera data i cubes överkommer man relationella databasers begränsning; nämligen att relationella databaser inte är lämpliga för snabba analyser av stora mängder data.

Cubes är skapade för att extrahera en subset av datavärden för att besvara en specifik företagsfråga.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Beskriv relationen mellan OLAP och OLTP.

A

OLTP hanterar transaktionella och operativa day-to-day aktiviteter (t.ex. fakturering, kontroll av leveranser etc). OLAP är å andra sidan designat för att genom analysering, karaktärisering och summering av data inom t.ex. data warehouses kunna ge multidimensionella ad hoc-analyser för att stödja strategiskt beslutsfattande.

OLAP och OLTP är tätt sammankopplade. OLAP använder sig av data som finns i OLTP-system i sina multidimensionella analyser. Beslut som baserats på/tagits med hjälp av OLAP kan sedan bli automatiserade business processes i OLTP.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Data mart (DM)

A

En nerskalad version av ett DW som fokuserar på requests från en specifik avdelning, t.ex. marknadsföring eller sales. (Dvs småskaliga datalager byggda för enskilda funktioner, avdelningar eller processer). Dvs ett Subjektsorienterat /avdelningsorienterat DW

  • “Bottom up approach”
  • Finns både virtuella, dependent och independent data marts
  • Står i kontrast till EDW (enterprise-wide data warehouse)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Beskriv Enterprise-wide data warehouse (EDW). Vilka nackdelar finns det?

A

Ett Data Warehouse som sträcker sig över hela organisationen och samlar all data från alla avdelningar i ett enda stort warehouse. Brukar också kallas Inmon-approachen. (2/2 poäng)
_________________________
- Erbjuder en enhetlig helhetsbild över organisationen. Kan beskrivas som ett storskaligt/sammankopplat nätverk av många data marts.
- Top-down approach. Dvs först en data warehouse för hela verksamheten, sen DM på avdelningsnivå. Även en datadriven approach.
- Nackdelar är att de är dyra och tar lång tid att utveckla. Många företag börjar med en eller några data marts för att sedan allteftersom verksamheter växer utveckla ett EDW som “tar upp” alla DMs. Kan också vara ett sätt att genom enstaka DM’s visa på lönsamhet för att motivera investering i EDW’s. Centraliserad utveckling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

ETL

A

Extract, transform, load. Själva processen i att hämta data från flera källor, behandla den så den är i rätt format och att till slut ladda in den i DW.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Independent data mart

A

Ett data mart (litet datalager) som hämtar data direkt från olika källor (snarare än från ett centrallager som ett dependent data mart gör).
Nackdel: kan få olika svar (om vi har olika ETL process?)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dependent data mart

A

En “subset” som skapas direkt från data warehouset, dvs hämtar data från ett centrallager (VS ett independent data mart som hämtar data från olika källor). Kallas för Hub & Spoke arkitektur.
Fördel: Har enhetlig data pga delar ETL-process.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

ODS

A

Operational data store. Ett mellanlager eller separat system dit data laddas innan uppladdning i ett data warehouse. Kan användas t.ex. för dashboard eller rapportering, eller som ställe att bearbeta data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Granularity/Granularitet

A

Grad av detalj i datan. T.ex. transaktion eller periodisk snapshot.

Hög granularitet = stora korn, dvs odetaljerat (t.ex. en snapshot).
Låg granularitet = små korn, mycket detaljerat (t.ex. en transaktion)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Drill down/(drill up)

A

OLAP-teknik där användaren navigerar mellan olika lager av data; från den mest sammanfattade (up) till den mest detaljerade (down).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Data integration

A

Innehåller tre huvudaktiviteter:
1) Data access
2) Data federation
3) Change capture

När dessa tre aktiviteter är korrekt implementerade är data gjort tillgänglig för flera ETL-verktyg och DW-miljöer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Big data brukar ofta beskrivas utifrån fyra V:n; volume, velocity, variety och veracity. Vad innebär vart och ett av dessa (ge gärna exempel utgående från data)? Vilka implikationer finns det för analytics?

A

Volume syftar på de stora mängderna data som genereras och ökar exponentiellt. T.ex. i online streaming tjänster som YouTube eller genom automatiskt genererad GPT-data. Massiva datasets finns tillgängliga och kan användas för analys. Implikationer för analytics innebar förut lagringsutrymme men idag handlar det mer om att avgöra relevans bland de stora mängderna data.

Velocity syftar på hur snabbt nya data genereras, t ex genom sensorer i Internet of Things-apparater, smart meters och GPS-devices. Velocity handlar också hur snabbt data bör processas för att möta behoven och kraven. Implikationer för analytics innebär just att klara av att processa data lika snabbt som det genereras (desto äldre datan blir, ju mindre värdefull blir den. Tänk t.ex. patienthälsa eller trafiksystem).

Variety syftar på de många olika formerna som data kan anta (TYPERNA av data), från strukturerade, numeriska sensordata, till audio/video eller grafdata, till semistrukturerad text. Man uppskattar att stora delar av organisationers data är o-/semistrukturerad och därför inte lämpade för vanliga databasscheman men att detta ändå är viktigt för analytics att inkludera i beslutsfattande.

Veracity syftar på kvaliteten eller pålitligheten på data, vilken kan variera kraftigt i big data tillämpningar. Grundprincipen är att bevara allt och ta ställningen eller behandla för pålitligheten i analysfasen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vilka implikationer har de fyra V’na i Big data för beslutsfattare jämfört med data typiskt för DW? Vilka två huvudsakliga problem finns det?

A

Generellt sett kommer inte alla big data att
visa alla dessa egenskaper, t ex väderdata blir volymmässigt stora i antal observationer men tar inte nödvändigtvis mycket lagringsutrymme.
Däremot genereras de oerhört tätt. Samma håller för Twitterdata.

Big data innebär två stora utmaningar för beslutsfattare som vill använda sig av dem. Den första är lagring av data (t ex hur lagra dessa enorma mängder data som genereras oerhört snabbt) och den andra är hur analysera dem (utöver volym och velocitet har vi ju problem med olika typer av data och deras pålitlighet). Vanligen anses distribuerad lagring (bryta ner lagringen på många enskilda noder ofta i en molnomgivning) och distribuerad processering (bryta ner behandlingen till mindre uppgifter som kan skötas parallelt och oberoende av
varandra i en molnomgivning) som i Hadoop/MapReduce omgivningen vara lösningen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Vad används de fyra V:na till?

A

4V (eller 3V eller 5V) modellerna är ett sätt att försöka karaktärisera egenskaperna hos big data, och framför allt, hur de skiljer sig från vanliga (“traditionella”) data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vad är grundprincipen i big data?

A

Grundprincipen är att bevara allt och ta ställningen eller behandla för pålitligheten i analysfasen. Generellt sett kommer inte alla big data att visa alla dessa egenskaper, t ex väderdata blir volymmässigt stora i antal observationer men tar inte nödvändigtvis mycket lagringsutrymme. Däremot genereras de oerhört tätt. Samma håller för Twitterdata.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Vad är data science och vilka tre huvudprocesser är viktiga inom data science?

A

Data science är ett interdisciplinärt fält fokuserat på att extrahera kunskap och insikter från data för att stödja beslutsfattande. Sker genom bl.a. computation, statistik, och vetenskapliga metoder. Det utgörs av tre huvudsakliga uppgifter:

Exploration
Dvs identifiering av mönster i information. Data exploration handlar om att försöka förstå datan innan man bygger predictions. Utgör det första steget i data science processen efter att man har hittat data. Exempel: man vill spara pengar genom att veta när priset på mjölk är billigast. Genom att notera priset på olika dagar kan vi identifiera mönster i dagarna då mjölken är som billigast.

Inference
Ett sätt att garantera integriteten i ett dataset, dvs om det identifierade mönstret är pålitligt. Exempel: vi besöker butiken tre måndagar och ser att mjölken kostar 20 kr och tre tisdagar och ser att den kostar 15kr. Inferens handlar då om att veta om detta är ett mönster som kommer hålla i framtiden, om mönstret kan bekräftas.

Prediction
Prediktioner handlar om att ta informerade och underbyggda antaganden och beslut om framtida händelser baserat på tidigare data. Dvs om vi kan bekräfta att butiken säljer mjölk för 15kr på tisdagar kan vi PREDICERA med ganska gott självförtroende att det kommer kosta 15kr nästa tisdag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Example of application areas for DM

A

Butikshandel
* Köpmönster
* Demografi
* Direkt marknadsföring
* Kundkorgsanalys
* Forecasting

Finance, banking, and insurance
* Fraud och risk management
* Prediktioner för räntor och valutaväxling

Tillverkning
* Kvalitetskontroll och management
* Optimering av produktion
* Logistik

27
Q

Neural networks

A

Neural networks är datorsystem med sammankopplade noder som fungerar ungefär som nervceller i den mänskliga hjärnan. Med hjälp av algoritmer kan de känna igen dolda mönster och korrelationer i rådata, samla och klassificera dem och - med tiden - kontinuerligt lära sig och förbättras.

28
Q

Euklidiska distansen

A

Den euklidiska distansen är ett mått på avståndet mellan två punkter i ett euklidiskt rum. I ett tvådimensionellt euklidiskt rum (plan) kan man tänka på det som det vanliga “raka linje”-avståndet mellan två punkter, medan i ett tredimensionellt euklidiskt rum (t.ex. rymden) är det avståndet som skulle mätas om man rör sig längs en rät linje mellan de två punkterna.

29
Q

EIS

A

Enterprise Information System. DSS (decision support system) utvecklas specifikt för executives och deras beslutsfattande). T.ex. dashboards och annat som genererar business rapporter

30
Q

Virtuella data marts

A

Bygger en egen kub vi vrider och vänder på och kastar bort när vi är klara. OLAP är idag mycket likt virtuella data marts

31
Q

Vilka två huvudsakliga strategier finns det för att bygga data warehouses? Beskriv dessa och deras för- och nackdelar.

A

1) Den första är Enterprise Wide Warehouse (EWW/EDW).
- Top down approach
- Byggs ej för ett specifikt ändamål utan för att samla, putsa upp data och se senare vad vi kan använda det till
- Också känd som CIF eller Inmon approach

+ Fördel: enhetlig bild, vi är flexibla i hur vi använder det
- Nackdel: gigantiskt projekt, centraliserat och ej fokus på enskilda behov = risk att det ej kommer användas pga datastyrt istället för behovsstyrt. också väldigt dyrt

2) Data Mart approach
- Bottom up approach
- Bygger datalager med ett specifikt ändamål in mind
- Har ett gemensamt ETL som matar flera datalager (data marts)
- Också känd som Kimball approach eller BUS-arkitektur

+ Fördel: enklare att använda än ett gigantiskt. behovsorienterat och utformat från verkliga behov.
- Nackdel: redundans - kommer finnas samma data i olika datalager. FRAMFÖRALLT om ETL ej fungerar som den ska kommer vi få olika svar när vi ställer frågor till småskaliga datalager. skalbarhet kan också bli svårt och risk för stove pipe (byggda för 1 ändamål som ej ändrar sig efter andra ändamål)

32
Q

3NF / Tredje normalformtabell

A

Skrivoptimerat
- när vi gör uppdatering gör vi det på så få ställen som möjligt med så lite data som möjligt, plus lagring med så lite redundans som möjligt
- fördel:
- nackdel: blir komplexa. varje gång vi gör en förfrågan blir den komplex, förfrågan blir ineffektiv. leder till svårförståeliga scheman

33
Q

Beskriv de olika typerna av OLAP; MOLAP, ROLAP och HOLAP.

A

MOLAP
- multidimensionell OLAP
- för-aggregerad kub
- en typ av databas som är specialiserad på att hantera stora mängder av multidimensionell data för beslutsfattande och analys.
- skillnad mot ROLAP: byggde färdig en aggreregad kub som vi alltid använder
+ Fördelar: möjliggör snabb och effektiv analys samt enkel att använda.
- Nackdelar: redundans och kräver mycket lagringsutrymme

ROLAP
- relationell OLAP
- tar data från relationella databaser
- skillnad från MOLAP: bygger kub för ett särskilt ändamål, sedan kasserar
- detta är den relevanta idag som vi använder
+ Fördelar: anpassningsbar och uppdateringar i real-tid
- Nackdelar: prestandaproblem vid hantering av stora datamängder och kräver kunniga/erfarna användare pga komplext

HOLAP
- Hybrid OLAP, mix of the above
- kombinera det bästa från båda världarna genom att använda relationella databaser för att lagra detaljerad data och multidimensionella databaser för att lagra summerad data.

34
Q

Vad innebär strukturerad och ostrukturerad/semistrukturerad data?

A

strukturedad
- databaser och tabeller, organiserad data som kan sättas i tabeller

ostrukturerad/semistrukurerad
- bilder, text. typiskt i big data.
- bilder har strukturer men en ANNAN struktur än en databas. pixlarna är datapunkter men är ej just tabulär data och är mer utmanande

35
Q

Beskriv de olika skalorna inom data; nominalskala, intervallskala och kvotskala.

A

Nominalskala
- kan ej beräkna avstånd mellan kategoriska data (t.ex. frukt, kan ej mäta skillnad mellan preferenserna päron äpple banan)
- (står emot ordinalskala som kan rangordnas även om värdena ej är konstanta, t.ex. utbildningsnivåer)

Intervallskala
- nollpunkten är arbiträr dvs godtycklig och vi kan ha minusvärden
- t.ex. celsiusskala
- avstånd är matematiskt vettiga
- kan applicera euklidiska distansen

Kvotskala
- icke-arbiträr nollpunkt, dvs har en absolut nollpunkt
- t.ex. 0 kr, 0 besök hos läkaren, 0cm
- kan räkna procent.
- kan applicera euklidiska distansen

36
Q

Förklara begreppet black box method. Vilka implikationer har det i samband med
beslutsstöd?

A

En black box metod är en metod där inte logiken bakom beslutet är explicit, dvs metoden tar en viss input och ger ett visst beslut, men det går inte nödvändigtvis att direkt se varför. Artificiella neuronnät är typiska black box metoder, medan beslutsträd är motsatsen.

Implikationerna av att använda black box-metoder för beslutsstöd kan vara både positiva och negativa. Å ena sidan kan black box-metoder användas för att automatisera beslutsfattande processer på ett effektivt sätt, vilket kan spara tid och resurser. De kan också vara användbara för att hitta mönster i data som annars skulle vara svåra eller omöjliga att upptäcka.

Å andra sidan kan det vara svårt att förstå och verifiera hur en black box-metod kommer fram till sina beslut, vilket kan göra det svårt att avgöra om dess resultat är rättvisa, pålitliga och rättvisa. Detta kan särskilt vara problematiskt när det gäller beslut som påverkar människors liv, som till exempel kreditbeslut eller anställningsbeslut.

Det är därför viktigt att ta hänsyn till dessa implikationer när man använder black box-metoder för beslutsstöd och att se till att man har mekanismer för att övervaka och utvärdera deras prestanda och effekter.

37
Q

Nämna fyra typer av data sets

A
  • transaktionsdata (t.ex. kundkorg)
  • data matrix
  • document term matrix
    – hur många gånger förekommer ett visst ord i ett dokument
  • binary attribute matrix
38
Q

Förklara hur datautvinningsprocessen ser ut och vilka steg som ingår, utgående ifrån ett
valfritt exempelfall. Diskutera val som måste göras i varje steg.

A

En datautvinningprocess (data mining process) som även är en av de mest vanliga är CRISP-DM (Cross-Industry Standard Process for Data Mining). Den består av sex steg; 1) Business understanding, 2) Data understanding, 3) Data preparation, 4) Model building , 5) Testing and evaluation och 6) Deployment.

Exempelfall: stort telecom-bolag förlorar kunder och vill lösa detta med hjälp av data mining.

1) Business understanding
Det här steget handlar om att förstå projektets och företagets affärsmål och målsättningar. Det är viktigt att förstå vad som är syftet med projektet, vad är problemet som ska lösas eller vilka möjligheter som ska utnyttjas. I detta steg bör man även identifiera kunderna och deras behov.
- T.ex. kan ett mål med datautvinningen vara att besvara frågan “Vilka vanliga egenskaper har kunder som gått från oss till våra konkurrenter?”.
- Val som behöver göras är olika ansvar för vem som t.ex. samlar in och analyserar data, samt budget för projektet.

2) Data understanding
- Det här steget handlar om att samla in data från olika datakällor (t.ex. databaser) och utforska dem för att få en bättre förståelse för vad de innehåller. Detta steg innefattar också att identifiera kvaliteten på data och dess relevans för projektet.
- Få en förståelse för vilka datakällor som behövs och om datan ska inhämtas manuellt eller automatiserat och applicera lämpliga statistiska tekniker (t.ex. korrelationsanalys).
- Här kan man även identifiera data som kvalitativ (nominaldata, t.ex. kön, eller ordinaldata, t.ex. om kundens kreditbetyg är bra - neutralt - dåligt) eller kvantitativ (t.ex. numerisk data)
- I exemplet hade detta t.ex. handlat om att identifiera köpbeteenden av mobilabonnemang för kunder baserat på demografi, kreditkortstransaktioner och socioekonomiska attribut.
- Val som måste göras är varifrån relevant data ska inhämtas, vilken typ av data som ska inhämtas (demografisk data? transaktionell data? sociografisk data?) och vilka statistiska tekniker som ska tillämpas.

3) Data preparation/Data pre-processing
- Det här steget innefattar förbehandling av data så att de kan användas för att bygga modeller. Data kan behöva rensas, filtreras, aggregeras eller transformeras på olika sätt beroende på projektets mål och de valda algoritmerna.
- Syftet är att ta data identifierat i steg 2) data understanding och förbehandla datan så att den är redo för analys. Dvs datan är ofta inkomplett (t.ex. saknar värden), eller har mycket brus (t.ex. outliers), eller är inkonsistent.
-Här går ofta mest tid åt i projektet.
- Val som måste göras är vilken data som ska exkluderas eller inkluderas i projektet för att minimera brus och inkonsistens. Det kan t.ex. handla om att man när man hämtade data fann att det saknades data om korttransaktioner för vissa kundgrupper man ville undersöka, och att detta därför ska exkluderas. Eller att man inte vill undersöka under åldern 18 och därför exkluderar denna data.

4) Model building
- Det här steget handlar om att bygga och testa modeller för att hitta den bästa lösningen för projektet.
- Beroende på behoven i verksamheten kan man välja att antingen applicera prediktiv modellering (t.ex. ANN), clustering analysis (descriptive metod, t.ex. k-means) eller associationsanalys (descriptive metod, t.ex. apriori-algoritmen).
- Telecom-bolaget vill utifrån tidigare data predicera framtida utfall och väljer därför prediktiv modellering. Det finns flera olika tekniker och algoritmer som kan användas för att bygga modeller och det är viktigt att välja den som passar bäst för projektet (t.ex. decision trees, SVM eller ANN). Beroende på dataanalytikernas erfarenhet, kunskap samt storleken på projektet. För stora mängder data är ANN och SVM bättre lämpade än beslutsträd t.ex. Bolaget vill använda stora datamängder och på grund av att den hittade datan hade hög komplexitet och dimensionalitet valdes SVM som en lämplig metod för modellbyggandet.

5) Testing and evaluation
- Det här steget innefattar att utvärdera modellens prestanda och noggrannhet. Detta görs genom att testa modellen med nya data och jämföra resultaten med de förväntade resultaten. Om modellen inte uppfyller kraven måste den justeras eller förbättras.
- Beslut som måste tas här är om fler modeller bör utvecklas och utvärderas om den valda modellen inte klarar av att besvara de relevanta frågorna eller möter målen för projektet.
- kräver god kommunikation och samarbete mellan dataanalytikerna som kanske saknar relevant verksamhetskunskap och beslutsfattarna i organisationen som kanske saknar den tekniska kunskapen för att kunna tolka resultaten. Här är det viktigt att t.ex. inkludera olika visualiseringstekniker med hjälp av dashboards eller business reports med cirkeldiagram, scatterplots etc.

6) Deployment.
- Resultaten och kunskapen som utvinns från modellen behöver organiseras och presenteras på ett lättförståeligt sätt för slutanvändaren. Detta kan handla om alltifrån att generera en rapport till att implementera modellen för data mining-processen för upprepad användning i företagets system.
- utifrån detta är det viktigt att kunden, dvs telecom-bolaget, förstår vilka handlingar som behöver tas av dem för att nyttja insikterna från datautvinningsprocessen. Valen här handlar alltså för kunden om att ta beslut för hur man ska agera på basis av den nyvunna informationen.

Några etiska aspekter att ha i åtanke under processen är exempelvis:
1) sekretess och privacy.

(Instruktioner: viktigt att visa att frågan styr valen,
dataegenskaper styr val av metod, osv. ta med etisk diskussion pga essäfråga)

39
Q

Beskriv proximity, similarity och dissimilarity. Hur kan man mäta likhet resp. olikhet?

A

Similarity
- Kvantifiering av hur LIKA två variabler/dataobjekt är
- tänk binära attributmatriser. Hur lika är två punkter till varandra? Desto mer lika, ju närmare är dem.
- sätt att mäta: t.ex. SMC eller cosine

Olikhet
- Kvantifiering av hur OLIKA två variabler/dataobjekt är
- hur långt borta är dessa? kräver sifferdata.
- sätt att mäta: euklidiska distansen

Proximity kan vara både similarity och dissimilarity.

40
Q

Vilka tre huvudsakliga datautvinningsoperationer (data mining tasks eller core tasks) finns det? Förklara vilka de tre operationerna är, hur de kan kategoriseras och vad som kännetecknar dem, samt ge egna exempel på tillämpningar av alla tre operationer.

A

Datautvinning kan delas i tre huvudsakliga operationer; prediktiv modellering (predictive modeling), klusteranalys (cluster analysis), och associationsanalys (association analysis).

PREDIKTIV MODELLERING
Prediktiv modellering syftar till att prediktera ett utfall på basis av tidigare data med kända utfall. T.ex. kan man modellera vilka kunder som
inte kommer att kunna återbetala sina lån på basis av egenskaper (attribut) som liknar tidigare kunder som inte återbetalat (dvs är övervakad inlärning). Prediktiv modellering kan delas i två huvudsakliga grupper, klassificering och regression. Klassificering predikterar klasser (t.ex. lönsamma/inte lönsamma kunder, har/har inte cancer, kommer/kommer inte att byta operatör, osv) medan regression predikterar verkliga värden (t.ex. aktiepris eller räntenivå). Typiska metoder inom prediktiv modellering är beslutsträd, artificiella neuronnät (ANN) och linjär regression.

CLUSTER ANALYSIS
Klusteranalys syftar på att dela data i sedan tidigare okända grupper på basis av grad av likhet, utan kända utfall (dvs är oövervakad
inlärning). Typiska exempel på klusteranalys är kundsegmentering (dela kunder i grupper på basis av egenskaper), dokumentklustring och
data reduktion. Ofta används t.ex. k-means clustering som metod.

ASSOCIATION ANALYSIS
Associationsanalys handlar om att hitta vilka attribute samförekommer oftare än man statistiskt skulle förvända sig. Man vill hitta mönster i väldigt stora sets of data. Typiskt exempel på associationsanalys är köpkorgsanalys som går ut på att identifiera varor som ofta samköps, men kan också användas för t.ex. analysera genomdata, samanvändning av mediciner, osv. Den vanligast använda metoden är någon variant av apriori-algoritmen. Associationsanalys är oövervakad (deskriptiv) modellering.

41
Q

Datautvinningsoperationer (data mining tasks) kan grovt indelas i två huvudsakliga kategorier, beroende på hur inlärningen (learning) sker.
1. Vilka är de två huvudsakliga kategorierna och hur skiljer de sig ifrån varandra?
2. Till vilkendera kategorin hör de huvudsakliga operationerna som vi har behandlat under kursen?

A

De två huvudsakliga kategorierna är övervakad och oövervakad inlärning. I den övervakade inlärningen
har träningsdatan input och output-par, d.v.s. vi har kända utfall sedan innan som datorn tränar på. I den
oövervakade inlärningen får datorn lära sig hitta mönster i datan utan några kända utfall sedan innan.
Prediction tillhör den övervakade inlärningen och här ingår classification och regression. Vi har kända
utfall sedan innan i kategoriska (classification) eller numeriska (regression) termer. Kan användas t.ex. av
meterologer då de ska förutspå sol/regn (classification) och temperatur (regression) med kända utfall från
tidigare så som hur vindars rörelse påverkar väderprognosen.
Association tillhör den oövervakade inlärningen och här ingår exempelvis market-basket analysis.
Handlar om att hitta för oss sedan innan okända associationer i datan. Ett retailföretag kan använda sig av
association och market-basket analysis för att kunna produktplacera rätt. Ser H&M att solglasögon ofta
köps i samband med baddräkter kan de med fördel placera solglasögonen vid badklädesavdelningen för
att öka sin försäljning.
Clustering tillhör också den oövervakade inlärningen och innebär att hitta för oss sedan innan okända
kluster i datan, till skillnad från classification då vi vet om kategorierna. Datapunkterna i ett kluster ska ha
så många likheter som möjligt med varandra och ha så stora olikheter som möjligt med de andra klustren.
Denna datautvinningsoperation kan med fördel användas i livsmedelsbutiker, då olika kundsegment
visualiseras och man då kan anpassa sina erbjudanden efter detta. Exempelvis om vi ser att vi har en stor
kundgrupp äldre personer med låg inkomst kan vi ha en dag i veckan då exempelvis personer över 65 år
får en viss procent rabatt om de handlar den dagen.

42
Q

Overfitting

A

Lära sig (felaktiga) möntser pga brus eller outliers i datan.

43
Q

Vilka metoder finns det för klassificering?

A
  • Decision tree induction
  • Nearest neighbor
  • Artificial neural network (ANN)
  • Support vector machine (SVM)
44
Q

Vad innebär klassificeringsmetoden Decision tree induction? Vilka fördelar och nackdelar finns?

A
  • Beslutsträd är mångsidigt verktyg som genom en hierarkisk representation av olika kriterier syftar till att predicera en klassificering eller ett värde.
  • Går ut på att hitta det bästa sättet att dela två grupper för så “rena” lösningar som möjligt
    identifierar det attribut som delar upp i två lösningar (ja vs nej t.ex.). Fortsätter till så rena lösningar som möjligt
  • Vi kan läsa den explicita logiken i det genom ett beslutsträd. Kan läsa ett spår ända fram till utfallet/terminal node och VARFÖR det resulterar i det det gör
  • White box approach
  • tänk titanic-labben, trolighet att överleva. var det barn? ja/nej. man? ja/nej. gift? ja/nej. osv osv till om det överlevde eller ej.

Fördelar:
- Kräver lite pre-processering (normalisering t.ex.)
- Lätt att tolka och förstå pga kan explicit följa logiken (white box metod)
Nackdelar:
- Blir lätt för komplexa. Svårt med en besvärlig hierarki vilket kan resultera i fragmenterad data
- Fattar lokala beslut med kan missa komplexa relationer i helheten
- ANN och SVM ger generellt bättre precision

45
Q

Vad innebär klassificeringsmetoden Nearest neighbor? Vilka fördelar och nackdelar finns det?

A

Klassificeringsverktyg som mäter proximitet; det som liknar lär ha samma klassutfall. Bedömer vad som är den närmaste punkten/punkterna.
- Sifferdata? –> Räknar den euklidiska distansen
- Textdata? –> Jaccards’s

Fördelar:
- Simpel och inte komplex att förstå

Nackdelar:
- Kan bli skevt pga brus/outliers
- Svårigheter med utvärdering, kan resultera i att vi tycker det “seems legit”
- Kan beräkningsmässigt bli dyrt

46
Q

Vad innebär regressionsmetoden Artificial neural network (ANN)?

A
  • ANN är en form av maskininlärning och dataanalys.
  • Den bygger på datasystem som är sammankopplade av olika noder, likt de nervceller som är sammankopplade i människans nervsystem
  • ANN används för att hitta samband mellan inputdata och outputdata för att lösa problem inom prediktiv modellering.
  • Fördelar med ANN är att det kan hantera stora mängder data och lösa komplexa problem på ett effektivt sätt. Det används inom t.ex. medicinsk forskning, finans och i självkörande fordon.
47
Q

Vad innebär klassificeringsmetoden Support vector machine (SVM)?

A

Klassificeringsverktyg för att hitta det bästa stället att dra rakt streck mellan två dataklasser; sk. hyperplane.
- speciellt pga ifall det ej är separerat på två dimensioner kan det ej bli linjärt separerbart. kan listället ösas på andra dimensioner, tänk att du gör till en 3d-kub

Fördelar:
- Mycket mindre risk för “overfitting”, dvs läsa in felaktiga mönster pga brus och outliers i datan
- Kan användas för både klassificering och regression
Nackdelar:
- Stora dataset innebär mycket träningstid

LÄMPLIG VID: Hög dimensionalitet och få (rader??) data

48
Q

Normalisering

A

när man designar en databas, vill man organisera informationen så att det blir enkelt och effektivt att hämta och använda den senare. Syftet med normalisering är att minimera redundans i datamodellen och undvika problem som kan uppstå på grund av inkonsekvent eller felaktig data.

49
Q

Vilken klassificeringsmetod ska användas när?

A

Komplexa relationer, mycket data etc → Artificial neural network

Hög dimensionalitet och få (rader??) data → Support vector machine

50
Q

K-means clustering

A

En typ av teknik inom klusteranalys. Innebär att allokera n objekt till K kluster så att differensen inom klustret är litet och differensen mellan olika kluster är stor. Processen kallas “iterative relocation”.

Fördelar:
- Enkel, välkänd och effektiv (t.ex. kräver lite lagringsutrymme)
Nackdelar:
- Kan finnas svårigheter att identifiera kluster (t.ex. kan de har olika densitet och storlekar)
- Känslig för outliers när man använder SSE, kräver pre-processing

51
Q

Bag of words. Vad innebär det inom textutvinning? Hur går det på en konceptuell nivå till? Vilka är de huvudsakliga förbehandlingsstegen och vad är dess inverkan på resultaten (både fördelar och nackdelar)? Vad har bag of words som ansats för fördelar och nackdelar?

A

In text mining, a “bag of words” is a technique for representing a document as a collection of words or tokens, without considering the order in which they appear. This technique involves creating a dictionary of unique words from the entire corpus of documents, and then counting the frequency of occurrence of each word in each document.

Before creating a bag of words representation for a corpus of documents, several steps are taken including data cleaning, tokenization, vocabulary creation, and vectorization. These steps are necessary to prepare the text data for analysis and to create a meaningful bag of words representation. The bag of words approach is useful for a variety of text mining tasks but may result in loss of information due to ignoring the order and context of words and not considering the semantics or meaning of words.

For example, let’s say we have two sentences:
“The quick brown fox jumped over the lazy dog.”
“The lazy dog slept in the sun.”
We can create a bag of words representation for these sentences by first creating a dictionary of unique words:
The
quick
brown
fox
jumped
over
lazy
dog
slept
in
sun
Then, we count the frequency of each word in each sentence, resulting in the following bag of words representation:
Sentence 1: The(2), quick(1), brown(1), fox(1), jumped(1), over(1), lazy(1), dog(1)
Sentence 2: The(1), lazy(1), dog(1), slept(1), in(1), sun(1)
Note that the order of words is not considered in this representation. The bag of words technique is commonly used in text classification and clustering, where documents are compared based on their bag of words representation using techniques such as cosine similarity.

Pros:
Easy to implement and understand
Useful for large datasets with a wide vocabulary
Can be used for a variety of text mining tasks, such as classification and clustering
Can identify important words or phrases in a document based on their frequency
Can be extended to include additional information such as n-grams and word associations

Cons:
Ignores the order and context of words in a document, which can result in loss of information
Does not take into account the semantics or meaning of words, leading to ambiguity and noise
Can lead to high-dimensional sparse matrices, which can be computationally expensive to handle
Can be biased towards frequent words, resulting in less importance given to rare but meaningful words
Can be sensitive to noise and stop words, which can skew the analysis.

52
Q

Vad innebär text mining, vilka mål har det, vilka tre key koncept finns och vilka tre steg består det av? Nämn också några praktiska exempel på hur text mining kan tillämpas.

A

Text mining är processen att automatiskt extrahera användbar info från stora textmängder. Det har två huvudsakliga mål: 1) Automatiserad extrahering av info från ostrukturerad text och 2) analys och summering av den extraherade infrmationen. Viktiga koncept är corpus = en samling dokument, dokument = någon slags text och term = ett ord eller en ordföljd. De tre huvudsakliga stegen i text mining är 1) document selection och filtering 2) document preprocessing (NLP) och 3) document mining (NLP, ML etc).

Det kan tillämpas genom:
1) document classification (t.ex. opinion mining och sentiment analysis inför ett politiskt val, eller för att upptäcka bedrägerier t.ex. genom att identifiera hur en spambot skriver).
2) similarity detection (t.ex. för att upptäcka plagiat)
3) topic modelling (summera teman i bodies of text, t.ex. genom bag of words approach). Fördelar är möjligheten att statistiskt hitta teman i stora mängder text men svårigheter finns i att antal teman måste vara förutbestämt och att man endast kan HITTA teman, identifiering av dem och dess innebörd måste göras manuellt)

53
Q

6p. Förklara på en konceptuell nivå hur Hadoop/MapReduce omgivningen fungerar. Vilka är fördelarna/nackdelarna med metoden?

A

Hadoop file system är en infrastruktur för distribuerad lagring av data, som inkluderar
inbyggd redundans (flera kopior av samma data på olika noder), medan MapReduce finns till för att distribuera processeringen av data (t.ex. en sort-algoritm eller word count, eller datautvinning med CNN-nätverk). Omgivningen bygger på en master-slave arkitektur, där en nod (i praktiken en dator) fördelar och håller reda på filer/arbeten hos slavnoder som sedan gör jobbet.

Fördelar med Hadoop/MapReduce är att infrastrukturen lämpar sig väl för att jobba med big data då många NoSQL databasmodeller bygger på distribuerad processering, är flexibel i vilka data man kan behandla, är skalbart för större mängder data, är billigt iom att den är open source, och har inbyggd redundans för
både lagring och bearbetning.

Nackdelar är att det är komplext och svår använt, fungerar inte lika bra som ren SQL på helt normaliserade (strukturerade) data, och kräver en ganska omfattande maskinpark för att komma helt till sin rätta.

54
Q

Förklara begreppet white box method. Vilka implikationer har det i samband med
beslutsstöd?

A

En white box-metod är en metod inom maskininlärning där algoritmen är transparent och öppen för inspektion. I en white box-metod är det möjligt att se hur algoritmen fungerar och vilka faktorer som tas med i beräkningarna, vilket ger användarna insikt och kontroll över beslutsfattandet.

Implikationerna av att använda white box-metoder för beslutsstöd kan vara positiva eftersom de ger större insikt och transparens i beslutsprocessen. Detta kan öka tilliten till besluten och göra det möjligt att rätta till eventuella felaktigheter och ojämlikheter som kan uppstå. Dessutom kan användningen av white box-metoder göra det möjligt att förbättra och optimera algoritmens prestanda genom att göra finjusteringar i dess design.

Å andra sidan kan white box-metoder kräva mer tid och resurser för att utveckla och implementera, eftersom det krävs mer arbete för att designa och optimerar algoritmen. Dessutom kan vissa applikationer av maskininlärning, såsom djupa neurala nätverk, vara så komplexa att det kan vara svårt att förstå alla dess interna funktioner och processer, vilket kan göra det svårt att tillämpa en helt transparent metod.

Det är därför viktigt att överväga vilken typ av beslutsstöd som är lämplig för en specifik situation och att välja en metod som tar hänsyn till både dess prestanda och dess insyn.

55
Q

Förklara innebörden med false positive, false negative.

A

Typ 1-fel är en false positive och innebär att man felaktigt ger ett positivt resultat, t.ex. meddelar en frisk person att den är sjuk eller en icke-gravid att den är gravid.

Typ 2-fel är en false negative och innebär att man felaktigt ger ett negativt resultat. T.ex. meddelar en sjuk person att den är frisk eller att en gravid person inte är med barn.

Båda har olika typer av risker och det är svårt att väga dem exakt mot varandra. Vissa kan argumentera för att typ 2-fel är väldigt allvarliga pga då riskerar man att missa ge behandling till en cancersjuk person pga man tror att den är frisk. Samtidigt är en stor risk med typ 1 att t.ex. bygga en bro och felaktigt bedöma att den kommer hålla.

56
Q

Beskriv kortfattat förbehandling av data.

A

Förbehandling av data är en process där man rensar, omvandlar och normaliserar rådata för att förbereda den för vidare analys eller användning inom maskininlärning.

57
Q

Förklara vad NoSQL-databasmodeller innebär.

A

NoSQL-databasmodeller är en typ av icke-relationella databasmodeller som används för att lagra och hantera stora mängder data på ett skalbart och distribuerat sätt.

OLAP (Online Analytical Processing) är INTE en NoSQL-databasmodell. OLAP är en metod för att analysera data som finns i relationella databaser. Document database, Graph database och Column store database är alla exempel på NoSQL-databasmodeller.

58
Q

Ett telecom-bolag vill använda data mining för att förstå varför kunder väljer deras konkurrenter. Borde de välja ANN, SVM eller decision tree induction och varför?

A

Valet av en specifik data mining-teknik, som ANN, SVM eller decision tree induction, beror på flera faktorer, inklusive storleken på datamängden, typen av data som ska bearbetas och målet med projektet. Här är några faktorer att överväga:

Storlek på datamängden: ANN och SVM är båda mer lämpade för stora datamängder, medan beslutsträd kan användas för mindre datamängder.
Komplexitet hos data: SVM är kraftfulla för att hantera högdimensionella data med komplexa mönster, medan beslutsträd är mer lämpade för enklare data med färre variabler och mer tydliga mönster.
Typ av resultat: ANN och SVM kan användas för att generera prediktiva modeller som förutsäger framtida kundbeteende, medan beslutsträd kan användas för att identifiera de viktigaste faktorerna som påverkar kundbeteende.
Med detta sagt, om telecom-bolaget har en stor och komplex datamängd och vill generera en prediktiv modell som förutsäger framtida kundbeteende, så kan ANN eller SVM vara bättre val än beslutsträd. Både ANN och SVM är kraftfulla verktyg för att identifiera mönster i data och förutsäga framtida beteende.

ANN är särskilt användbart för att hantera icke-linjära samband mellan variabler och anpassa sig till förändringar i data utan att behöva omprogrammeras. SVM å andra sidan kan hantera högdimensionella data med hög precision och kan hantera både linjära och icke-linjära samband.

Slutligen bör telecom-bolaget överväga expertis och erfarenhet hos sina dataanalytiker eller datavetare för att välja den teknik som är mest lämplig för deras specifika situation.

59
Q

Deep learning

A

It’s a development of ML but applied to even larger data sets. Uses a multi-layered ANN (artificial neural networks) to deliver high accuracy in assigned tasks without human intervention. It involved training large and complex models with multiple layers of interconnected neurons to learn and identify patterns and features from data.

Common deep learning models include convolutional neural networks (CNN) for image recognition for example.

60
Q

Compare and contrast Classical AI against Modern AI techniques. Discuss each in terms of trust and explainability. / Describe what are the two broad categories of AI called and how they differ from each other, and how they can be tested.

A
  • Classical AI explicitly tries to express intelligence in a declarative form using rules and computer programs. Typically, Classical AI uses
    symbols and logic to represent knowledge. These kind of AI programs are explicitly designed by human developers.
  • Modern AI deals with learned intelligence, with computer programs that inject large amounts of data or learn by experience. Modern AI, such
    as Neural Networks, are trained on examples (input data and expected outputs), rather than having knowledge being explicitly programmed.
    This means such AI systems are adaptable and can learn new knowledge without having to be reprogrammed (but must be retrained).
  • In terms of trust, Classical AI systems are expressed in a transparent fashion. This means that one can view its internal logic and reasoning
    steps, leading to increased trust. One can explain why a Classical AI system comes to a decision or creates a particular output. Modern AI
    systems however are complex models that have been trained on data. The specific reasoning is obscured, a black box. This means that there
    is uncertainty about why an output is generated. Trust in Modern AI is built by through testing. However, this does not allow clear
    explanations to such systems.
61
Q

What is the determining factor for classifying a prediction problem as a classification or regression type? Give examples to elaborate your answer.

A

I would say that the determining factor for classyfing the problem as classification or regression is the underlying population of data. If we know that data is normally distributed then regression can be used to make predictions about future obervations. If the distribution is unknown the type would be of a classification problem. For example if we have data about car colors that would be a typical classification problem. If we have for example a sample of companies on the swedish stockmarket and their performance a regression could be a good tool to
approximate how certain types of companies will perform.

+ discussion with regards to
data type e.g. numerical/categorical and its implication on problem categorization…
(The primary determining factor for classifying a prediction problem as a classification or regression type is the nature of the output variable.

Classification problems involve predicting a categorical variable, i.e., an output variable with a limited set of possible values. The goal is to assign each observation to a discrete category or class. Examples of classification problems include predicting whether a customer will churn or not, classifying images into different categories (e.g., cats vs. dogs), or detecting fraud in financial transactions. The output variable in a classification problem is typically represented as a discrete set of values, such as binary (0/1) or multi-class (e.g., “red,” “green,” “blue”).

Regression problems involve predicting a continuous variable, i.e., an output variable that can take on any numerical value within a range. The goal is to estimate the relationship between the input variables and the output variable as a continuous function. Examples of regression problems include predicting house prices based on various features such as location, size, and amenities, forecasting sales for a product, or estimating a person’s age based on demographic information. The output variable in a regression problem is represented as a continuous variable, such as a decimal or real number.

The data distribution and data type play a crucial role in determining the type of problem. The data type of the input variables can be either numerical or categorical. In the case of numerical input variables, the problem is usually a regression problem. On the other hand, categorical input variables may indicate a classification problem.

Moreover, the data distribution also plays a significant role in determining the type of problem. If the output variable is a categorical variable, it is essential to look at the distribution of each category. If the distribution is highly skewed towards one category, then it can be challenging to classify other categories, and it may not be the best problem for a classification approach. In contrast, a regression problem can handle skewed data, but the distribution of the output variable can affect the choice of regression algorithm. For example, if the output variable has a nonlinear relationship with the input variables, a non-linear regression algorithm such as polynomial regression may be more appropriate.

In conclusion, the nature of the output variable is the primary factor that determines the type of prediction problem. However, the data distribution and data type also play an essential role in problem categorization. It is crucial to carefully consider these factors while selecting an appropriate algorithm for the problem.)

62
Q

Backpropagation

A

Backpropagation är en viktig mekanism genom vilken neurala nätverk tränas. Det är en mekanism som används för att finjustera vikterna i ett neuralt nätverk (annars kallat en modell i den här artikeln) med avseende på felprocenten som producerades i den tidigare iterationen. Det liknar en budbärare som berättar för modellen om nätet gjorde ett misstag eller inte så snart det förutspådde.

Fördelar:
* Det är enkelt, snabbt och lätt att programmera.
* Endast numren på ingången ställs in, inte någon annan parameter.
* Det är flexibelt och effektivt.
* Användare behöver inte lära sig några speciella funktioner.

Nackdelar:
* Den är känslig för brus-data och inkonsekvens. Brusiga data kan leda till felaktiga
resultat.
* Prestanda är starkt beroende av indata.
* Lägger för mycket tid på att träna.
* Det matrisbaserade tillvägagångssättet är att föredra framför en minibatch.

63
Q

Strong (general) AI vs Weak AI

A

Stark AI, även känt som artificiell allmän intelligens (AGI), är en form av artificiell intelligens som syftar till att replikera mänsklig intelligens i alla dess former och att kunna utföra alla uppgifter som en människa kan utföra. En stark AI skulle ha förmågan att lära sig från erfarenheter, förstå naturligt språk och känna empati.

Svag AI, å andra sidan, är en form av artificiell intelligens som har begränsad eller specifik användning. Svag AI är utformad för att lösa en specifik uppgift eller problem och är inte kapabel till att lära sig av erfarenheter utanför dess programmerade funktioner. Exempel på svag AI inkluderar ansiktsigenkänning, röstassistenter, självkörande bilar och spelprogram. Dessa system kan utföra specifika uppgifter mycket effektivt, men kan inte replikera mänsklig intelligens eller utföra en rad olika uppgifter som människor kan göra.