Preprocesarea datelor Flashcards

1
Q

Care sunt cateva motive care sa justifice preprocesarea datelor?

A
  • Informatia este incompleta
  • Informatie lipsa
  • Informatii duplicate
  • Codificare inconsistenta

In principiu 80% din timpul acordat modelarii este pe preprocesarea informatiilor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Cum putem clasifica datele?

A
  • Master data (entitatile cu care compania lucra)
  • Transactional data (detaliile tranzactiilor)
  • External data (folosite din mediul extern)
  • Open data (accesibile tuturor)
  • Big data
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ce presupune denormalizarea?

A

Denormalizarea presupune combinarea mai multor tabele intr-un singur raport

Pe baza unui primary key

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Ce presupune problema inferentei clientilor refuzati/acceptati?

A

Aceasta are loc atunci cand esantionam doar pe baza clientilor acceptati/refuzati

Din lipsa de date

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cum abordam valorile lipsa?

A
  • Le pastram (daca aduc informatii)
  • Le stergem (can numarul lor e mare)
  • Le inlocuim (cu medie, mediana, sau modala pentru categoriale)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cum se schimba valoare WoE in functie de distributiile de buni/rai?

A

Daca distributia de buni > rai atunci WoE va fi pozitiv

Daca distributia de buni < rai atunci WoE va fi negativ

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ce reprezinta IV?

A

IV calculeaza puterea de predictie a unei variabile

Masoara diferenta absoluta dintre distributia clientilor buni si distributia clientilor rai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Care sunt cateva aplicatii pentru IV?

A
  • Pentru ajustarea categoriilor
  • Pentru alegere de variabile semnificative
How well did you know this?
1
Not at all
2
3
4
5
Perfectly