Preprocesarea datelor Flashcards
Care sunt cateva motive care sa justifice preprocesarea datelor?
- Informatia este incompleta
- Informatie lipsa
- Informatii duplicate
- Codificare inconsistenta
In principiu 80% din timpul acordat modelarii este pe preprocesarea informatiilor
Cum putem clasifica datele?
- Master data (entitatile cu care compania lucra)
- Transactional data (detaliile tranzactiilor)
- External data (folosite din mediul extern)
- Open data (accesibile tuturor)
- Big data
Ce presupune denormalizarea?
Denormalizarea presupune combinarea mai multor tabele intr-un singur raport
Pe baza unui primary key
Ce presupune problema inferentei clientilor refuzati/acceptati?
Aceasta are loc atunci cand esantionam doar pe baza clientilor acceptati/refuzati
Din lipsa de date
Cum abordam valorile lipsa?
- Le pastram (daca aduc informatii)
- Le stergem (can numarul lor e mare)
- Le inlocuim (cu medie, mediana, sau modala pentru categoriale)
Cum se schimba valoare WoE in functie de distributiile de buni/rai?
Daca distributia de buni > rai atunci WoE va fi pozitiv
Daca distributia de buni < rai atunci WoE va fi negativ
Ce reprezinta IV?
IV calculeaza puterea de predictie a unei variabile
Masoara diferenta absoluta dintre distributia clientilor buni si distributia clientilor rai
Care sunt cateva aplicatii pentru IV?
- Pentru ajustarea categoriilor
- Pentru alegere de variabile semnificative