Vorlesung 4 Flashcards

1
Q

Welche Schritte gibt es in der Datenvorverarbeitung?

A
  1. Data Cleaning: fehlende Werte gefüllt, Rauschen vermindert, Outlier entfernt
  2. Data Integration: Zusammenführen mehrerer Datenquellen
  3. Datenreduktion: Kompression, Dimensionsreduktion
  4. Datentransformierung: Normalisierung, PCA
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Merkmale gibt es für die Datenqualität?

A

Vollständigkeit, Konsistenz, Aktualität (zeitlich), Glaubwürdigkeit, Interpretierbarkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie kann Rauschen in Daten entstehen?

A

fehlerhafte Instrumente, Tippfehler, Inkonsistenz bei Benennung, Duplikate

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie geht der Chi-Quadrat-Test?

A

für nominale Daten ist
chi^2 = Summe (Observed - Expected)^2 / Expected
gibt an, ob zwei Datenverteilung sich statistisch unterscheiden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wozu dient die Chi-Menge Diskretisierung? Welche Schritte sind dabei

A

Einige Algorithmen preferieren diskrete Werte (z. B. Entscheidungsbäume)
Schirte:
1. Daten sortieren
2. Anfangsintervalle aufstellen
3. Chi^2 für jedes paar Nachbarintervalle
4. Intervalle mit niedrigstem Chi^2 mergen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist Binning?

A
  1. äquidistante Partitionierung
    w = (B-A)/N, mit A, B max. Attributwerte, ist für Outlier anfällig
  2. äquitiefe Partinierung
    N Intervalle mit gleicher Anzahl an Proben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly