Vorlesung 4 Flashcards
Welche Schritte gibt es in der Datenvorverarbeitung?
- Data Cleaning: fehlende Werte gefüllt, Rauschen vermindert, Outlier entfernt
- Data Integration: Zusammenführen mehrerer Datenquellen
- Datenreduktion: Kompression, Dimensionsreduktion
- Datentransformierung: Normalisierung, PCA
Welche Merkmale gibt es für die Datenqualität?
Vollständigkeit, Konsistenz, Aktualität (zeitlich), Glaubwürdigkeit, Interpretierbarkeit
Wie kann Rauschen in Daten entstehen?
fehlerhafte Instrumente, Tippfehler, Inkonsistenz bei Benennung, Duplikate
Wie geht der Chi-Quadrat-Test?
für nominale Daten ist
chi^2 = Summe (Observed - Expected)^2 / Expected
gibt an, ob zwei Datenverteilung sich statistisch unterscheiden
Wozu dient die Chi-Menge Diskretisierung? Welche Schritte sind dabei
Einige Algorithmen preferieren diskrete Werte (z. B. Entscheidungsbäume)
Schirte:
1. Daten sortieren
2. Anfangsintervalle aufstellen
3. Chi^2 für jedes paar Nachbarintervalle
4. Intervalle mit niedrigstem Chi^2 mergen
Was ist Binning?
- äquidistante Partitionierung
w = (B-A)/N, mit A, B max. Attributwerte, ist für Outlier anfällig - äquitiefe Partinierung
N Intervalle mit gleicher Anzahl an Proben