Preprocessing Flashcards
Welche Dimensionen gibt es, um die Qualität von Daten zu messen?
- Completeness: is the data fully available? What to do if not?
- Consistency: differences in data units or name conventions?
- Timeliness: measurements from different epochs?
Old measure devices? - Believability: is the data source reliable?
- Interpretability: how easily can the data be understood?
Für das Data Cleaning, über welche Typen an Fehlern sollte man Bescheid wissen?
- Incomplete: lacking attribute values, lacking certain attributes of
interest, or only aggregate data available - Noisy: containing noise, errors, or outliers
- Inconsistent: containing discrepancies in codes or names
- Intentionally imprecise
– Jan. 1 as everyone’s birthday
Wie kann man mit fehlenden Daten umgehen?
- Ignorieren: kein großer Effekt bei großen Daten
- manuell die Einträge überarbeiten
- automatisch die Einträge überarbeiten (global constant, mean, most probable value using inference such as Bayesian
formula or decision tree based on other attributess)
Was ist Data Integration?
Data integration combines data from
multiple sources into a coherent store
Mit welcher Methode kann man redundante Attribute erkennen?
chi-square test (nominal)
correlation analysis
Was sind die Vorteile von Data Integration?
- reduce/avoid redundancies and inconsistencies and
- improve mining speed and quality
Beschreib den Chi-Square Test mathematisch
Was bedeutet ein hohes Chi-Quadrat?
→ data distributions are statistically different
Was bedeutet ein niedriges Chi-Quadrat?
distributions are similar
Wie funktioniert ChiMerge?
Man hat Intervalle und checkt rekursiv, ob die Verteilung der Label in den beiden ähnlich ist anhand des Chi-Quadrat tests und mergt diese, falls dies stimmt
Beschreib den Pearson’s product
moment coefficient mathematisch
Pearson’s product moment coefficient
Was bedeutet es, wenn r > 0?
A and B are positively correlated
Pearson’s product moment coefficient
Was bedeutet es, wenn r = 0?
uncorrelated, not necessarily independent
Pearson’s product moment coefficient
Was bedeutet es, wenn r < 0?
negatively correlated
Wie berechent man die Kovarianz?