Vorlesugn 3 Flashcards
1
Q
Welchen Nachteil hat die statistische Outlier-Detektion?
A
- einzelnes Attribut kann bezüglich einer Dimension betrachtet werden, z. B. x, aber Outlier könnten gegenüber x,y Outlier sein
- häufig Normalverteilung einfach angeommen
2
Q
Welche drei Schemata existieren bei der Outlier-Detektion?
A
- graphisch -> subjektiv, zeitintensiv, hochdim. Daten ↯
- statistisch (z. B. dichtebasiert) -> parametrisches Modell beschreibung Verteilung (z. B. Gauss), aufstellen Konfidenzlimit
- distanzbasiert: NN-Klassifikation, dichtebasiert, Clustering (mit weniger Punkten)
- anomaliebasiert: alle Punkte mit Anomalie-Score > Threshold
3
Q
Wie unterscheiden sich Histogramm und Bar-Chart?
A
Histogramm -> Verteilung einer Variable / Bar-Chart -> Vergleich von Variablen
Histopgramm -> quantiative Daten in Bereich / Bar-Chart -> nominale Daten
4
Q
Was ist die Kontingenztabelle für binäre Attribute? Gib drei Abstandsmaße an.
A
+—–+—–+—–+—–+
| / | 1 | 0 | sum |
+—–+—–+—–+—–+
| 1 | q | r | q+r |
| 0 | s | t | s+t |
| sum | q+s | r+t | p |
+—–+—–+—–+—–+
- symmetrisch: d(i,j) = r+s / (q+r+s+t)
- asymmetrisch: d(i,j) = r+s / (q+r+s)
- Jaccard-Koeffizient: d(i,j) = q / (q+r+s)
5
Q
Welches Abstandsmaß existiert für numerische Daten?
A
- Minkowski-Abstand
d(i,j) = (|x_i1 - x_j1|^h + |x_i21-x_j2|^h)^(1/h)
ist SPD, erfüllt Dreiecksungleichung
h=1: Manhatten-Abstand
h=2: eukldiisch
h=inf: Maxiumsnorm - Kosinusähnlichkeit
cos(d1,d2) = <d1,d2>/(||d1||||d2||)