Vorlesugn 3 Flashcards

1
Q

Welchen Nachteil hat die statistische Outlier-Detektion?

A
  1. einzelnes Attribut kann bezüglich einer Dimension betrachtet werden, z. B. x, aber Outlier könnten gegenüber x,y Outlier sein
  2. häufig Normalverteilung einfach angeommen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche drei Schemata existieren bei der Outlier-Detektion?

A
  1. graphisch -> subjektiv, zeitintensiv, hochdim. Daten ↯
  2. statistisch (z. B. dichtebasiert) -> parametrisches Modell beschreibung Verteilung (z. B. Gauss), aufstellen Konfidenzlimit
  3. distanzbasiert: NN-Klassifikation, dichtebasiert, Clustering (mit weniger Punkten)
  4. anomaliebasiert: alle Punkte mit Anomalie-Score > Threshold
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie unterscheiden sich Histogramm und Bar-Chart?

A

Histogramm -> Verteilung einer Variable / Bar-Chart -> Vergleich von Variablen
Histopgramm -> quantiative Daten in Bereich / Bar-Chart -> nominale Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist die Kontingenztabelle für binäre Attribute? Gib drei Abstandsmaße an.

A

+—–+—–+—–+—–+
| / | 1 | 0 | sum |
+—–+—–+—–+—–+
| 1 | q | r | q+r |
| 0 | s | t | s+t |
| sum | q+s | r+t | p |
+—–+—–+—–+—–+

  1. symmetrisch: d(i,j) = r+s / (q+r+s+t)
  2. asymmetrisch: d(i,j) = r+s / (q+r+s)
  3. Jaccard-Koeffizient: d(i,j) = q / (q+r+s)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welches Abstandsmaß existiert für numerische Daten?

A
  1. Minkowski-Abstand
    d(i,j) = (|x_i1 - x_j1|^h + |x_i21-x_j2|^h)^(1/h)
    ist SPD, erfüllt Dreiecksungleichung
    h=1: Manhatten-Abstand
    h=2: eukldiisch
    h=inf: Maxiumsnorm
  2. Kosinusähnlichkeit
    cos(d1,d2) = <d1,d2>/(||d1||||d2||)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly