Outlier Detection Flashcards

1
Q

Outlier Detection

A

Ein Outlier ist eine Beobachtung welche sich maßgeblich von den anderen Beobachtungen unterscheidet, dass sie Aufsehen erregt und auch durch einen anderen Mechanismus entstanden sein könnte.

Zwei Gründe für Outliers:

  • Schlechte Daten: Messfehler und Schreibfehler
  • Korrekte Daten: Zufällige Variation der Daten, stark gestauchte Distribution der Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Outliers - Hauptprobleme (4)

A

-Finden: Wie findet man Outliers?
-Behalten oder nich?
Sollte man sie behalten? –> Sind Hauptbestandteil der Analyse
Sollte man sie verwerfen? –> Robustere Statistiken, saubere Daten
-Outlier Labeling: Potenzielle Outliers für spätere Analysen markieren
-Outlier Identifikation: Testen ob Beobachtungen tatsächlich Outliers sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Outlier Detection Methods

A

Extremwertanalyse:

  • Einfachste Form der Outlier Detection und nur bei eindimmensionellen Daten gut
  • Werte die zu groß oder zu klein sind, sind Outliers
  • Methoden: Z Test, Students T-Test
  • Achtung: nicht für Multivariate Probleme

Probabilisitsche und statistische Probleme:

  • Modelle benötigen spezifische Verteilungen der Daten
  • Nutzung von Erwartungsmaximierungsmethoden(EM), welche Parameter der Modelle schätzen
  • Kalkulation der Zugehörigkeit jedes Datenpunkts zu der kalkulierten Verteilung
  • Datenpunkte mit einer niedrigen Wahrscheinlichkeit der Zugehörigkeit werden als Outlier klassifiert

Lineare Modelle:

  • Methoden modellieren die Daten in niedrige Sub-spaces mit der Hilfe von linearer Korrelation
  • Abstand von jedem Datenpunkt zur Fläche wird kalkuliert
  • Abstand wird genutzt um Outliers zu entdecken
  • Methoden: PCA

Proximity-based Modelle:

  • Grundgedanke dieser Methoden ist Outliers als Punkt eines bestimmten Clusters zu modellieren, die isoliert vom Rest der Betrachtungen sind
  • Methoden: Cluster Analysen, Nearest Neighbour
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Extremwert-Test

A

Z-Test(Gauß Test)

  • eignet sich nur für normalverteilte Daten
  • Größe Datenset >30
  • Z Scoreberechnung: Sigma = Standardabweichung, Mu = Erwartungswert, Z = sqrt(n) * (x-mu) / Sigma
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Probialistische Modelle

A

Erwartungswertmaximierung(EM)

  • EM ist ein Algorithmus zur Maximierung der Wahrscheinlichkeitsfunktion wenn Variablen in einem Modell unbekannt sind
    1. Schritte Ansatz
      1. Schätzen unter Berücksichtigung der aktuellen Parameter und der beobachteten Daten die verfügbaren latenten Variablen
      2. Schätzen angesichts der beobachten Daten und der latenten Variablen die Parameter
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Lineare Modelle

A

Prinicpal Component Analysis(PCA)

  • PCA verwendet eine orthogonale Transformation, um ein Set von Beobachtungen möglicherweise korrelierter Variablen in ein Set von Werten linear unkorrelierter Variablen(Hauptkompenenten) umzuwandeln
  • PCs sind orthogonal, weil sie die Eigenvektoren der Kovarianzmatrix sind, die symmetrisch ist
  • PCA wird meistens als Werkzeug bei der explorativen Datenanalyse und für die Erstellung von Vorhersagemodellen verwendet, Hilft die Dimensionalittät einer gegebenen Stichprobe zu reduzieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Proximity base Models

A

K-nearest neighbor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly