Outlier Detection Flashcards

Question 1

Q

Outlier Detection

Answer

A

Ein Outlier ist eine Beobachtung welche sich maßgeblich von den anderen Beobachtungen unterscheidet, dass sie Aufsehen erregt und auch durch einen anderen Mechanismus entstanden sein könnte.

Zwei Gründe für Outliers:

Schlechte Daten: Messfehler und Schreibfehler
Korrekte Daten: Zufällige Variation der Daten, stark gestauchte Distribution der Daten

Question 2

Q

Outliers - Hauptprobleme (4)

Answer

A

-Finden: Wie findet man Outliers?
-Behalten oder nich?
Sollte man sie behalten? –> Sind Hauptbestandteil der Analyse
Sollte man sie verwerfen? –> Robustere Statistiken, saubere Daten
-Outlier Labeling: Potenzielle Outliers für spätere Analysen markieren
-Outlier Identifikation: Testen ob Beobachtungen tatsächlich Outliers sind

Question 3

Q

Outlier Detection Methods

Answer

A

Extremwertanalyse:

Einfachste Form der Outlier Detection und nur bei eindimmensionellen Daten gut
Werte die zu groß oder zu klein sind, sind Outliers
Methoden: Z Test, Students T-Test
Achtung: nicht für Multivariate Probleme

Probabilisitsche und statistische Probleme:

Modelle benötigen spezifische Verteilungen der Daten
Nutzung von Erwartungsmaximierungsmethoden(EM), welche Parameter der Modelle schätzen
Kalkulation der Zugehörigkeit jedes Datenpunkts zu der kalkulierten Verteilung
Datenpunkte mit einer niedrigen Wahrscheinlichkeit der Zugehörigkeit werden als Outlier klassifiert

Lineare Modelle:

Methoden modellieren die Daten in niedrige Sub-spaces mit der Hilfe von linearer Korrelation
Abstand von jedem Datenpunkt zur Fläche wird kalkuliert
Abstand wird genutzt um Outliers zu entdecken
Methoden: PCA

Proximity-based Modelle:

Grundgedanke dieser Methoden ist Outliers als Punkt eines bestimmten Clusters zu modellieren, die isoliert vom Rest der Betrachtungen sind
Methoden: Cluster Analysen, Nearest Neighbour

Question 4

Q

Extremwert-Test

Answer

A

Z-Test(Gauß Test)

eignet sich nur für normalverteilte Daten
Größe Datenset >30
Z Scoreberechnung: Sigma = Standardabweichung, Mu = Erwartungswert, Z = sqrt(n) * (x-mu) / Sigma

Question 5

Q

Probialistische Modelle

Answer

A

Erwartungswertmaximierung(EM)

EM ist ein Algorithmus zur Maximierung der Wahrscheinlichkeitsfunktion wenn Variablen in einem Modell unbekannt sind
1. Schritte Ansatz
  1. Schätzen unter Berücksichtigung der aktuellen Parameter und der beobachteten Daten die verfügbaren latenten Variablen
  2. Schätzen angesichts der beobachten Daten und der latenten Variablen die Parameter

Question 6

Q

Lineare Modelle

Answer

A

Prinicpal Component Analysis(PCA)

PCA verwendet eine orthogonale Transformation, um ein Set von Beobachtungen möglicherweise korrelierter Variablen in ein Set von Werten linear unkorrelierter Variablen(Hauptkompenenten) umzuwandeln
PCs sind orthogonal, weil sie die Eigenvektoren der Kovarianzmatrix sind, die symmetrisch ist
PCA wird meistens als Werkzeug bei der explorativen Datenanalyse und für die Erstellung von Vorhersagemodellen verwendet, Hilft die Dimensionalittät einer gegebenen Stichprobe zu reduzieren

Question 7

Q

Proximity base Models

Answer

A

K-nearest neighbor

Outlier Detection Flashcards

(7 cards)