Outlier Detection Flashcards
Outlier Detection
Ein Outlier ist eine Beobachtung welche sich maßgeblich von den anderen Beobachtungen unterscheidet, dass sie Aufsehen erregt und auch durch einen anderen Mechanismus entstanden sein könnte.
Zwei Gründe für Outliers:
- Schlechte Daten: Messfehler und Schreibfehler
- Korrekte Daten: Zufällige Variation der Daten, stark gestauchte Distribution der Daten
Outliers - Hauptprobleme (4)
-Finden: Wie findet man Outliers?
-Behalten oder nich?
Sollte man sie behalten? –> Sind Hauptbestandteil der Analyse
Sollte man sie verwerfen? –> Robustere Statistiken, saubere Daten
-Outlier Labeling: Potenzielle Outliers für spätere Analysen markieren
-Outlier Identifikation: Testen ob Beobachtungen tatsächlich Outliers sind
Outlier Detection Methods
Extremwertanalyse:
- Einfachste Form der Outlier Detection und nur bei eindimmensionellen Daten gut
- Werte die zu groß oder zu klein sind, sind Outliers
- Methoden: Z Test, Students T-Test
- Achtung: nicht für Multivariate Probleme
Probabilisitsche und statistische Probleme:
- Modelle benötigen spezifische Verteilungen der Daten
- Nutzung von Erwartungsmaximierungsmethoden(EM), welche Parameter der Modelle schätzen
- Kalkulation der Zugehörigkeit jedes Datenpunkts zu der kalkulierten Verteilung
- Datenpunkte mit einer niedrigen Wahrscheinlichkeit der Zugehörigkeit werden als Outlier klassifiert
Lineare Modelle:
- Methoden modellieren die Daten in niedrige Sub-spaces mit der Hilfe von linearer Korrelation
- Abstand von jedem Datenpunkt zur Fläche wird kalkuliert
- Abstand wird genutzt um Outliers zu entdecken
- Methoden: PCA
Proximity-based Modelle:
- Grundgedanke dieser Methoden ist Outliers als Punkt eines bestimmten Clusters zu modellieren, die isoliert vom Rest der Betrachtungen sind
- Methoden: Cluster Analysen, Nearest Neighbour
Extremwert-Test
Z-Test(Gauß Test)
- eignet sich nur für normalverteilte Daten
- Größe Datenset >30
- Z Scoreberechnung: Sigma = Standardabweichung, Mu = Erwartungswert, Z = sqrt(n) * (x-mu) / Sigma
Probialistische Modelle
Erwartungswertmaximierung(EM)
- EM ist ein Algorithmus zur Maximierung der Wahrscheinlichkeitsfunktion wenn Variablen in einem Modell unbekannt sind
- Schritte Ansatz
- Schätzen unter Berücksichtigung der aktuellen Parameter und der beobachteten Daten die verfügbaren latenten Variablen
- Schätzen angesichts der beobachten Daten und der latenten Variablen die Parameter
- Schritte Ansatz
Lineare Modelle
Prinicpal Component Analysis(PCA)
- PCA verwendet eine orthogonale Transformation, um ein Set von Beobachtungen möglicherweise korrelierter Variablen in ein Set von Werten linear unkorrelierter Variablen(Hauptkompenenten) umzuwandeln
- PCs sind orthogonal, weil sie die Eigenvektoren der Kovarianzmatrix sind, die symmetrisch ist
- PCA wird meistens als Werkzeug bei der explorativen Datenanalyse und für die Erstellung von Vorhersagemodellen verwendet, Hilft die Dimensionalittät einer gegebenen Stichprobe zu reduzieren
Proximity base Models
K-nearest neighbor