Vorlesung 2 Flashcards
Welche Charakteristika existieren bei Daten?
Dimensionalität, Aufläsung, Spärlichkeit, Verteilung (Zentrum, Dispersion), Ähnlichkeit (Outlier)
Gib die Skalenniveaus an. Welche sind quantitativ, welche qualitativ. Welche Relationen existieren. Gib außerdem an wo diese Beispiele hingehören: Haarfarbe, Postleitzahl, Größe, Noten, Temperatur in °C, Körpergröße, Temperatur in K
- Nominalskala (qualitativ): Haarfarbe, Postleitzahl; Relation ist (Un)Gleichheit
- Ordinalskala (qualitativ): Größe, Noten; hat natürliche Rangfolge und somit Größer/Kleiner Relation
- Intervallskala (quantitativ): Temperatur in °C; Abstand kann quantifiziert werden; Relation somit auch Differenz
- Verhältnisskala (quantitativ): Körpergröße, Temperatur in K; hat absoluten Nullpunkt; Relation auch Verhältnis c=A/B
Welche Größen existieren um die Zentrumtendenz zu beschreiben? Was gilt für symmetrische Verteilungen und welche Daumenregel gibt es für moderat asymmetrische Kurven
Modus, Mean, Geometrisscher Mean, Median
Symm: Median = Mean = Mode
Assym: mean - mode = 3 (mean - median)
Wie werden Outlier in der Varianz betrachtet?
Überproportional durch das Quadrieren
Was macht die Gauss-Verteilung bezüglich der Entropie?
maximierte Entropie
Was ist die Possion-Verteilung?
Welche Bedingung wird an die Ereignisse gestellt?
Zusammenhang zu Gauss?
Wahrscheinlichkeit k Ereignisse in bestimmten Intervall zu haben
Ereignisse müssen unabhängig sein
großes k -> Gauss
Beschreibe den Fluch der Dimensionalität
Objekte in hoher Dim. haben große Oberfläche gegenüber Volumen
für gleiche Datendichte für Punkt in d Dim. benötigt man n^d Datenpunkte
Hypercube-Kantenlänge: e(p) = p^(1/3)
durchschnittliche Distanz nimmt mit steigender Dimension zu
Abstand zu Kante nimmt ab mit höherer Dim