Maschinelle Datenanalyse mit R Flashcards
Was versteht man unter analytischer Datenmodellierung?
Darunter versteht man wie mithilfe der auszuwertenden Datenbestände ein statistisches Modell entwickelt und dessen Qualität evaluiert werden kann.
Welche fünf Schritte gehören zum Datenanalyseprozess?
Einlesen -> Aufbereiten Modellieren Aufbereiten Visualisieren Aufbereiten ->Kommunizieren Modellieren Visualisieren
Was gehört zum Einlesen?
Extraktion des Datenbestands aus der Datenquelle
Einlesen der Daten mit geeigneter Analysesoftware
Was gehört zum Aufbereiten?
Aufteilen der Daten in Variablen (=Dimensionen) und Beobachtungen (=Fakten)
Filtern und Bereinigen der Daten entsprechend des Analysezwecks
Was gehört zum Modellieren?
(Maschinelle) Generierung eines (statistischen) Vorhersagemodells
Validierung und Anwendung des Vorhersagemodells auf neuen Datensätzen
Was gehört zum Visualisieren?
Deskriptive (direkte) und/oder prädiktive (anhand Modell) Auswertung der Daten
Visuelle Aufbereitung und Präsentation der Analyseergebnisse
Was gehört zum Kommunizieren?
Mitteilung der gewonnenen Erkenntnisse an betriebliche Entscheidungsträger
Umsetzung der Erkenntnisse in konkretes unternehmerisches Handeln
Was ist ein statistisches Modell?
Ein mathematisches Konstrukt welches Aufschluss über die folgenden Fragen gibt:
- Welche Werte nehmen die beobachteten Größen an?
- Wie sind diese Werte verteilt, d.h. welche Werte treten wie häufig auf?
- Anhand welcher Variablen lässt sich vorhersagen, ob bestimmte beobachtete Werte häufiger oder seltener auftreten.
Aus welchen Schritten besteht die stat. Modellbildung?
- Ermittlung der Eigenschaften der beobachteten Werte (Verteilung, Korrelationen,..) -> deskriptive Statistik
- Ermittlung von Beziehungen zwischen gegebenen Variablen (Dimensionen) und beobachtbaren Größen (Fakten) zur Erstellung von Vorhersagen für zukünftige Werte -> prädiktive Statistik / Interferenzstatistik
Was ist Statistik?
Die Wissenschaft von Sammlung, Analyse, Interpretation und Kommunikation von Daten mithilfe mathematischer Verfahren.
Was gehört zu deskriptiver Statistik?
Prägnante Zusammenfassung von Daten
Ermittlung von Lagemaßen und Streuungsmaßen (Wo liegen die Daten und Wie sind die Daten verteilt?)
Ermittlung von Zusammenhangsmaßen (Wie hängen die Daten zusammen?) -> Korrelationen
Was gehört zu prädikativer Statistik?
Ziehen von Rückschlüssen auf eine Grundgesamtheit durch Betrachtung einer Stichprobe
Entwicklung von Vorhersagemodellen zur Klassifikation von zuvor unbekannten Daten
Aufspüren von kausalen Beziehungen in den Daten.
Was ist Datenanalyse letztendlich?
Nichts weiter als angewandte statistische Modellierung
Für Assoziationsanalysen werden verfahren der deskriptiven Statistik benötigt
Für Klassifikations-/Regressionsverfahren werden Verfahren der prädikativen Statistik benötigt.
Was gehört zur Bildung und Bewertung statistischer Vorhersagemodelle?
Vorhandene Datensätze (aus DW) dienen als Stichprobe für Grundgesamtheit aller (zukünftigen) betrieblichen Vorgänge.
Ziel: statistische Zusammenhänge in den vorhandenen Datensätze finden die sich zur Prognose der Zukunft eignen.
Bevor Modell eingesetzt werden kann: zunächst Messung wie genau es die Zusammenhänge in den Daten vorhersagen kann -> Güte
Aber stets neue Stichprobe zur Modellbewertung nehmen, da nur weil ein Modell eine Stichprobe sehr gut beschreibt es nicht heißt dass es auch die Grundgesamtheit so gut beschreibt.
Welche Gütemaße neben Precision und Recall können noch zur Validierung von Vorhersagemodellen genutzt werden?
Falsch Positiv Rate (FPR): Anteil an falsch positiven Vorhersagen an der Menge aller negativer Vorhersagen
Falsch negativ Rate: Anteil an falsch negativen Vorhersagen an der Menge aller positiven Vorhersagen
Accuracy: Anteil richtiger Vorhersagen an allen Vorhersagen (TP+TN) von allen Vorhersagen
F-Maß: Kombination aus precision und recall und nummt besonders hohe Werte an wenn sowohl p. als auch r hohe Werte aufweisen.