Data Science Flashcards
Skalentyp Kategorisch:
- Nominal (keine Rangfolge)
- Ordinal (Rangfolge)
Skalentyp Numerisch:
- Intervall (Reihenfolge und Abstand)
- Ratio/Verhältnis (Reihenfolge, Abstand und Absoluter Nullpunkt)
Diskrete Attribute:
können nur eine endliche Anzahl von möglichen Werten haben (kategorische Attribute)
Kontinuierliche Attribute:
können unendlich viele verschiedene Werte annehmen (numerische Attribute)
Was ist Data Mining?
Schritt innerhalb des Prozesses der Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases, KDD). Data Mining ist die systematische Entdeckung und Extraktion bisher unbekannter Zusammenhänge in einem Datensatz mit Hilfe von regelbasierten oder statistischen Methoden.
Unterschied zwischen Data Mining und ML
–> klare Grenze geht nicht immer.
Machine Learning konzentriert sich hauptsächlich auf Prozesse und Theorien des Lernens und Vorhersagens, während Data Mining aus der Notwendigkeit heraus entstand, die Datenanalyse auf große Datenbanken anzuwenden.
welche Ansätze gibt es im Data Mining?
Regelbasierte Ansätze und
ML-Ansätze
drei Arten von Statistik
- Descriptive
- Interference
- Predictive
4 Aufgaben von Data Science
- Clustering/Segmentierung
- Erkennung von Anomalien/Ausreissern
- Association-rule mining
- Vorhersage
4 Potenziale von Big Data und Data Science
- schnellere Entscheidungen
- bessere Entscheidungen treffen
- Kosten reduzieren
- Verarbeitung unstrukturierter Daten