Fragen ohne Markierung Flashcards
Was sind Anwendungsgebiete von Data Science? (V01F10)
○ Vorhersage (Krankheitsausbrüche, Prävention)
○ Optimierung (Versorgungsprozesse)
○ Personalisierung (Behandlungsplan, Risikoermittlung)
○ Assistenz (Diagnoseempfehlung)
○ Intelligenz (Roboterassistenzsysteme)
Welche zwei großen Kategorien gibt es in Bezug auf Daten? (V01F29)
○ Offene Daten: Linked Open Data, Wissenschaftliche Daten (RKI), etc.
○ Interne Daten (Geschäftsdaten, medizinische Daten): Transaktionale Daten, Sensordaten
Was ist Cross-Validierung (n-fold-Crossvalidation)? (V02F16)
○ Bei der Crossvalidation handelt es sich um eine Methode zur Teilung der Daten in Trainings- und Test-Daten. Die Daten werden in n Teile geteilt, wobei n-1 Teile für das Training und 1 Teil für den Test benutzt werden. Insgesamt gibt es n Trainings-Test-Durchläufe, sodass jeder der n Datenteile einmal für den Test verwendet wurde.
○ Dabei werden sozusagen mehrere (n) aufgeteilte Datensätze generiert. Der Teil, der dabei zum Testdatensatz wird, variiert jedes Mal (nicht zufällig, sondern iterativ). Somit werden die Entscheidungsmerkmale immer anders verteilt. Nun kann das verwendete System mit n Datensätzen trainiert und getestet und daraus eine durchschnittliche Genauigkeit berechnet werden.
Was ist Daten Parallelismus? (V02F18)
Daten werden auf Clusterknoten aufgeteilt, jeder Knoten hat eine lokale Kopie des geteilten Modells.
Was ist Modell-Parallelismus? (V02F18)
Modell wird auf verschiedene Knoten verteilt, keiner verarbeitet gesamte Daten.
Was ist der Hauptunterschied zwischen Data Models und Algoritmic Models? (V02F19)
○ Data Models sind nachvollziehbar, d.h. der Nutzer weiß wie das Ergebnis zustande kommt
○ Algorithmic Models sind sogenannte Black Boxen, es ist nicht klar warum das Ergebnis so ausfällt.
Was ist das Ziel von Clusterverfahren? (V03F11)
Erkennen und Bewerten von Clustern.
Was sind numerische Merkmale? (V03F13)
○ Es handelt sich um Zahlen, die den Datenpunkt beschreiben.
○ Es gibt eine klare Reihenfolge
Was sind nominale Merkmale? (V03F14)
○ Bei nominalen Merkmalen handelt es sich um Wörter, die den Datenpunkt beschreiben.
○ Gibt keine klare Reihenfolge.
Welche agglomerative hierarchische Klassifikationsverfahren gibt es? (V03F20)
○ Single-Linkage-Verfahren
○ Complete-Linkage-Verfahren
○ Average-Linkage-Verfahren
○ Median-Verfahren
○ Zentroid-Verfahren
○ Ward-Verfahren
Was ist die Basis für das Single-Linkage Verfahren? (V03F22)
Auf Basis der beiden nächsten Punkte werden zwei Cluster kombiniert.
Was ist die Basis für das Complete-Linkage-Verfahren? (V03F22)
Auf Basis der beiden weitesten entfernten Punkte werden zwei Cluster kombiniert.
Wofür wird das Single-Linkage-Verfahren hauptsächlich angewendet? (V03F31)
Zur Aufdeckung von Ausreißern
Was sind Eigenschaften des Complete-Linkage-Verfahrens? (V03F38)
○ Tendenz zur Bildung kleiner, kompakter Gruppen (dilatierendes Verfahren), die häufig in sich erheblich homogener sein werden
○ Die Orientierung an den beiden maximal unähnlichsten Objekten kann dazu führen, dass eine Fusion zweier Cluster unterbleibt, auch wenn die mittlere Distanz zwischen den Objekten nicht notwendig eine merkliche Erhöhung der Heterogenität anzeigen würde.
○ Monotonieeigenschaft
Was sind Eigenschaften des Average-Linkage-Verfahrens? (V03F44)
○ Konservatives Verfahren, das zwischen dem kontrahierenden Single-Linkage- Verfahren und dem dilatierenden Complete-Linkage-Verfahren eingeordnet werden kann,
○ Objekte zweier Gruppen müssen “im Mittel” ähnlich sein, damit es zu einer Fusion kommt. Größere Distanzen zwischen Objekten können hierbei durch geringere Distanzen nahe beieinander liegender Objekte kompensiert werden.
○ Monotonieeigenschaft
Was ist das Ziel von Entscheidungsbaumverfahren? (V04F11)
Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können.
Was ist die Voraussetzung für Entscheidungsbaumverfahren? (V04F11)
Ein Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist.