Vl5&6 Flashcards

1
Q

Überwachtes Lernen

A

Klassisches Lernen mit Training & Testing erforderlich
• Trainieren von KI anhand von Daten (Erfahrungswerte; Berücksichtigung von Antworten)
• Datenbasis: Daten mit Label
• Überprüfung durch einen Testdatensatz in der Testphase -> Güte des trainierten Modells durch Überwachung des Labels/Ausgabe
• Treffen von selbstständigen Entscheidungen auf Basis des Trainings
• Am häufigsten angewendetes Lernverfahren
• Nutzen: Vorhersage von Zuständen/Ereignissen welche z.B. in der Zukunft liegen
• Beispielhafte Methoden: Klassifikation, Regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Unüberwachtes Lernen

A

Das System weiß nicht was es erkennen soll
• Keine explizite Zielvorgabe
• Datenbasis: Daten ohne Label
• Ziel: Explorative Muster & Strukturen in den bestehenden Daten finden
• Keine „Überwachungs”-Ausgabe vorhanden -> Lernen aus den Datenstrukturen Nutzen: Finden von Muster/Strukturen/Auffälligkeiten in großen Datensätzen
• Beispielhafte Methoden: Clustering, Assoziationsanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Klassifikation
Funktionsweise

A

• Prädiktives (vorhersageorientiertes) maschinelles Lernverfahren
• Zuordnung von Datenobjekten zu vorher festgelegten Klassen (Label)
• 1 Datenobjekt: 1 Label (Label = kategorische Klasse)
• Beispiele für Labels: Männlich oder weiblich, Bestehen oder durchfallen, Katze oder Hund
• Anwendbar auf verschiedene Datentypen (Intervall, ordinal, kategorisch) -> ggf. Datentransformation notwendig
• Trainieren auf Datenmengen mit zugewiesenem kategorischen Label
• Testen auf neuen Datenmengen ohne Label
• Ziel: Zu wie viel Prozent kann ein neues, unbekanntes Objekt zu einer bereits gelernten Klasse zugeordnetwerden?; Vorhersage eines Klassenlabels für neue Datenobjekte
• Nutzen: Zukunftsorientierte Klassen-Vorhersagen für neuartige Daten auf Basis historischer Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Entscheidungsbaum

A

• Umsetzungsmöglichkeit der Klassifikation
• Systematische Visualisierung der Trainingsdaten (Vorteil)
• Ziel: Extraktion von musterbasiertem Wissen aus Daten & Vorhersage unbekannter Klassen
• Generierung des Entscheidungsbaums durch Training & Testing

• Auswahl & Priorisierung von Attributen, welche die verfügbaren Eingabedaten aufteilen
-> Definition von Aufteilungspunkten i.h. der Attribute
- Iterative Evaluation des Aufteilungskriteriums über alle möglichen Attribut-Kombinationen
- Ziel der Aufteilung: Maximaler Informationsgewinn
• Sortierung der bedeutsamsten Merkmale an die Spitze des Baumes
• Aufteilung der Datenobjekte in vordefinierten Klassen (Datenzeile-> Blattebene)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

30-70 Split-Validierung

A

• Verhältnis von Trainings- zu Testdaten nach der klassischen Aufteilung (70% Trainingsdaten, 30% Testdaten); Entspricht Vorhersage die Realität?
• Einschränkung dieser Methode
- Es gibt unendlich viele mögliche Kombinationen von Testdatensätze
- Es wurde lediglich ein Testdatensatz (30%) experimentiert (zufällig ausgewählt) -> Repräsentativ?
- Was wäre, wenn wir uns für einen anderen Testdatensatz entschieden hätten?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kreuzvalidierung

A

• Entstanden aus den Einschränkungen der 30-70 Split-Validierung
• Ziel: Sicherstellen, dass das zu erstellende Modell nicht von der Art und Weise & der Auswahl des Testdatensatzes abhängt
• Gewährleistung eines repräsentativen Testdatensatzes
• Funktionsweise
- Aufteilung in k Datenabschnitte-> gesamte Daten werde in K gleich große Teile aufgeteilt
 - Durchführung einer k-fachen Rotation-> für jede K- Iteration wird ein andere Abschnitt als Testdaten verwendet
 - Durchführung des Trainings auf (k-1)-Datenabschnitten
 - Durchführung des Testings auf dem verbleibenden Datenabschnitt
• Modell wird in jedem Rotationsdurchlauf auf einer neuen Datenzusammensetzung trainiert & getestet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kriterien für den optimalen Entscheidungsbaum

A
  1. Vermeidung der Expansion der Baumtiefe
  2. Vermeidung zu vieler Aufteilungskriterien
  3. Minimierung der Fehlerrate bzw. Maximierung der Vorhersagegenauigkeit
    Ziel: kompakter & verständlicher Entscheidungsbaum erzeugen, welcher eine möglichst geringe Fehlerr aufweist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vor & Nachteile Entscheidungsbaum

A

• einfach verständlich
• Gewährleistung der Interpretierbarkeit
• Kein Black-Box-Einsatz
• Einblick in Struktur & Qualität von Daten

• Unübersichtliche Darstellung bei zu vielen Infos-> erschwerte Interpretation der Baumstruktur
• Kleine Anpassungen des Datensatzes können zu erheblichen Veränderungen führen-> Optimierter Einsatz von Datensätzen
(Transformation & Selektion von Daten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Bewertung von KI-Modellen

A

• wichtig für den Entwickler & Anwender
• gibt Information über die Performance eines entwickelten KI-Modells
• Eine saubere Datenbasis (inkl. Datenaufbereitung- & Bereinigung) führt zu einer erhöhten Modellperformance
• Zentrale Frage: Gewährleistet das getestete KI-Modell (Entscheidungsbaum) eine ausreichende Vorhersagewahrscheinlichkeit für die berücksichtigte Anwendungsumgebung?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wahrheitsmatrix (engl. Confusion Matrix)

A

• Einblick in die Verteilung von tatsächlichen & vorhergesagten Werte
• Nachvollziehbarkeit wie viele Fehler durch ein Kl-Modell produziert werden
. -> Abgleich der Vorhersage im Testatensatz mit der Tatsache
• Besonders geeignet für Biere-Klasiatione
• Ermöglichung von Optimierungen der KI-Modelle durch die Einstellung von Parametern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Das Problem der Überanpassung (Overfitting)

A

• Grundlegende Herausforderung von überwachten Lernverfahren
• Überanpassung
- Wenn das Modell zu stark an den Trainingsdaten angepasst ist
- Erzielung guter Vorhersageergebnisse für Trainings- & Testdaten, aber nicht für neue & unbekannte Testdaten
• Genauigkeit des Modells fällt beim Testing mit neuen Daten exponentiell ab -> fehlende Generalisierbarkeit (!)

• Häufiges Auftreten von Überanpassung, wenn Trainingsdatensatz klein & das Problem komplex ist Gefahr: Auswendiglernen der Trainingsdaten anstatt Muster zu erkennen
• Lösung: Trainingsdatensatz sollte eine akkurate Abbildung der realweltlichen Umgebung darstellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Überanpassung vermeiden

A
  • Berücksichtigung von mehr, vielfältigen Daten für das Training
    - Eliminierung von irrelevanten Eigenschaften
    - Testen durch Kreuzvalidierung zur Vermeidung von Überanpassung
    -> Generalisierung durch Ableitung generisch anwendbarer Modellregeln
How well did you know this?
1
Not at all
2
3
4
5
Perfectly