Vl5&6 Flashcards
Überwachtes Lernen
Klassisches Lernen mit Training & Testing erforderlich
• Trainieren von KI anhand von Daten (Erfahrungswerte; Berücksichtigung von Antworten)
• Datenbasis: Daten mit Label
• Überprüfung durch einen Testdatensatz in der Testphase -> Güte des trainierten Modells durch Überwachung des Labels/Ausgabe
• Treffen von selbstständigen Entscheidungen auf Basis des Trainings
• Am häufigsten angewendetes Lernverfahren
• Nutzen: Vorhersage von Zuständen/Ereignissen welche z.B. in der Zukunft liegen
• Beispielhafte Methoden: Klassifikation, Regression
Unüberwachtes Lernen
Das System weiß nicht was es erkennen soll
• Keine explizite Zielvorgabe
• Datenbasis: Daten ohne Label
• Ziel: Explorative Muster & Strukturen in den bestehenden Daten finden
• Keine „Überwachungs”-Ausgabe vorhanden -> Lernen aus den Datenstrukturen Nutzen: Finden von Muster/Strukturen/Auffälligkeiten in großen Datensätzen
• Beispielhafte Methoden: Clustering, Assoziationsanalyse
Klassifikation
Funktionsweise
• Prädiktives (vorhersageorientiertes) maschinelles Lernverfahren
• Zuordnung von Datenobjekten zu vorher festgelegten Klassen (Label)
• 1 Datenobjekt: 1 Label (Label = kategorische Klasse)
• Beispiele für Labels: Männlich oder weiblich, Bestehen oder durchfallen, Katze oder Hund
• Anwendbar auf verschiedene Datentypen (Intervall, ordinal, kategorisch) -> ggf. Datentransformation notwendig
• Trainieren auf Datenmengen mit zugewiesenem kategorischen Label
• Testen auf neuen Datenmengen ohne Label
• Ziel: Zu wie viel Prozent kann ein neues, unbekanntes Objekt zu einer bereits gelernten Klasse zugeordnetwerden?; Vorhersage eines Klassenlabels für neue Datenobjekte
• Nutzen: Zukunftsorientierte Klassen-Vorhersagen für neuartige Daten auf Basis historischer Daten
Entscheidungsbaum
• Umsetzungsmöglichkeit der Klassifikation
• Systematische Visualisierung der Trainingsdaten (Vorteil)
• Ziel: Extraktion von musterbasiertem Wissen aus Daten & Vorhersage unbekannter Klassen
• Generierung des Entscheidungsbaums durch Training & Testing
• Auswahl & Priorisierung von Attributen, welche die verfügbaren Eingabedaten aufteilen
-> Definition von Aufteilungspunkten i.h. der Attribute
- Iterative Evaluation des Aufteilungskriteriums über alle möglichen Attribut-Kombinationen
- Ziel der Aufteilung: Maximaler Informationsgewinn
• Sortierung der bedeutsamsten Merkmale an die Spitze des Baumes
• Aufteilung der Datenobjekte in vordefinierten Klassen (Datenzeile-> Blattebene)
30-70 Split-Validierung
• Verhältnis von Trainings- zu Testdaten nach der klassischen Aufteilung (70% Trainingsdaten, 30% Testdaten); Entspricht Vorhersage die Realität?
• Einschränkung dieser Methode
- Es gibt unendlich viele mögliche Kombinationen von Testdatensätze
- Es wurde lediglich ein Testdatensatz (30%) experimentiert (zufällig ausgewählt) -> Repräsentativ?
- Was wäre, wenn wir uns für einen anderen Testdatensatz entschieden hätten?
Kreuzvalidierung
• Entstanden aus den Einschränkungen der 30-70 Split-Validierung
• Ziel: Sicherstellen, dass das zu erstellende Modell nicht von der Art und Weise & der Auswahl des Testdatensatzes abhängt
• Gewährleistung eines repräsentativen Testdatensatzes
• Funktionsweise
- Aufteilung in k Datenabschnitte-> gesamte Daten werde in K gleich große Teile aufgeteilt
- Durchführung einer k-fachen Rotation-> für jede K- Iteration wird ein andere Abschnitt als Testdaten verwendet
- Durchführung des Trainings auf (k-1)-Datenabschnitten
- Durchführung des Testings auf dem verbleibenden Datenabschnitt
• Modell wird in jedem Rotationsdurchlauf auf einer neuen Datenzusammensetzung trainiert & getestet
Kriterien für den optimalen Entscheidungsbaum
- Vermeidung der Expansion der Baumtiefe
- Vermeidung zu vieler Aufteilungskriterien
- Minimierung der Fehlerrate bzw. Maximierung der Vorhersagegenauigkeit
Ziel: kompakter & verständlicher Entscheidungsbaum erzeugen, welcher eine möglichst geringe Fehlerr aufweist
Vor & Nachteile Entscheidungsbaum
• einfach verständlich
• Gewährleistung der Interpretierbarkeit
• Kein Black-Box-Einsatz
• Einblick in Struktur & Qualität von Daten
• Unübersichtliche Darstellung bei zu vielen Infos-> erschwerte Interpretation der Baumstruktur
• Kleine Anpassungen des Datensatzes können zu erheblichen Veränderungen führen-> Optimierter Einsatz von Datensätzen
(Transformation & Selektion von Daten)
Bewertung von KI-Modellen
• wichtig für den Entwickler & Anwender
• gibt Information über die Performance eines entwickelten KI-Modells
• Eine saubere Datenbasis (inkl. Datenaufbereitung- & Bereinigung) führt zu einer erhöhten Modellperformance
• Zentrale Frage: Gewährleistet das getestete KI-Modell (Entscheidungsbaum) eine ausreichende Vorhersagewahrscheinlichkeit für die berücksichtigte Anwendungsumgebung?
Wahrheitsmatrix (engl. Confusion Matrix)
• Einblick in die Verteilung von tatsächlichen & vorhergesagten Werte
• Nachvollziehbarkeit wie viele Fehler durch ein Kl-Modell produziert werden
. -> Abgleich der Vorhersage im Testatensatz mit der Tatsache
• Besonders geeignet für Biere-Klasiatione
• Ermöglichung von Optimierungen der KI-Modelle durch die Einstellung von Parametern
Das Problem der Überanpassung (Overfitting)
• Grundlegende Herausforderung von überwachten Lernverfahren
• Überanpassung
- Wenn das Modell zu stark an den Trainingsdaten angepasst ist
- Erzielung guter Vorhersageergebnisse für Trainings- & Testdaten, aber nicht für neue & unbekannte Testdaten
• Genauigkeit des Modells fällt beim Testing mit neuen Daten exponentiell ab -> fehlende Generalisierbarkeit (!)
• Häufiges Auftreten von Überanpassung, wenn Trainingsdatensatz klein & das Problem komplex ist Gefahr: Auswendiglernen der Trainingsdaten anstatt Muster zu erkennen
• Lösung: Trainingsdatensatz sollte eine akkurate Abbildung der realweltlichen Umgebung darstellen
Überanpassung vermeiden
- Berücksichtigung von mehr, vielfältigen Daten für das Training
- Eliminierung von irrelevanten Eigenschaften
- Testen durch Kreuzvalidierung zur Vermeidung von Überanpassung
-> Generalisierung durch Ableitung generisch anwendbarer Modellregeln