Random Forest Flashcards

1
Q

Was ist der Effekt von der Forest Größe T?

A

Durch erhöhen der Anzahl von Bäumen wird das sich ergebende Entscheiungskriterium besser/genauer und nichtlinear, obwohl das Entscheiungskriterium in den Knoten linear sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie ist ein Entscheidungsbaum aufgebaut?

Was wird an den Knoten/nodes der entscheidungsbäume gemacht?

A

Ein Entscheidungsbaum ist quasi ein Klassifikator:
Input –> Knoten, die die Datensets aufteilen –> Blätter, die den Datenpunkten (durch Wahrscheinlichkeitsverteilung der Klassen im Training) eine Klasse zuteilen –> Output

Der Datenset wird gesplitet an jedem Knoten und die Entropie versucht zu reduzieren (Klassenverteilung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist und worauf basiert der Random Forest?

A

Algorithmus des supervised lernens (bekanntes Ergebnis als Zielgröße)  neue mathematische Repräsentation auf ungelabelte Daten angewendet werden und Vorhersagen treffen.

basierend auf Entscheidungsbäumen (Algorithmen), die gelernt werden: mit Regeln, dieder „wenn dann“-Entscheidungen folgen –> Variablen (Feature) werden an Ästen/Knoten aufgeteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was muss man bei einem komplexen Klassifikator/Entscheidungsbaum beachten?

A

Man benötigt viele Daten, um eine gewisse Tiefe (deep) zu erreichen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie lernen die Splitfunktionen?

A

Dadurch,dass der Informationsgewinn maximiert wird: die Größe der Entropie, die wir nach dem Splitten bekommen reduzieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wovon wollen wir die Entropie bestimmen, um den Informationsgewinn zu errechnen?

A

Entropie von einer bestimmten Verteilung von Daten über Klassen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Effekt der Foresttiefe D ?

–> under/overfitting?

A

Die Generalisierungsleistung hängt von der Tiefe der Bäume relativ zur Trainingsdatenanzahl ab

–> zu tief: overfitting

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was wird zufällig ausgewählt?

A

Features (horizontal/vertikale Teilung),

Datenset

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Basics?

Wie erreichen wir eine gute Generalisierung?

A

Mehr Trainingsdaten –> je tiefer/komplexer können wir den Baum machen.

Durch mitteln über die Bäume im Wald.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie Trainieren wir? 2 Schritte

jeden Baum einzelnd mit zufällig gewählten Teilmengen von Parametern/Featuren

A
  1. Splitknoten/funktionen lernen (basierend auf den Entropien –> anders als: auf Klassifikatoren gucken: einen Fehler berechnen durch backpropagation im neurol network, eine fehlerfunktion, die versucht wird zu minimieren) –> Baum errichtet, wenn wir alle Splitfunktionen haben
  2. Entscheidung am Ende: Datenpunkte/set nochmal durchschicken –> und gucken wo diese hingeführt werden wo sie enden werden in den Blättern. –> Zählen die Klassen an den Blättern und durch die Verteilung machen wir eine Entscheidung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Ablauf vom Testing?

und mit mehreren Bäumen?

A

ein Datenpunkt, den wir nicht kennen durch den Baum und am Blatt/Ende wird der Datenpunkt mit der Klasse gelabelt, die am meisten vertreten ist. (durch Training haben wir eine Klassenverteilung an den Blättern bekommen)

  • für jeden Baum haben wir für jeden Testdatenpunkt eine Klasse zugewiesen bekommen. Also wird jeder testdatenpunkt durch jeden Baum geschickt.
    –> End-Wahrscheinlichkeitsverteilung: Summe der Wahrscheinlichkeitsverteilung der Klassen oder gemittelte Verteilung
    Wahrscheinlichkeiten solange wie möglich behalten und dann die netscheidung am Ende machen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Worauf beim Entscheiden während des Testens achten?

A

Wahrscheinlichkeiten solange wie möglich behalten, mitteln und dann die Entscheidung am Ende über den ganzen wald machen,
nicht für jeden Baum einzelnd eine netscheidung treffen und dann Entscheidung treffen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly