3. VC-Dim, PCA, ICA, Efficient Coding Flashcards
Was ist die VC-Dimension?
Eine maximale Anzahl von Datenpunkten (von jenem datenset), die eine Maschine zerlegen kann.
Also ein Datenset mit p Datenpunkten existiert und p+1 Datenpunkte sind nicht mehr zu zerlegen von der Maschine F, dann ich p die VC-Dimension.
Bsp. D=1 mit 2 Datenpunkten kann komplett zerlegt werden, aber ein dritter kann mit einem linearen Klassifizierer nicht zerlegt werden –> VC-Dim von einem lin. Klassifizierer in D=1 ist h=2
!! Für ein linearen Klassifizierer we have:
VCdim(F) = D + 1
- Wenn das Set von den Klassifizierern lineare Parameter hat, dann ist h= #-parameters, also brauchen wir mehr Datenpunkte als Parameter, um den Klassifizierer zu trainieren. –> gilt nicht bei nichtlinear!!
Bsp. für einen nichtlinearen Klassifizierer mit h = unendlich,
y = sin(wx-alpha)
Was wird durch den Trainingsalgorithmus minimiert?
Ez(f): Training error
Wann geht die Wahrscheinlichkeit der Abweichung (E(f)-Ez(f)) gegen Null? Also wann haben wir eine Chance, dass der Trainingsalgorithmus funktioniert?
wenn die der Term kleiner als 1 ist:
2PiF(2p)e^(-Epsilon^2/8)p < 1
Prob(E(f)-Ez(f) >= Epsilon) <= 2PiF(2p)e^(-Epsilon^2/8)p < 1
mit Epsilon <= 0,5
wir erreichen dies nicht, wenn wir nur die Datenpunkteanzahl p verkleinern!
Wie minimieren wir die Wahrscheinlichkeit, dass die Abweichung vom empirischen Fehler (Training error) zum wahren Fehler größer als Epsilon ?
Je mehr Trainingsdatenpunkte p wir haben, desto sicherer können wir sein, dass die Wahrscheinlichkeit der Abweichung vom empirischen Fehler (Training error) zum wahren Fehler größer als Epsilon ist, gegen Null geht, also die Abweichung kleiner wird.
Was ist empirische Fehlerminimierung?
Für den Fall, dass der empirische Verlust (Trainingsfehler) Ez(f) eine gute Schätzung
des wahren Verlustes E(f) für alle Funktionen f von F ist, kann man fF von F approximieren,
somit –> E(f) minimiert, durch fz von F approximieren, somit –> Ez(f) minimiert.
Was ist das induktive Prinzip?
Allgemeiner ausgedrückt: Es wird versucht, von bekannten Beispielen auf den allgemeinen Fall zu verallgemeinern.
Was wird durch die Hoeffding Ungleichung beschrieben?
Die Abweichung zwischen erwarteten Wert und durchschnittlichen Wert (vom Trainingsset)
eine sehr allgemeine Ungleichung, die nicht abhängig von der Datenverteilung ist. Bezieht sich auf i-eine random Variabel.
Die Ungleichung gilt, wenn wir einen bestimmten Klassifikator nehmen, nur für eine Funktion(Klassifikator)!
Was ist das Bias-Varianz-Dilemma?
Wenn das network groß ist, dann bekommen wir einen kleinen Traingsfehler. Aber der Faktor F (Funktionenset) ist groß und wir brauchen viele Datenpunkte.
Was ist der Bias?
die Verzerrung ist das vorherige Bild, das wir in unseren Köpfen von der Funktion des resultierenden Raums der Funktionen haben. wir versuchen, unsere neuronalen Netze Ergebnisse auf den Raum zu beschränken. dass wir einen kleinen Korridor erhalten.
Was ist die VC-Dimensio?
Die VC-Dimension einer Funktion f ist definiert als die Menge an Punkten, die diese Funktion in jeder beliebigen Lage auf dem Eingangsraum separieren kann.
Representation learning auf zwei Wegen?
Was ist wichtig bei Representation learning ? 1.,2.
supervised, unsupervised
- Infos erhalten
- Klassifizierungsleistung verbessern/ bewahren
Was ist PCA ?
Eine unsupervised Technik, die zur Vorverarbeitung und Reduzierung der Dimensionalität von hochdimensionalen Datensätzen verwendet wird, wobei die ursprüngliche Struktur und die Beziehungen, die dem ursprünglichen Datensatz innewohnen, erhalten bleiben, so dass maschinelle Lernmodelle weiterhin daraus lernen können und akkurate Vorhersagen treffen.
- lineare subspaces finden (orthogoal)
- Koordinatensystem drehen –> in die Richtung der maximalen Varianz –> zeigt die Korrelationen an
Idee von einem Subspace?
Eine Teilmenge der verfügbaren Features, die für einen Lernalgorithmus verwendet wird. Notwendig, weil es teilweise technisch unmöglich ist, alle Features miteinzubeziehen oder weil es Differenzierungsprobleme gibt, wenn eine große Anzahl an Features, aber nur eine kleine Zahl an Datensätzen vorhanden ist.
Was ist ICA?
ICA ist eine Berechnungsmethode zum Trennen eines multivariaten Signals in seine zugrunde liegenden Komponenten. Mit ICA können wir die gewünschte Komponente aus der Zusammenführung mehrerer Signale extrahieren.
V*xwht
V: minimiert die multi-Info (Verallgemeinerung auf vektorielle Verteilungen)
–> Subspaces, die nicht orthogonal sind finden.
Die entmischten Komponenten können in Clustern gruppiert werden, wobei die Intra-Cluster-Elemente abhängig und die Inter-Cluster-Elemente unabhängig sind.
ICA bietet einen unüberwachten Lernansatz für die akustische Modellierung, Signaltrennung und viele andere
ICA und PCA Unterschied
PCA: Daten werden nur dekorreliert (linear Unabhängig), nicht wie bei der ICA statistisch Unabhängig.
wenn statistisch unabhängig –> dekorreliert,
aber nicht umgekehrt!
Efficient codig: Sparse Coding
- Energyterm (des Gehirns) minimieren
- einen Kompakten Code finden
- Lineare Version:
- -> die Anzahl der Nullen maximieren
- ähnliches/gleiches Ergebnis wie ICA
- Repräsentation erhält lineare Umwandlung der input Daten
- basiert auf Algebra/Statistik - SPARSENET(Olshausen):
- eine nichtlineare Transformation: jede Koordinate ist gelernt. Die Rekonstruktion ist aber linear! –> möglich von der Repräsentation zu originalen Daten zu gehen
- basiert auf der Kostenfunktion
E= - E(preserve) - Lambda*E(sparseness)
–> TradeOff zwischen Infos behalten, aber einen kkompakten Code erhalten
Nested Optimization Problem: den Term E minimieren und die Basis minimieren W^-1 —> Basis in der Vektoren viele Nullen enthalten können/sollen, aber wir wollen auch die Werte bestimmen
Efficient codig: Random Projection
eine zufällige Matrix/Koeffizientenwählen, die die originalen Datenpunkte x neu Repräsentiert/transformiert x(rp)
- macht Sinn bei Daten mit hoher sparsness (Vermutung)
dumm? –> aber komprimierte Abtastung: eine log-Funktion mit N/ k) , größer als M sein muss
und N>M>k
–> ein log-Beziehung
x(rp) könnte alle infos von x enthalten
x ist k-sparse, wenn eine Basis existiert in der xi (Vektor) k
Sparseness?
Es gibt eine Basis, in der wir diese Vektoren so kodieren können, dass nur ein Bruchteil der ursprünglichen Anzahl von Komponenten von Null verschieden ist.
- nicht die Vektoren müssen viele Nullwerte haben
Efficient codig: Intrinsic Dimension
- nur die Unterschiede von Hypothesen
- Uniformity
- Straighness
- Seitenverschiebung
optimale Repräsentation abhämgig von?
eine optimale Repräsentation hängt immer von den Daten ab.