Vorlesung 5 Flashcards
Sind Regularisierer unempfindlich gegenüber Merkmals-Skalierung?
Nein, in der Regel sind sie empfindlich demgegenüber
Was folgt aus der Empfindlichkeit gegenüber Feature Scaling von Regularisierern?
Es ratsam, immer die Features zu skalieren, um auf der sicheren Seite zu sein.
Wenn man Trainingsdaten normalisiert, oder regularisiert, was muss man dann für die Testdaten beachten?
Dieselbe Skalierungsmethode und Skalierungsparameter auch auf die Testdaten anwenden
Wie normalisiert man seine Daten?
Beschreib Klassifikation, insbesondere Eingaberaum und Ausgaberaum
Beschreib die Idee von KNNs
Wie funktioniert KNN?
- Sei ein gelabelter Trainingsdatensatz (x^(i), y^(i))_i und ein neuer Datenpunkt x gegeben. KNN klassifiziert den neuen Punkt, indem es die k nächsten Nachbarn aus dem Trainingsdatensatz findet.
- Das Klassenlabel des neuen Punktes x wird durch die Mehrheitsabstimmung seiner k nächsten Nachbarn x^(i) bestimmt.
- Die Mehrheitsabstimmung für das Label kann ungewichtet oder gewichtet erfolgen.
Was ist die Manhattan-Distanz?
entspricht der l1-Norm
Wozu kann ein kleiner Wert von k bei KNN führen?
Overfitting
Wozu kann ein großer Wert von k bei KNN führen?
Underfitting
Wie kann ein guter Wert für k gefunden werden?
Mittels Kreuzvalidierung
Nenn Vorteile von KNN
- Einfach und leicht zu verstehen
- Keine Trainingsphase erforderlich
- Erlaubt komplexe Entscheidungsgrenzen
- Anwendbar auf Probleme mit vielen Labels
Nenn Einschränkungen von KNN
- Rechenaufwendig für große Datensätze
- Empfindlich gegenüber unwichtigen Merkmalen und Rauschen in den Daten
Wie kann man KNN als Regression verwenden?
Wie kann die Leistung bei Rauschen in den Daten und unwichtigen Merkmalen bei KNN weiter verbessert werden?
durch Dimensionsreduktion (wie Large-Margin-Nearest-Neighbor-Methoden)
Nenn den Satz von Bayes
Wie funktioniert Naive Bayes?
Wie wird der Satz von Bayes bei Naive Bayes manipuliert?
Was ist das Laplacian Smoothing?
Was ist der Vorteil von Naive Bayes?
Es müssen nur sehr wenige Parameter geschätzt werden. Damit ist es ein sehr gutes Verfahren, wenn es viele Features und wenig Datenpunkte gibt.
Nehmen Sie an, dass Sie einen Datensatz mit n Datenpunkten haben, die jeweils d Features haben. Wie hoch ist die Laufzeit des kNN-Algorithmus für die Klassifizierung eines Punktes?
O(n*k*d)
Nenn Methoden zur Verringerung der Laufzeit von kNN
- Methoden der Datenreduktion
- Methoden der Datenspeicherung und -suche
- Methoden der Dimensionsreduktion
Wie berechnet man die euklidische Distanz zwischen zwei Punkten?
Wie berechnet man die Manhattan Distanz zwischen zwei Punkten?
Wie funktioniert die Min-Max-Skalierung?
Dabei werden die Daten auf das Intervall [0, 1] abgebildet.