LogisticRegression Flashcards
Welchen Ansatz wählt die logistic regression für Klassifikation?
- Es ist ein diskremenitatives Modell
- Es gibt eine Funktion die Eingänge direkt auf Ausgänge mappt
Was ist der erse Schritt in der Logistischen Regression?
- Bestimme eine geeignete Funktion für y basierend auf x
- (gerne wird die Sigmoid Aktivierungsfunktion genommen)
Was ist der zweite Schritt der logistischen Regression?
Baue das Model p(y|x, θ)
Was ist der dritte Schritt der logistischen Regression?
- Bestimme die parameter der funktion
- Dafür wird ein ML-Estimator benutzt
- Im Grunde addieren wir die Wahrscheinlichkeiten aller Trainingsdaten.
- Im Gegensatz zur Loss funktion wollen wir die Funktion maximieren
- Es gibt keine Geschlossene Form (Lösung: iterative none linear optimization durch Gradienten Abstieg)
Was ist die Cross-Entropy?
- Cross-Entropy, ist eine Verlustfunktion. Sie misst, wie gut ein Modell die tatsächlichen Klassenlabel der Daten vorhersagt.
- Wenn eine Vorhersage perfekt ist, beträgt der Cross-Entropy-Verlust 0, und je weiter die Vorhersage von der Realität abweicht, desto höher ist der Verlust.
Wo ist die Verbindung zwischen GDA und logistischer Regression?
TODO
Wie wird die logit-Funktion in der logistischen Regression verwendet?
Die logit-Funktion (oder log-odds) ist der Logarithmus des Verhältnisses von p(y=1|x) zu 1-p(y=1|x) und wird zur Transformation der Wahrscheinlichkeiten in eine lineare Skala verwendet.
Was ist die Sigmoid-Funktion und welche Rolle spielt sie in der logistischen Regression?
Die Sigmoid-Funktion transformiert Werte in das Intervall [0,1], was die Modellierung von Wahrscheinlichkeiten für die binäre Klassifikation ermöglicht.
Wie wird der Gradientenabstieg in der logistischen Regression angewendet?
Der Gradientenabstieg wird genutzt, um die Parameter θ der logistischen Regression zu optimieren, indem die Cross-Entropy Verlustfunktion minimiert wird.
Was versteht man unter Regularisierung in der logistischen Regression?
Regularisierung (wie L1 und L2) wird angewendet, um Überanpassung zu verhindern und die Generalisierungsfähigkeit des Modells zu verbessern.
Wie wird die Leistung eines logistischen Regressionsmodells bewertet?
Die Leistung wird oft durch Metriken wie Genauigkeit, Präzision, Recall und die AUC (Area Under the Curve) des ROC (Receiver Operating Characteristic) bewertet.
Welche Rolle spielt die Konfusionsmatrix in der logistischen Regression?
Die Konfusionsmatrix zeigt die Anzahl der korrekten und inkorrekten Vorhersagen und hilft, die Leistung des Modells detailliert zu analysieren.
Wie wird die logistische Regression für Multiklassen-Klassifikation angepasst?
Für die Multiklassen-Klassifikation wird oft die Softmax-Funktion verwendet, die die logistische Regression auf mehrere Klassen erweitert.
Was ist der Unterschied zwischen der binären und der multinomialen logistischen Regression?
Die binäre logistische Regression behandelt zwei Klassen, während die multinomiale logistische Regression für Probleme mit mehr als zwei Klassen verwendet wird.
Wie beeinflussen Hyperparameter die logistische Regression?
Hyperparameter wie die Lernrate und die Regularisierungsstärke beeinflussen die Modellanpassung und müssen oft durch Kreuzvalidierung optimiert werden.
Welche Rolle spielt die Feature-Skalierung in der logistischen Regression?
Die Feature-Skalierung verbessert die Konvergenz des Gradientenabstiegs und sorgt für eine gleichmäßigere Bewertung der Merkmale.
Wie kann die logistische Regression mit unbalancierten Daten umgehen?
Methoden wie das Über- und Unterabtasten oder das Anpassen von Klassenwichtungen helfen, die Herausforderungen unbalancierter Daten in der logistischen Regression zu bewältigen.
Welche Vor- und Nachteile hat die logistische Regression?
Vorteile: Einfachheit, Interpretierbarkeit und Effizienz. Nachteile: Schwierigkeiten bei nichtlinearen Problemen und Begrenzung auf die Klassifikation.
Wie werden fehlende Daten in der logistischen Regression behandelt?
Fehlende Daten können durch Imputation, Ausschluss oder Modellierungstechniken, die mit Unvollständigkeit umgehen können, behandelt werden.
Wie beeinflussen Ausreißer die Leistung der logistischen Regression?
Ausreißer können die Schätzung der Regressionskoeffizienten verzerren und zu irreführenden Vorhersagen führen.
Was ist der Unterschied zwischen parametrischen und nicht-parametrischen Ansätzen in der logistischen Regression?
Parametrische Modelle, wie die logistische Regression, verwenden eine feste Anzahl von Parametern, während nicht-parametrische Modelle, wie Entscheidungsbäume, die Modellkomplexität flexibel anpassen können.