Testing & Debugging Flashcards

Question

Fokussiere Debugging für Improvement: Wie kann gewährleistet werden, dass auch am richtigen Punkt versucht wird zu debuggen? ## Footnote Model Debugging

Answer 1

Fokussiere auf Fehlerkategorien mit größter Verbesserung: Fokussiere dich auf Fehlerkategorien, die **viel Raum für Improvement** haben. Achte dabei auch auf: - **Wichtigkeit der Kategorie** - **Geschätzter Aufwand für Verbesserung** Beispiel: Speech Recognition: Background Noise: 89% Accuracy & 10% of Data Low Audio Quality: 72% Accuracy & 25% of Data -> Low Audio Quality könnte relevanter zu debuggen sein, da es häufiger vorkommt und weniger Accuracy hat -> Geschätzter Aufwand unbekannt

Answer 2

1. Erkunde N zufällige FP & FN 2. Dokumentiere die Gründe für Fehlklassifikation (Kategorisiere sie) 3. Schreibe Anzahl pro Grund auf 4. Gehe in den Trainingsdatensatz zurück und verstehe die Fehler Alternative: Gehe auf die Worst FP & FN statt random

Answer 3

Nutze einen **Hold-out Testset**, welcher nicht für das Training / Validation oder Evaluation innerhalb der Trainingsphase verwendet wird.

Answer 4

- Datenverteilung stimmt mit der gesamten Population überein - Evaluationsmetriken ähneln dem Real-World Impact auf das Model - Wir wissen, wie wir das Model evaluieren können (Tiefe Verständnis des Kontextes und des Systems wichtig - Anderseits wissen wir nicht, wie ein Hold-out Testset aufgebaut sein muss)

Answer 5

- **What-If Tool von Google** zum interaktiven Untersuchen von Teilmengen - **SliceFinder** zum Finden von problematischen Teilmengen mit schlechter Performance

Answer 6

Wenn es innerhalb der Daten, wichtigere und unwichtigere Teilmengen gibt (Krebs)

Answer 7

**Über alle geschützten Attribute sollte die Fehlerrate gleich sein, sodass keine Unfairness entsteht.** siehe: KI für Behandlungsempfehlung Amerika

Answer 8

- Nutze Fehlerverstärkung für wichtige Proben - Wende Over- & Undersampling an

Answer 9

Ein sehr guter Klassifikator für solch ein Problem wäre ein Model, welches immer "Nein" zurückgibt, da es dann eine 99% Accuracy hätte. Daher muss hier verstärkt mit Under- / Oversampling und gesonderten Penalties für wichtige Proben gearbeitet werden.

Answer 10

Behavior Tests testen auf erwartete Invarianzen. **Invarianztests:** Überprüfen Sie, dass sich das Modell nicht ändert, wenn sich die Eingabe leicht ändert, ohne dass ein semantischer Unterschied auftritt **Directional Test:** Negativieren des Inputs sollte den Output auch ändern. **Funktionalitätstest:** Teste, ob ein vorher definierter Input, einen erwarteten Output erzeugt.

Answer 11

How robust / sensitive is the model, when there variables or data changes in certain situations. Against **Features**: Test performance while some features are out of range Against **Staleness**: Test performance while data gets outdated Against **Drift Sensitivity**: Test different data distributions Against **Adversial Attacks**: Test against adversial examples

Answer 12

**Independence**: Unit-Tests sollen unabhängig voneinander ausführbar sein, ohne Abhängigkeiten zu anderen Tests. **Repeatability**: Ein Test soll ohne Vorwissen oder Kenntnis des Systemzustands ausgelöst werden können. **Automation**: Tests sollen so geschrieben werden, dass sie in eine Automatisierungspipeline integriert werden können. **Isolation**: Abhängige Komponenten/Module sollen durch Mocking mit festen Werten ersetzt werden, um nur die zu testende Einheit zu prüfen. **Informative**: Tests dokumentieren den Code und beschreiben, wie er verwendet wird. Informative Namen und Kommentare sind wichtig. **Comprehensive**: Nicht nur häufige Anwendungsfälle testen, sondern auch Randfälle und Grenzwerte. **Performant**: Unit-Tests sollen schnell ausführbar sein, um sie häufig und in großer Zahl auszuführen. **Behavior format**: Verwende für deine Tests die Struktur: "Given a context, When event/condition, Then test property/result".

Answer 13

**Erhöhe die Konfidenz, dass der Code für die SW keine Bugs beinhaltet oder die Performance des Models verschlechtert** Approach: 1. Schreibe Unit Tests für das umliegende System 2. Nutze ein festes Input/Output Testszenario mit bekannten Resultat und wende es auf das Model an 3. Wenn das Resultat nicht übereinstimmt im Testlauf, muss es auf den Code zurückzuführen sein

Answer 14

**Simulationstests testen, wie die Model Performance das Software System beeinflusst.** Approach 1. Aktionen der umliegenden Software werden simuliert. 2. Die KI-Komponente wendet performt dann innerhalb dieser Simulation 3. Das SW System arbeitet weiter mit den Output der KI-Komponente

Answer 15

Deploy the model only for a tiny subset of users (e.g., 1%) and monitor its performance and the subsequent impacts (e.g., user behavior); regularly increase the subset of users

Answer 16

Deploy a model, but activate it only for a subset of requests (generalizes canary deployment); compare results with the current model and switch to the new model only if it meets/outperforms the current model; goal is to understand the users’ reactions or the impact on the business value based on the new model

Answer 17

Receive all the data of the currently deployed models, but use them only internally until one has gained enough trust in them

Answer 18

Revisiere das SW System mit KI-Komponente: Brainstorm how the system can go wrong: - Include all Tech - Beachte Segmente (Gerätetypen) - Beachte Fairness - Beachte Data Skew - Beachte seltene Events Etabliere Test Cases und Metriken für extrahierte Probleme: - Selektiere interessante Daten - Führe dort gesonderte Tests aus

Testing & Debugging Flashcards

(42 cards)