AI Development Flashcards

1
Q

Beschreibe den Unterschied zwischen Data-centric und Model-centric Development

A

Model-centric
Finde bessere Modelle oder Parameter, um die Erfolgsmetriken voranzutreiben

Data-centric
Verbessere die Trainingsdaten, in dem die Datenverteilung angepasst wird, die Daten bereinigt werden, oder mehr Daten beschafft werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Du bist im Schritt der KI-Entwicklung angekommen. Gehe nochmal über die Requirements drüber. Welche 5 grundlegenden Themen sollten überprüft werden?

A
  • Welches Problem soll gelöst werden?
  • Welche Spezifikationen sollten geklärt sein? (Input-to-the-system, Input-data, Deployment location, HW ressources, non-functional -> inference time)
  • Welche Erfolgsmetriken sind wichtig?
  • Was sind die Fehler für ein Fehler?
  • Daten: Sauber? Menge? Labeled? Stream?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wann ist es richtig eine KI-Komponente im ersten Schritt mit einer Heuristik oder Hardcoded Version zu ersetzen? (und wann nicht?)

3-2

A

Yes, if:
- Experimentation State (Komplexität unbekannt)
- Es benötigt einen einfachen und schnellen Startpunkt
- Es benötigt einen Fallback, falls KI nicht möglich

No, if:
- Problem ändert sich schnell
- Heuristik wird zu komplex

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nenne die 6 Regeln von Googles AI-Development’s Best Practice

A

Rule #1: Don’t be afraid to launch a product without machine learning.

Rule #2: First, design and implement metrics.

Rule #3: Choose machine learning over a complex heuristic.

Rule #4: Keep the first model simple and get the infrastructure right.

Rule #5: Test the infrastructure independently from the machine learning .

Rule #6: Be careful about dropped data (when copying pipelines). -> unsuited data / configs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nenne drei Quellen für Daten und ihre Vor bzw. Nachteile

Data Management & Feature Engineering

A

Öffentl. Daten
+ Einfach
+ Schnell anwendbar
- kein Wettbewerbsvorteil

Data Scraping vom Web
+ Kann Wettbewerbsvorteil sein
+ potenziell viele Daten
- Teuer
- Kostet viel Zeit
- Benötigt Infrastruktur

Nutzung von Unternehmensdaten
+ großer Wettbewerbsvorteil
+ können gut und einfach streamlined werden
- benötigt Erlaubnis
- Datenschutz muss beachtet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie wird Data Cleaning validiert und wie geht man mit ungewünschten Datenpunkten um. (Outlier, Missing Values, …)

Data Management & Feature Engineering

A
  1. Validierung
    Datentyp, Missing-Value, Range, Foreign-Key, RegEx, …
  2. Remove or Repair
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nenne Data Cleaning Workflow Elemente

Data Management & Feature Engineering

A
  1. Inspect Data
    Summary, Distributions, Visualize
  2. Repair
    deduplication, converting data types, standardizing, fix typos, scale data
  3. Versionize it
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Nenne drei typische Probleme im Bereich Data Labeling

Data Management & Feature Engineering

A
  1. Raw data might be hugely availlable, labeled data not
  2. Labeling is super time consuming -> expensive
  3. Labeling might need experts
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Beschreibe die Idee und Methode der Flywheel Technik beim Data Labelling (Google)

Data Management & Feature Engineering

A
  1. Deploy Model mit hoher Accuracy aber niedrigem Recall Wert (Modell ist immer korrekt, aber erkennt nicht alles)
  2. Lass User ihre Daten verbessern (diese sind dann motiviert dazu) -> kostenlose Labels
  3. Trainiere mit neuen Labels
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Beschreibe die Idee und die Methode Active Learning

Data Management & Feature Engineering

A

Idee: Lerne, welche ungelabelten Daten am wertvollsten fürs Labelling wären

Methode:
Trainiere ein oder mehrere Model mit wenig Daten und nutze sie auf ungelabelte Daten. Entscheide dann über:
a) Confidence Werte
b) Mehrere Modelle, wenn sie sich unterscheiden in ihrer Antwort

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist die Idee hinter Data Augmentation?

Data Management & Feature Engineering

A

Vervielfache die Anzahl deiner Daten, in dem sie mit folgenden Techniken dupliziert:

  • Flip image
  • Scale
  • Crop
  • Translate
  • Noise
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nenne 4 Techniken, wie man den Data Labelling Prozess günstiger gestalten kann.

Data Management & Feature Engineering

A
  • Active Learning (labele nur was benötigt wird)
  • Data Augmentation (vervielfache gelabelte Daten)
  • Self-Supervised Learning Pretraining + Finetuning auf gelabelte Daten
  • Data Synthesis (künstliche Daten)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hier sind vier Datentypen, ordne sie passenden Data Storages zu:

  • Raw Data from diverse sources
  • Meta Data
  • Binary Data
  • Structured Data

Data Management & Feature Engineering

A

Raw Data -> Data Lake

Metadata & Structured Data -> Database

Binary Data -> Object Store (e.g. S3)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was macht DVC und was macht es aus

Data Management & Feature Engineering

A

DVC steht für Data-Version-Control (ist OS) und es speichert Code + Daten + Config mit Version ab.

Dadurch sind alte Modelle replizierbar und es werden Code, Daten und Modelle nicht isoliert versioniert.

Methode:
- Daten und Modelle werden durch Metadaten ersetzt, welche auf die tatsächlichen Datein zeigen
- Storage ist Cloud oder on premise
- inkludiert Pipeline Definition für Data Handling (auch versioniert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Nenne die 5 Fragen für Daten in AI Development, die du dir stellen solltest.

Data Management & Feature Engineering

A
  • Welche Daten benötigen wir für unser Ziel
  • Wie erlangen wir sie?
  • Welche Cleaning Schritte sind notwendig
  • Wo & wie speichern wir sie?
  • Wie labeln wir sie ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nenne Informationen, die bei einem ML Experiment getrackt werden sollten

6

Experimentation

A
  • ML Parameter / Configs
  • Metriken
  • Tag & Notes (über den Run)
  • Artifacts (produzierte Dateien)
  • Source Code
  • Version of Code
17
Q

Nenne 5 Probleme, die natives Jupyter Notebook hat

Coding & Tools, and Automation

A
  • Keine Version Control
  • Zu simple IDE
  • Schwierig zu testen
  • Willkürrliche Reihenfolge der Execution
  • Schwierig verteilte oder lange Jobs auszuführen

Es gibt Lösungen für alle Probleme

18
Q

Ist es sinnvoll Jupyter Notebooks als IDE für AI-Development zu nutzen?

Coding & Tools, and Automation

A

Well, it depends …

Jupyter Notebooks haben Stärken, welche die Verständnis und Dokumentation des Codes verbessern.

Das native Jupyter Notebook ist meist nicht geeignet für professionelles Experimentieren, aber mit Tools kann es funktionieren.

Für Sandboxing ist es geeignet