Anonymisierung: Privacy Flashcards

1
Q

Definition: Data Privacy

A
  • focuses on use and governance of personal data
  • collecting, sharing and using personal information in an appropriate way
  • security protects data, but is not sufficient for privacy
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Eckpunkt Datenschutz: informelle Selbstbestimmung

A

Jeder Mensch soll selber entscheiden, WEM WANN WELCHE seiner PERSÖNLICHEN DATEN zugänglich sein sollen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Personally Identifiable Information

A
  • direct / indirect identifiers: name, ID, location data, online identifier to specifiy physical, physiological, mental, economic, cultural or social identity of a natural person
  • Um zu entscheiden, ob natürliche Person identifizierbar ist, sollten alle mögliche Mittel in Betracht gezogen werden (z.B. Durchsickern)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Definition natürliche Person

A
  • alle Personen (echt bzw. lebendig)

- -> nicht verstorben, keine Firma

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pseudonymization (“masking”) of personal data

A
  • increases information security, but doesn’t offer anonymization (it is REVERSIBLE)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ziel Anonymisierung

A
  • Irreversibilität der Originaldaten
  • Prinzipien des Datenschutzes sollen nicht auf anonymisierte Daten zutreffen
  • Um sicherzustellen, ob Mittel wahrscheinlich sind, um natürliche Personen zu identifizieren, sollte alle Faktoren hierfür in Betracht gezogen werden (z.B. Kosten und Zeitaufwand, Technologie)
  • entfernen von Identifikatoren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Removal of Identifiers

A
  • Remove personally identifying information (PII) –> uniquely identifies an individual
  • e.g. name, tax ID, phone number
  • -> but not enough
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Linkage attack

A

Identifying an individual by using Quasi-identifiers (QIDs; combination of non-identifying attributes that taken together uniquely identify an individual, e.g. ZIP code + birth date + gender)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Differencing Attack

A
  • exploit differences in result sets
  • “Wieviele Leute haben Diabetes?” und “Wieviele Leute, die nicht Tom heißen, haben Diabetes?” –> identifiziert, ob Tom Diabetes hat
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

k-Anonymity

A

1) Generalization: Generalize quasi-identifiers until they are at least k records for each group
2) Suppression: Suppress any remaining records violating k-anonymity property
3) Keep sensitive attributes
- > Verstecken des Individuums in der Gruppe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Issue: k-Anonymity: Homogeneity attack

A
  • führt zu L-diversity

- unter Umständen weisen alle k Datensätze einer Äquivalenzklasse dieselben identischen Attribute auf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Issue: k-Anonymity: Background knowledge attack

A

Durch Einsatz von Zusatzwissen, Personen trotz k-Anonymität eindeutig zuordnen (z.B.: Japaner leiden seltener an Herzkrankheiten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Issue: k-Anonymity: Curse of dimensionality

A
  • längere QIDs in höher dimensionalen Daten
  • exponentiell mehr Attributkombinationen die Personen eindeutig identifizieren
  • Unterdrücken der Daten oder reduziertes Level an Anonymität akzeptieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

L-Diversity

A
  • inspiriert von k-Anonymität und dessen Problemen
  • stellt sicher, dass das sensible Attribut mindestens L gut dargestellte Werte pro QID-Gruppe (Äquivalenzklasse) hat
  • verhindert Homogeneity attack
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Issue: L-Diversity

A

Similarity Attack: Sensible Daten oder Werte sind nah beieinander und sehr ähnlich (z.B.: Husten und Niesen bei Grippe UND Bronchitis)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Zusammenfassung: Generalization approaches

A
  • gruppen-basierte Anonymisierung kann zurück-identifiziert werden
  • Hauptgrund: Differenzieren von Daten in Identifyer, Quasi-Identifyer und sensible Attribute (letztere müssten komplett verhindert werden)
  • Trade-off: Data Utility / Handling vs. Anonymität
  • Side Knowledge als wichtiger Hebel
17
Q

Differential Privacy

A
  • Privacy bereitgestellt durch Funktion (nicht durch Datensatz) –> oft Laplace-Mechanismus
  • Verstecken des Einflusses des Individuums auf die Funktion (nicht das Individuum im Datensatz)
  • semantic privacy
  • formal privacy guarantee
18
Q

ε-Differential Privacy

A

randomisierte Funktion M gibt ε-Differential Privacy, wenn sich alle Datensätze D und D’ in mindestens einem Element unterscheiden

19
Q

Bedeutung von ε in ε-Differential Privacy

A

Ist “Sicherung” (kleiner = mehr Privacy, größer = schwächere Privacy)

20
Q

ε-Differential Privacy: Global Sensitivity

A

Größter absoluter Abstand von: | f(D) - f(D’) |

21
Q

ε-Differential Privacy: Neighboring

A

D und D’ unterscheiden sich in einem Punkt oder Tuple

22
Q

ε-Differential Privacy: Bounded Differential Privacy

A

D kann von D’ erhalten werden, indem ein Element geändert wird

23
Q

ε-Differential Privacy: Unbounded Differential Privacy

A

D kann durch Hinzufügen oder Entfernen eines Elementes von D’ erhalten werden

24
Q

ε-Differential Privacy: Laplace-Mechanismus (Skalar-Case)

A

ε-Differential Privacy durch Laplace Funktion plus parameter-abhängiges, zufälliges Rauschen (Y)

25
Q

Central Differential Privacy

A
  • braucht “Kurator” (trusted third party)
  • muss Daten zurückbehalten und privacy budget tracken –> Anzahl Abfragen limitiert
  • höherer Nutzwert
  • pro individuelle Suchabfrage wird Rauschen n hinzugefügt
26
Q

Local Differential Privacy

A
  • kein Kurator
  • Data Analyst nicht durch privacy budget limitiert
  • geringerer Nutzwert (Utility)
  • Rauschen n’ wird für alle erwarteten Abfragen hinzugefügt
27
Q

ε-Local Differential Privacy:

A

Methode zur Datensammlung, bei der sichergestellt wird, dass nur “verrauschte” Versionen des echten Datensatzes gesammelt werden

28
Q

Relaxations

A
  • limitieren der Ähnlichkeit/Abstände der geschützten Datensätze
  • relaxation of sensitivity (Schutz von Ausreißern oder Einführen eines Schutzradius)
29
Q

Geo-Indistinguishability

A

Schützen der exakten Position des Benutzers und zeitgleiches Erhalten von ungefähren Informationen durch Übermitteln eines Sets von räumlichen Punkten

30
Q

Zusammenfassung: Differential Privacy-Eigenschaften

A

+ immun gegenüber Post-Processing (Outputs können nicht weniger differenziell privat gemacht werden)
+ Neutralisieren von Side Knowledge attacks
+ Compositions (DP-Mechanismen können kombiniert werden, Privacy Parameter addieren sich auf)
- Unabhängigkeit vorausgesetzt: Individuen betreffen nur eine Aufzeichnung (Schutz des Individuums, nicht der Aufzeichnung gewünscht) –> “Group-Privacy” möglich, Parameter wachsen mit Gruppengröße
- Privacy Parameter schwierig zu wählen (relatives Maß von Privacy)