Anonymisierung: Privacy Flashcards
Definition: Data Privacy
- focuses on use and governance of personal data
- collecting, sharing and using personal information in an appropriate way
- security protects data, but is not sufficient for privacy
Eckpunkt Datenschutz: informelle Selbstbestimmung
Jeder Mensch soll selber entscheiden, WEM WANN WELCHE seiner PERSÖNLICHEN DATEN zugänglich sein sollen
Personally Identifiable Information
- direct / indirect identifiers: name, ID, location data, online identifier to specifiy physical, physiological, mental, economic, cultural or social identity of a natural person
- Um zu entscheiden, ob natürliche Person identifizierbar ist, sollten alle mögliche Mittel in Betracht gezogen werden (z.B. Durchsickern)
Definition natürliche Person
- alle Personen (echt bzw. lebendig)
- -> nicht verstorben, keine Firma
Pseudonymization (“masking”) of personal data
- increases information security, but doesn’t offer anonymization (it is REVERSIBLE)
Ziel Anonymisierung
- Irreversibilität der Originaldaten
- Prinzipien des Datenschutzes sollen nicht auf anonymisierte Daten zutreffen
- Um sicherzustellen, ob Mittel wahrscheinlich sind, um natürliche Personen zu identifizieren, sollte alle Faktoren hierfür in Betracht gezogen werden (z.B. Kosten und Zeitaufwand, Technologie)
- entfernen von Identifikatoren
Removal of Identifiers
- Remove personally identifying information (PII) –> uniquely identifies an individual
- e.g. name, tax ID, phone number
- -> but not enough
Linkage attack
Identifying an individual by using Quasi-identifiers (QIDs; combination of non-identifying attributes that taken together uniquely identify an individual, e.g. ZIP code + birth date + gender)
Differencing Attack
- exploit differences in result sets
- “Wieviele Leute haben Diabetes?” und “Wieviele Leute, die nicht Tom heißen, haben Diabetes?” –> identifiziert, ob Tom Diabetes hat
k-Anonymity
1) Generalization: Generalize quasi-identifiers until they are at least k records for each group
2) Suppression: Suppress any remaining records violating k-anonymity property
3) Keep sensitive attributes
- > Verstecken des Individuums in der Gruppe
Issue: k-Anonymity: Homogeneity attack
- führt zu L-diversity
- unter Umständen weisen alle k Datensätze einer Äquivalenzklasse dieselben identischen Attribute auf
Issue: k-Anonymity: Background knowledge attack
Durch Einsatz von Zusatzwissen, Personen trotz k-Anonymität eindeutig zuordnen (z.B.: Japaner leiden seltener an Herzkrankheiten)
Issue: k-Anonymity: Curse of dimensionality
- längere QIDs in höher dimensionalen Daten
- exponentiell mehr Attributkombinationen die Personen eindeutig identifizieren
- Unterdrücken der Daten oder reduziertes Level an Anonymität akzeptieren
L-Diversity
- inspiriert von k-Anonymität und dessen Problemen
- stellt sicher, dass das sensible Attribut mindestens L gut dargestellte Werte pro QID-Gruppe (Äquivalenzklasse) hat
- verhindert Homogeneity attack
Issue: L-Diversity
Similarity Attack: Sensible Daten oder Werte sind nah beieinander und sehr ähnlich (z.B.: Husten und Niesen bei Grippe UND Bronchitis)
Zusammenfassung: Generalization approaches
- gruppen-basierte Anonymisierung kann zurück-identifiziert werden
- Hauptgrund: Differenzieren von Daten in Identifyer, Quasi-Identifyer und sensible Attribute (letztere müssten komplett verhindert werden)
- Trade-off: Data Utility / Handling vs. Anonymität
- Side Knowledge als wichtiger Hebel
Differential Privacy
- Privacy bereitgestellt durch Funktion (nicht durch Datensatz) –> oft Laplace-Mechanismus
- Verstecken des Einflusses des Individuums auf die Funktion (nicht das Individuum im Datensatz)
- semantic privacy
- formal privacy guarantee
ε-Differential Privacy
randomisierte Funktion M gibt ε-Differential Privacy, wenn sich alle Datensätze D und D’ in mindestens einem Element unterscheiden
Bedeutung von ε in ε-Differential Privacy
Ist “Sicherung” (kleiner = mehr Privacy, größer = schwächere Privacy)
ε-Differential Privacy: Global Sensitivity
Größter absoluter Abstand von: | f(D) - f(D’) |
ε-Differential Privacy: Neighboring
D und D’ unterscheiden sich in einem Punkt oder Tuple
ε-Differential Privacy: Bounded Differential Privacy
D kann von D’ erhalten werden, indem ein Element geändert wird
ε-Differential Privacy: Unbounded Differential Privacy
D kann durch Hinzufügen oder Entfernen eines Elementes von D’ erhalten werden
ε-Differential Privacy: Laplace-Mechanismus (Skalar-Case)
ε-Differential Privacy durch Laplace Funktion plus parameter-abhängiges, zufälliges Rauschen (Y)
Central Differential Privacy
- braucht “Kurator” (trusted third party)
- muss Daten zurückbehalten und privacy budget tracken –> Anzahl Abfragen limitiert
- höherer Nutzwert
- pro individuelle Suchabfrage wird Rauschen n hinzugefügt
Local Differential Privacy
- kein Kurator
- Data Analyst nicht durch privacy budget limitiert
- geringerer Nutzwert (Utility)
- Rauschen n’ wird für alle erwarteten Abfragen hinzugefügt
ε-Local Differential Privacy:
Methode zur Datensammlung, bei der sichergestellt wird, dass nur “verrauschte” Versionen des echten Datensatzes gesammelt werden
Relaxations
- limitieren der Ähnlichkeit/Abstände der geschützten Datensätze
- relaxation of sensitivity (Schutz von Ausreißern oder Einführen eines Schutzradius)
Geo-Indistinguishability
Schützen der exakten Position des Benutzers und zeitgleiches Erhalten von ungefähren Informationen durch Übermitteln eines Sets von räumlichen Punkten
Zusammenfassung: Differential Privacy-Eigenschaften
+ immun gegenüber Post-Processing (Outputs können nicht weniger differenziell privat gemacht werden)
+ Neutralisieren von Side Knowledge attacks
+ Compositions (DP-Mechanismen können kombiniert werden, Privacy Parameter addieren sich auf)
- Unabhängigkeit vorausgesetzt: Individuen betreffen nur eine Aufzeichnung (Schutz des Individuums, nicht der Aufzeichnung gewünscht) –> “Group-Privacy” möglich, Parameter wachsen mit Gruppengröße
- Privacy Parameter schwierig zu wählen (relatives Maß von Privacy)