Anonymisierung: Privacy Flashcards
Definition: Data Privacy
- focuses on use and governance of personal data
- collecting, sharing and using personal information in an appropriate way
- security protects data, but is not sufficient for privacy
Eckpunkt Datenschutz: informelle Selbstbestimmung
Jeder Mensch soll selber entscheiden, WEM WANN WELCHE seiner PERSÖNLICHEN DATEN zugänglich sein sollen
Personally Identifiable Information
- direct / indirect identifiers: name, ID, location data, online identifier to specifiy physical, physiological, mental, economic, cultural or social identity of a natural person
- Um zu entscheiden, ob natürliche Person identifizierbar ist, sollten alle mögliche Mittel in Betracht gezogen werden (z.B. Durchsickern)
Definition natürliche Person
- alle Personen (echt bzw. lebendig)
- -> nicht verstorben, keine Firma
Pseudonymization (“masking”) of personal data
- increases information security, but doesn’t offer anonymization (it is REVERSIBLE)
Ziel Anonymisierung
- Irreversibilität der Originaldaten
- Prinzipien des Datenschutzes sollen nicht auf anonymisierte Daten zutreffen
- Um sicherzustellen, ob Mittel wahrscheinlich sind, um natürliche Personen zu identifizieren, sollte alle Faktoren hierfür in Betracht gezogen werden (z.B. Kosten und Zeitaufwand, Technologie)
- entfernen von Identifikatoren
Removal of Identifiers
- Remove personally identifying information (PII) –> uniquely identifies an individual
- e.g. name, tax ID, phone number
- -> but not enough
Linkage attack
Identifying an individual by using Quasi-identifiers (QIDs; combination of non-identifying attributes that taken together uniquely identify an individual, e.g. ZIP code + birth date + gender)
Differencing Attack
- exploit differences in result sets
- “Wieviele Leute haben Diabetes?” und “Wieviele Leute, die nicht Tom heißen, haben Diabetes?” –> identifiziert, ob Tom Diabetes hat
k-Anonymity
1) Generalization: Generalize quasi-identifiers until they are at least k records for each group
2) Suppression: Suppress any remaining records violating k-anonymity property
3) Keep sensitive attributes
- > Verstecken des Individuums in der Gruppe
Issue: k-Anonymity: Homogeneity attack
- führt zu L-diversity
- unter Umständen weisen alle k Datensätze einer Äquivalenzklasse dieselben identischen Attribute auf
Issue: k-Anonymity: Background knowledge attack
Durch Einsatz von Zusatzwissen, Personen trotz k-Anonymität eindeutig zuordnen (z.B.: Japaner leiden seltener an Herzkrankheiten)
Issue: k-Anonymity: Curse of dimensionality
- längere QIDs in höher dimensionalen Daten
- exponentiell mehr Attributkombinationen die Personen eindeutig identifizieren
- Unterdrücken der Daten oder reduziertes Level an Anonymität akzeptieren
L-Diversity
- inspiriert von k-Anonymität und dessen Problemen
- stellt sicher, dass das sensible Attribut mindestens L gut dargestellte Werte pro QID-Gruppe (Äquivalenzklasse) hat
- verhindert Homogeneity attack
Issue: L-Diversity
Similarity Attack: Sensible Daten oder Werte sind nah beieinander und sehr ähnlich (z.B.: Husten und Niesen bei Grippe UND Bronchitis)