3 Anonymisierung - Privacy Enhancing Technologies Flashcards
Privacy: Warum braucht man eine andere Technik als Kryptografie?
Legal requirements (GDPR): Anonymisierung sollte unumkehrbar sein. Ethic Requirements (ML): Modelle sollten unabhängig vom individuellen Input sein.
Definition Information Security:
“Die Erhaltung von Vertraulichkeit, Integrität und Verfügbarkeit. Außerdem wichtig: Authentizität, Verantwortung/Haftung, Zuverlässigkeit.”
Orig.: “Preservation of confidentiality, integrity and availability of information. Note: In addition,
other properties, such as authenticity, accountability, non-repudiation, and reliability can
also be involved.” (ISO/IEC 27000:2009)
Definition Data Privacy:
“Datenschutz (Data Privacy) fokussiert sich auf den Gebrauch und die Kontrolle von persönlichen Daten […]”
“(Daten-)Sicherheit (Security) legt den Schwerpunkt eher darauf, Daten vor Angriffen, Diebstahl und ungewollter Weiterverwendung zu schützen.”
~Beides ist wichtig für den vollkommenen Schutz von Daten
Orig.: Data privacy is focused on the use and governance of personal data putting policies in Place
to ensure that consumers’ personal information is being collected, shared and used in
appropriate ways. Security focuses more on protecting data from malicious attacks and the
exploitation of stolen data for profit. While security is necessary for protecting data, it’s not
sufficient for addressing privacy.” (International Association of Privacy Professionals, IAAP)
Datenschutz generell:
“Das Recht, dass jeder Mensch grundsätzlich selbst darüber entscheiden darf, WEM, WANN, WELCHE seiner persönlichen Daten zugänglich sein sollen.”
~Informelle Selbstbestimmung
Definition Personally Identifiable Information (PII)
“Jegliche Informationen, die eine natürliche Person (“Data Subject”) eindeutig identifizieren”
Orig.: [..] any information relating to an identified or identifiable natural person (‘data subject’) […]
Who can be identified, directly or indirectly, in particular by reference to an identifier such as
a name, an identification number, location data, an online identifier or to one or more
factors specific to the physical, physiological, genetic, mental, economic, cultural or social
identity of that natural person (GDPR Art. 4 (1))
Def. GDPR
General Data Protection Legislation
Datenschutz-Grundverordnung der Europäischen Union, mit der Regeln zur Verarbeitung personenbezogener Daten vereinheitlicht werden.
Def. Pseudonymisierung
“Maskieren” von personenbezogenen Daten:
Vorgehensweise: einfaches masking, hashing and encrypting
“Pseudonymisierung erhöht (Informations-)Sicherheit, bietet aber keine Anoynmisierung”
- Ist relativ leicht rückzuverfolgen
Def. Anonymisierung
“Die Anonymisierung ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.”
Vorgehensweise: Entfernen von personally identifiyng information (PII)
Attacken (Linkage attack):
Der Angreifer spielt die “anonymisierten” Daten auf eine andere Datenbank. Es werden hier dann unique Kombinationen von Attributen gesucht, die zusammen in einer Zeile ein Individuum relativ genau identifizieren können (“Quasi Identifiers” (QID’s)) und mit dem Verzeichnis auf der zweiten Datenbank des Angreifers abgeglichen.
Ca. 90% Erfolgsahrscheinlichkeit
Attacken (Differencing attack):
Auswerten bzw ausnutzen von Unterschieden in result sets:
A type of data privacy attack where an attacker can isolate an individual value by combining multiple aggregate statistics about a dataset.
Bsp:
- Wie viele Leute haben braune Haare?
- Wie viele Leute, die nicht Luca heißen, haben braune Haare?
–> Legt offen, ob Luca braune Haare hat oder nicht.
Unterdrückung (Supression)
Bei einer Supression wird der Detailgrad der Informationen reduziert. Eine Identifizierung von Einzelpersonen soll so nicht mehr möglich sein. So werden etwa die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die PLZ-Adresse um einige Zahlen gekürzt.
K-Anonymity
Grundidee:
- Verallgemeinerung von Quasi-Identifikatoren, bis es
mindestens k Datensätze für jede Gruppe/Klassifizierung gibt (Bsp: K=2, es muss mindestens 2 Zeileneinträge geben, die in dieses “verallgemeinerte Raster” fallen) - Unterdrückung aller verbleibenden Datensätze, die gegen k-Anonymitätseigenschaft verstoßen
Kommentar: k-er-Gruppen (2er-Gruppen)
Je größer die Gruppengröße k, desto verfremdeter werden
die Daten, aber man kann auch weniger mit den Daten
machen
→ auch nach Verfremdung bleibt die Aussage wahr (auch
82kg verfremdet auf >10kg wäre noch wahr)
Issues/Attacks (K-Anonymity)
Homogeneity Attack:
(Dieser Angriff nutzt den Fall aus, in dem alle Werte für einen sensiblen Wert innerhalb eines Satzes von k Datensätzen identisch sind. In solchen Fällen kann, obwohl die Daten k-anonymisiert wurden, der sensible Wert für den Satz von k Datensätzen genau vorhergesagt werden.)
Background Knowledge Attack
(Durch eigenes/exterbnes Hintergrundwissen Details erahnen bzw wahrscheinliche Verknüpfungen ziehen)
Curse of Dimensionality:
(Je mehr unique Attribute einem Individuum zugeordnet sind, desto einfacher wird es, dieses anhand seiner (eingeschränkten) einsehbaren Attribute zu identifizieren)
I-Diversity (L-Diversity)
Ein Sicherheitsmaß für den Schutz der “sensitiven” Attribute.
Dafür wird eine Tabelle in “sensitive” und “nicht sensitive” Attribute unterteilt.
Inspiriert von k-Anonymität.
~Stellt sicher dass sensible Attribute mindestens L gut vertretene” Werte pro (Quasi Identifier-) Gruppe hat, um zb Homogeneity attakcks zu verhindern
Schwächen: Similarity, manche sensible Werte sind sich sehr ähnlich bzw fast identisch in der semantischen Bedeutung. Dadurch angreifbar
Randomisierung: Differential Privacy
Differential Privacy hat das Ziel, die Genauigkeit von Antworten zu Anfragen an Datenbanken zu maximieren, unter Minimierung der Wahrscheinlichkeit, die zur Beantwortung verwendeten Datensätze identifizieren zu können.
Verfremdung von Werten statt Informationen wegnehmen
Motivation:
Informationen unter Wahrung der Privatsphäre veröffentlichen ohne die Daten verschlüsseln zu
müssen.
Anwendungsbeispiel: Patientendaten zu Forschungszwecken, jedoch ohne ihn/sie identifizieren zu können
~Mechanismen, die Differential Privacy erfüllen, verhindern beispielsweise, dass Angreifer unterscheiden können, ob eine bestimmte Person in einer Datenbank enthalten ist oder nicht.