03 - Anonymisierung Flashcards
Definition: Datenschutzgerecht
Das Recht, dass jeder Mensch grundsätzlich selbst darüber entscheiden darf, wem wann und welche seiner persönlichen Daten zugänglich sein sollen
Definition: Personenbezogene Daten
Jegliche Information die zu einer natürlichen Person direkt oder indirekt verbunden ist.
Direkte Personenbezogene Daten
Jede Information die über eine Direkte Kontaktaufnahme über diejenige Person verfügbar ist.
Indirekte Personenbezogene Daten
Jede Information die nicht über eine Direkte Kontaktaufnahme über diejenige Person verfügbar ist. Indirekte Daten erfordern einen weiteren Zwischenschritt
Definition: Pseudonymization
Eine reversible Verfahren, das Erfolglos Daten Anonymisiert. z.B. Hashen
Definition: Anonymization
Ein irreversable Verfahren, dem es gelingt, personenbezogene Daten zu generalisieren, damit auf keiner Art und Weise auf die originale Person zurückzuführen ist.
Definition: Linkage Attack
Hier werden anonymizierte Daten aus einer Datenbank mit einer anderen Sinnvollen gejoined, damit man so personenbezogene Daten erfahren kann (z.B. Netflix und IMDb)
Definition: Differencing Attack
Hier werden Unterschiede in den Datensätzen taktisch ausgenutzt um an die gewollte Information zu gelangen.
Vorgehensweise: k-Anonymity
1) Alle quasi-identifiers generalisieren (z.B. mit clustering)
2) Alle direkten personenbezogenen Daten auslassen
3) Unterdrückung (Suppression) aller Tupel die k-anonimität verletzen
Vorgehensweise: l-Diversity
- Baut auf k-Anonymity auf
- Jetzt müssen aber in den k Gruppen mindestens l sensitive Attribute verallgemeinerert werden
Definition: Differential Privacy
Eine Zufällige Funktion, die zwei Datensätze (D und D’) vergleicht, die sich max. um ein Element unterscheiden dürfen und bei jeder Datenbankabfrage ausgeführt wird, und dafür sorgt, dass es nun unmöglich ist zurück auf die originalen Daten zuzugreifen (OWF).
Definition: Global Sensitivity
Maximaler Unterschied zwischen D und D’
Definition: Noise
Random Wert, der aus einer Verteilung entnommen wird (z.B. Laplace Verteilung) und zur Funktion hinzuaddiert wird.
Output perturbation (Differential Privacy Model) (3)
- Erfordert einen Curator
- Daten und privacy Budget müssen verfolgt werden
- Noise wird zu jeder Datenbankabfrage hinzugefügt - Höhere Wartungskosten
Local Differential Privacy (Differencial Privacy Model) (3)
- Erfordert keinen Curator
- Data Analyst ist nicht vom privacy Budget aufgehalten (da es keinen gibt)
- Noise ist für alle erwartete Datenbankabfragen hinzugefügt - niedrigere Wartungskosten