3 Anonymisierung - Privacy Enhancing Technologies Flashcards

1
Q

Privacy: Warum braucht man eine andere Technik als Kryptografie?

A
Legal requirements (GDPR): Anonymisierung sollte unumkehrbar sein.
Ethic Requirements (ML): Modelle sollten unabhängig vom individuellen Input sein.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Information Security:

A

“Die Erhaltung von Vertraulichkeit, Integrität und Verfügbarkeit. Außerdem wichtig: Authentizität, Verantwortung/Haftung, Zuverlässigkeit.”

Orig.: “Preservation of confidentiality, integrity and availability of information. Note: In addition,
other properties, such as authenticity, accountability, non-repudiation, and reliability can
also be involved.” (ISO/IEC 27000:2009)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definition Data Privacy:

A

“Datenschutz (Data Privacy) fokussiert sich auf den Gebrauch und die Kontrolle von persönlichen Daten […]”

“(Daten-)Sicherheit (Security) legt den Schwerpunkt eher darauf, Daten vor Angriffen, Diebstahl und ungewollter Weiterverwendung zu schützen.”

~Beides ist wichtig für den vollkommenen Schutz von Daten

Orig.: Data privacy is focused on the use and governance of personal data putting policies in Place
to ensure that consumers’ personal information is being collected, shared and used in
appropriate ways. Security focuses more on protecting data from malicious attacks and the
exploitation of stolen data for profit. While security is necessary for protecting data, it’s not
sufficient for addressing privacy.” (International Association of Privacy Professionals, IAAP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Datenschutz generell:

A

“Das Recht, dass jeder Mensch grundsätzlich selbst darüber entscheiden darf, WEM, WANN, WELCHE seiner persönlichen Daten zugänglich sein sollen.”

~Informelle Selbstbestimmung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Definition Personally Identifiable Information (PII)

A

“Jegliche Informationen, die eine natürliche Person (“Data Subject”) eindeutig identifizieren”

Orig.: [..] any information relating to an identified or identifiable natural person (‘data subject’) […]
Who can be identified, directly or indirectly, in particular by reference to an identifier such as
a name, an identification number, location data, an online identifier or to one or more
factors specific to the physical, physiological, genetic, mental, economic, cultural or social
identity of that natural person (GDPR Art. 4 (1))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Def. GDPR

A

General Data Protection Legislation

Datenschutz-Grundverordnung der Europäischen Union, mit der Regeln zur Verarbeitung personenbezogener Daten vereinheitlicht werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Def. Pseudonymisierung

A

“Maskieren” von personenbezogenen Daten:

Vorgehensweise: einfaches masking, hashing and encrypting

“Pseudonymisierung erhöht (Informations-)Sicherheit, bietet aber keine Anoynmisierung”

  • Ist relativ leicht rückzuverfolgen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Def. Anonymisierung

A

“Die Anonymisierung ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.”

Vorgehensweise: Entfernen von personally identifiyng information (PII)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Attacken (Linkage attack):

A

Der Angreifer spielt die “anonymisierten” Daten auf eine andere Datenbank. Es werden hier dann unique Kombinationen von Attributen gesucht, die zusammen in einer Zeile ein Individuum relativ genau identifizieren können (“Quasi Identifiers” (QID’s)) und mit dem Verzeichnis auf der zweiten Datenbank des Angreifers abgeglichen.

Ca. 90% Erfolgsahrscheinlichkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Attacken (Differencing attack):

A

Auswerten bzw ausnutzen von Unterschieden in result sets:
A type of data privacy attack where an attacker can isolate an individual value by combining multiple aggregate statistics about a dataset.

Bsp:

  1. Wie viele Leute haben braune Haare?
  2. Wie viele Leute, die nicht Luca heißen, haben braune Haare?

–> Legt offen, ob Luca braune Haare hat oder nicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Unterdrückung (Supression)

A

Bei einer Supression wird der Detailgrad der Informationen reduziert. Eine Identifizierung von Einzelpersonen soll so nicht mehr möglich sein. So werden etwa die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die PLZ-Adresse um einige Zahlen gekürzt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

K-Anonymity

A

Grundidee:

  1. Verallgemeinerung von Quasi-Identifikatoren, bis es
    mindestens k Datensätze für jede Gruppe/Klassifizierung gibt (Bsp: K=2, es muss mindestens 2 Zeileneinträge geben, die in dieses “verallgemeinerte Raster” fallen)
  2. Unterdrückung aller verbleibenden Datensätze, die gegen k-Anonymitätseigenschaft verstoßen

Kommentar: k-er-Gruppen (2er-Gruppen)
Je größer die Gruppengröße k, desto verfremdeter werden
die Daten, aber man kann auch weniger mit den Daten
machen
→ auch nach Verfremdung bleibt die Aussage wahr (auch
82kg verfremdet auf >10kg wäre noch wahr)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Issues/Attacks (K-Anonymity)

A

Homogeneity Attack:

(Dieser Angriff nutzt den Fall aus, in dem alle Werte für einen sensiblen Wert innerhalb eines Satzes von k Datensätzen identisch sind. In solchen Fällen kann, obwohl die Daten k-anonymisiert wurden, der sensible Wert für den Satz von k Datensätzen genau vorhergesagt werden.)

Background Knowledge Attack
(Durch eigenes/exterbnes Hintergrundwissen Details erahnen bzw wahrscheinliche Verknüpfungen ziehen)

Curse of Dimensionality:
(Je mehr unique Attribute einem Individuum zugeordnet sind, desto einfacher wird es, dieses anhand seiner (eingeschränkten) einsehbaren Attribute zu identifizieren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

I-Diversity (L-Diversity)

A

Ein Sicherheitsmaß für den Schutz der “sensitiven” Attribute.
Dafür wird eine Tabelle in “sensitive” und “nicht sensitive” Attribute unterteilt.
Inspiriert von k-Anonymität.

~Stellt sicher dass sensible Attribute mindestens L gut vertretene” Werte pro (Quasi Identifier-) Gruppe hat, um zb Homogeneity attakcks zu verhindern

Schwächen: Similarity, manche sensible Werte sind sich sehr ähnlich bzw fast identisch in der semantischen Bedeutung. Dadurch angreifbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Randomisierung: Differential Privacy

A

Differential Privacy hat das Ziel, die Genauigkeit von Antworten zu Anfragen an Datenbanken zu maximieren, unter Minimierung der Wahrscheinlichkeit, die zur Beantwortung verwendeten Datensätze identifizieren zu können.

Verfremdung von Werten statt Informationen wegnehmen

Motivation:
Informationen unter Wahrung der Privatsphäre veröffentlichen ohne die Daten verschlüsseln zu
müssen.

Anwendungsbeispiel: Patientendaten zu Forschungszwecken, jedoch ohne ihn/sie identifizieren zu können

~Mechanismen, die Differential Privacy erfüllen, verhindern beispielsweise, dass Angreifer unterscheiden können, ob eine bestimmte Person in einer Datenbank enthalten ist oder nicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

(Epsilon-) ε-Differential Privacy

A

Hinzufügen von Rauschen zu einem gegebenen Datensatz. Rauschen kann zb durch die Generierung neuer Einträge erreicht werden. Diese neuen Einträge (“Dummys”) müssen gegenüber den ursprünglichen Daten ununterscheidbar sein.

Verfremdung von Werten statt Informationen wegnehmen durch Hinzufügen von Rauschen, zufällige Analyse/Randomisierung
→ Randomisierung gesteuert von ε (Epsilon)

Je kleiner ε, desto mehr rauschen, also mehr “dummies” sind im Datensatz.

–> Je kleiner ε wird, desto höher wird
die Anonymität der Daten, jedoch hat dies zur Folge, dass die Daten immer unnützer werden.