3.MESSED UP Anonymisierung PK Flashcards

1
Q

Definition Informationssicherheit

A

„Bewahrung der Vertraulichkeit, Integrität und Verfügbarkeit von Informationen. Hinweis: Darüber hinaus andere Eigenschaften wie Authentizität, Verantwortlichkeit, Nichtabstreitbarkeit und Zuverlässigkeit können ebenfalls sein beteiligt.“ (ISO/IEC 27000:2009)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Datenprivatsphäre

A

„Der Datenschutz konzentriert sich auf die Nutzung und Verwaltung personenbezogener Daten […] und legt Richtlinien fest um sicherzustellen, dass die personenbezogenen Daten der Verbraucher in angemessener Weise gesammelt, weitergegeben und verwendet werden Wege. Sicherheit konzentriert sich mehr auf den Schutz von Daten vor böswilligen Angriffen und der Ausnutzung von gestohlene Daten für Profit. Sicherheit ist zwar zum Schutz von Daten notwendig, aber nicht ausreichend für Adressierung der Privatsphäre.“ (International Association of Privacy Professionals, IAAP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche 3 Gesetzte haben die Europäischen Datenschutzgesetzte und -standards beeinflusst?

A
  • Artikel 12: Recht auf Ein Privatleben/ Recht auf Privatsphäre
  • Artikel 19: Meinungsfreiheit/ Recht auf freie Meinungsäußerung
  • Artikel 29 Absatz 2: Ausgewogenheit / Rechte sind nicht absolut und sollten ausgewogen sein.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Warum wuchs der Bedarf an Datenschutzgesetzten?

A

Im Laufe der Zeit wurden die Systeme komplexer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie hat sich die Privatsphäre von 1970er bis 2018 geändert?

A

1970er Jahre
• Konflikt zwischen nationalen Datenschutzrechten und internationalen Datenschutzrechten.
• Entwicklung von Banken für personenbezogene Daten und Kommunikationstechnologien.

1980er
• Datenschutzinitiative 1: OECD-Leitsätze zum Schutz der Privatsphäre und
Grenzüberschreitende Ströme personenbezogener Daten
• Enthält grundlegende Datenschutzgrundsätze
• Datenschutzinitiative 2: Europaratskonvention 108
• Datenschutzinstrument für Mitgliedstaaten
• Unterscheidet sich von den OECD-Richtlinien dadurch, dass die Unterzeichner verpflichtet sind, die Grundsätze in
nationale Gesetzgebung.
• Nur wenige Staaten haben es ratifiziert und sind daher sehr zersplittert.

1990er Jahre
• Probleme bei der Annahme der CoE-Convetion 108 (Vision des Binnenmarkts)
• Einführung der EU-Datenschutzrichtlinie (95/46/EG)
• Allgemeine Datenschutzgrundsätze und -pflichten.
• Verpflichtung der Mitgliedstaaten zur Umsetzung und Umsetzung.

2000er
• Charta der Grundrechte der EU.
• Erhebung individueller Rechte (einschließlich Grundrecht auf Datenschutz).
• Die EU-Richtlinie zum Datenschutz und zur elektronischen Kommunikation (E-Privacy-Richtlinie) ist legal
verbindlich für die Mitgliedsstaaten:
• Gilt für die Verarbeitung personenbezogener Daten durch öffentliche elektronische Kommunikation
Dienste und Netzwerke

2018
Allgemeine Datenschutzgesetzgebung (DSGVO)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind die Ziele der neuen EU Datenschutzverordnung (EU DSGVO)

A

Modernisierung aufgrund der technischen Veränderungen seit 1995.

Vereinfachung und Standardisierung innerhalb Europas.

Vereinheitlichung und Stärkung der Betroffenenrechte
Beispiel: Unter BDSG Strafen bis zu 300.000€

Reduzierung des bürokratischen Aufwands

Freier Datentransfer innerhalb Europa und mit ‚befreundeten‘ Ländern
Äquivalentes Datenschutzniveau (z.B., Privacy Shield)

Vertrauensbildung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Eckpunkt des Datenschutz?

A

Das Recht, dass jeder Mensch grundsätzlich selbst darüber entscheiden darf, wem wann
welche seiner persönlichen Daten zugänglich sein sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was schützt die EU Datenschutzgrundverordnung?

A

Schutz natürlicher Personen bei der automatisierten Verarbeitung personenbezogener Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definiton Persönlich identifizierbare Informationen

A

[..] alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person („betroffene Person“) beziehen, […]
direkt oder indirekt identifiziert werden, insbesondere durch Bezugnahme auf eine Kennung wie einen Namen,
Identifikationsnummer, Standortdaten, eine Online-Kennung oder auf einen oder mehrere spezifische Faktoren
physische, physiologische, genetische, psychische, wirtschaftliche, kulturelle oder soziale Identität dieser natürlichen Person;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Bietet Pseudonymisierung Anonymität

A

Pseudonymisierung erhöht die Informationssicherheit, bietet jedoch keine Anonymisierung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Definition Pseudonymisierung

A

Bei der Pseudonymisierung wird der Name oder ein anderes Identifikationsmerkmal durch ein Pseudonym (zumeist ein Code, bestehend aus einer Buchstaben- oder Zahlenkombination) ersetzt, um die Feststellung der Identität des Betroffenen auszuschließen oder wesentlich zu erschweren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Definition Anonymisierung

A

Die Anonymisierung ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können. Eine vollständige Anonymisierung ist sehr schwer zu erlangen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Negative Bsp für Pseudonymisierung

A

New Yorker Taxidaten wurden nach einer Anfrage zum Informationsfreiheitsgesetz öffentlich zugänglich gemacht

Taxilizenzen, wenn sie pseudonymisiert sind (umkehrbar)

Zusätzlich Trinkgeldbetrag, Abholkoordinaten, Zeit, Abgabekoordinaten, sofern angegeben

Probleme
• Welche Fahrer halten während der Gebetszeiten?
• Wohin geht mein Nachbar Bob jeden Donnerstagabend?
• Welche Promi-Tipps am häufigsten?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ist Anonymisierung oder Pseudonymisierung besser? Warum?

A

Anonymisierung, da Anonymisierung nicht mehr umkehrbar ist, nicht wie Pseudonymisierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche Mittel sollten berücksichtigt werden bei der Frage ob eine natürliche Person identifizierbar ist

A

Dabei sind alle objektiven Faktoren wie Kosten und Zeitaufwand zu berücksichtigen die zur Identifizierung erforderlich sind
unter Berücksichtigung der zum Zeitpunkt der
Verarbeitung und technologische Entwicklungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind Bsp für personenbezogene Daten

A

Name, Steuernummer, Telefonnummer

17
Q

Was sind personenbezogene Daten

A

Identifiziert eine Person eindeutig

18
Q

Was sind Quasi-Identifikatioren?

A

Kombination nicht identifizierender Attribute, die zusammengenommen eine Person eindeutig identifizieren

19
Q

Bsp für Quasi-Identifikatioren

A

Postleitzahl, Geburtsdatum, Geschlecht (hiermit sind 87% der US Bevölkerung eindeutig identifizierbar)

20
Q

Was ist ein Verknüpfungsangriff (Linkage attack)?

Bsp

A

„anonymisierte“ Datensätze mit einer anderen Datenbank verknüpfen
– {Geburtsdatum, Postleitzahl, Geschlecht} aus der „anonymisierten“ US-Volkszählung 1990
konnte 87% der Bevölkerung identifizieren
– Netflix-Empfehlungswettbewerb

21
Q

Was ist ein Differenzierender Angriff?

A

Unterschiede in Ergebnismengen ausnutzen

Bsp.
„Wie viele Menschen haben Diabetes?“ und „Wie viele Leute, die nicht Bobby heißen, haben Diabetes?“
- Zeigt an, ob Bobby Diabetes hat

22
Q

Was ist die Idee hinter K-Anonymity? Und wie sind die Schritte?

A

Idee: Generalisierung und Unterdrückung

  1. Verallgemeinerung von Quasi-Identifikatoren, bis es
    mindestens k Datensätze für jede Gruppe
  2. Unterdrückung aller verbleibenden Datensätze, die gegen
    k-Anonymitätseigenschaft verstoßen
23
Q

Nenne ein Bsp zu k-Anonymity

A

Birth: 197*
ZIP: 7633*
Weight: <= 80 kg

24
Q

Was bedeutet zB k=2?

A

Das mindestens 2 Zeilen in die gleiche Gruppe passen

Bsp.
Birth: 197*
ZIP: 7633*
Weight: <= 80 kg
muss zweimal so in Zeilen stehen
25
Q

Nachteil k-Annoymity

A

Je nach Nebenwissen immer noch sehr seethrough

26
Q

Was ist ein Homogeneity attack?

A

Dieser Angriff nutzt den Fall aus, in dem alle Werte für einen sensiblen Wert innerhalb eines Satzes von k Datensätzen identisch sind. In solchen Fällen kann, obwohl die Daten k-anonymisiert wurden, der sensible Wert für den Satz von k Datensätzen genau vorhergesagt werden.

27
Q

Was ist ein Background knowledge attack?

A

Dieser Angriff nutzt eine Assoziation zwischen einem oder mehreren Quasi-Identifier-Attributen mit dem sensiblen Attribut, um die Menge möglicher Werte für das sensible Attribut zu reduzieren. Machanavajjhala, Kifer, Gehrke und Venkitasubramaniam (2007) zeigten beispielsweise, dass das Wissen, dass Herzinfarkte bei japanischen Patienten seltener auftreten, dazu genutzt werden kann, den Wertebereich für ein sensibles Merkmal der Krankheit eines Patienten einzuschränken.

28
Q

Nenne ein Bsp für die Background knowledge attack

A

Japaner haben statistisch gesehen, selten Herz Krankheiten

Wenn also mehrere Attribute wzB Illness (sensitive attribute) frei sind und 5 von 6 Herzkrankheiten sind wissen wir das unser gesuchter Japaner die 6te Krankheit hat und somit di e 6 “anonyme” Person ist

29
Q

Wie sollte mit sensitive attibutes umgegangen werden?

A

komplett vermeiden

30
Q

Unterschied zwischen k-anonymity und differential privacy

A

K-anonymity:

  • Vergangenheit
  • Datenschutz abhängig vom Datensatz
  • Person in Teilmenge der Daten ausblenden
  • Syntaktischer Datenschutz: Attribute sind entweder öffentlich oder sensibel
  • Informelle Datenschutzgarantie

Differential privacy:

  • Present
  • Datenschutz abhängig von Funktion
  • Auswirkung des Einzelnen auf die Funktion ausblenden
  • Semantische Privatsphäre
  • Formale Datenschutzgarantie
31
Q

Was sagt der Fluch der Dimensionalität?

A

Je mehr Attribute desto leichter aus Variationen, Menschen zu identifizieren

ein Attribute mehr und viel mehr Kombinationen als davor

32
Q

Was ist epsilon-Differential privacy

A

versucht, sich vor der Möglichkeit zu schützen, dass ein Benutzer eine unbestimmte Anzahl von Berichten erstellen kann, um daraus sensible Daten preiszugeben. Ein als epsilon bezeichneter Wert misst, wie laut oder privat ein Bericht ist.

33
Q

Kurze Erklärung von l(L)-Diversity

A

Inspiriert vin k-Anonymität

Stellt sicher das sensibles Attribute mindestens l “gut vertretene” Werte pro Gruppe hat

  • verhindert Homogenitätsangriffe

Probleme:
Skewness attack
1% HIV positive weltweit, aber Gruppe mit 99% HIV positive
Ähnlichkeitsangriffe:
Nähe sensible Werte (Grippe, Bronchitis: alle Husten und Niesen)

34
Q

Kurez Erklärung l(L)-closness

A

Verteilung des sensiblen Attributs in der QID-Gruppe
sollte „nahe“ an seiner globalen Verbreitung sein
– Verwendung normalerweise Entfernung des Earth Mover (EMD)
– Semantische Nähe sensibler Werte berücksichtigen
– Entfernung begrenzt durch einen Schwellenwert �

Verhindert Skewness- und Ähnlichkeitsangriffe

Probleme
Wie aussagekräftig sind Daten bei Verteilung in allen QID
Gruppen ähnlich ist?

Allgemeines Thema:
Falsche Annahme, dass Angreifer nur einige Attribute verwenden wird, um Einzelpersonen zu identifizieren
– Unterscheidung zwischen QIDs und „sensibel“
Attribute?

Beispiel:
Angreifer wohnt in 76334, sein älterer Nachbar
(großer Kerl!) wird ins Krankenhaus eingeliefert
- In der Datenbank steht das ein über 80kg Mensch Angina hat. Also hat Angreifers Nachbar Angina

35
Q

Mechanismus epsilon-Differential Privacy

A

Durch das Hinzufügen von Rauschen zu einem gegebenen Datensatz ist es möglich, die gewünschten Eigenschaften zu erhalten. Rauschen kann hierbei durch die Generierung neuer Einträge erreicht werden. Diese neuen Einträge, auch Dummys genannt, müssen gegenüber den ursprünglichen Daten ununterscheidbar sein, um den Anforderungen von Differential Privacy gerecht zu werden.

36
Q

Schwäche epsilon-Differential Privacy

A

ε-Differential Privacy stellt hohe Anforderungen an Mechanismen, wodurch die Ergebnisse zum Teil stark an Nutzen verlieren. Wird zu viel Rauschen generiert und ist dieses zu unterschiedlich von den Ursprungsdaten, so wird der Informationsgehalt sehr eingeschränkt.