3.MESSED UP Anonymisierung PK Flashcards
Definition Informationssicherheit
„Bewahrung der Vertraulichkeit, Integrität und Verfügbarkeit von Informationen. Hinweis: Darüber hinaus andere Eigenschaften wie Authentizität, Verantwortlichkeit, Nichtabstreitbarkeit und Zuverlässigkeit können ebenfalls sein beteiligt.“ (ISO/IEC 27000:2009)
Definition Datenprivatsphäre
„Der Datenschutz konzentriert sich auf die Nutzung und Verwaltung personenbezogener Daten […] und legt Richtlinien fest um sicherzustellen, dass die personenbezogenen Daten der Verbraucher in angemessener Weise gesammelt, weitergegeben und verwendet werden Wege. Sicherheit konzentriert sich mehr auf den Schutz von Daten vor böswilligen Angriffen und der Ausnutzung von gestohlene Daten für Profit. Sicherheit ist zwar zum Schutz von Daten notwendig, aber nicht ausreichend für Adressierung der Privatsphäre.“ (International Association of Privacy Professionals, IAAP)
Welche 3 Gesetzte haben die Europäischen Datenschutzgesetzte und -standards beeinflusst?
- Artikel 12: Recht auf Ein Privatleben/ Recht auf Privatsphäre
- Artikel 19: Meinungsfreiheit/ Recht auf freie Meinungsäußerung
- Artikel 29 Absatz 2: Ausgewogenheit / Rechte sind nicht absolut und sollten ausgewogen sein.
Warum wuchs der Bedarf an Datenschutzgesetzten?
Im Laufe der Zeit wurden die Systeme komplexer
Wie hat sich die Privatsphäre von 1970er bis 2018 geändert?
1970er Jahre
• Konflikt zwischen nationalen Datenschutzrechten und internationalen Datenschutzrechten.
• Entwicklung von Banken für personenbezogene Daten und Kommunikationstechnologien.
1980er
• Datenschutzinitiative 1: OECD-Leitsätze zum Schutz der Privatsphäre und
Grenzüberschreitende Ströme personenbezogener Daten
• Enthält grundlegende Datenschutzgrundsätze
• Datenschutzinitiative 2: Europaratskonvention 108
• Datenschutzinstrument für Mitgliedstaaten
• Unterscheidet sich von den OECD-Richtlinien dadurch, dass die Unterzeichner verpflichtet sind, die Grundsätze in
nationale Gesetzgebung.
• Nur wenige Staaten haben es ratifiziert und sind daher sehr zersplittert.
1990er Jahre
• Probleme bei der Annahme der CoE-Convetion 108 (Vision des Binnenmarkts)
• Einführung der EU-Datenschutzrichtlinie (95/46/EG)
• Allgemeine Datenschutzgrundsätze und -pflichten.
• Verpflichtung der Mitgliedstaaten zur Umsetzung und Umsetzung.
2000er
• Charta der Grundrechte der EU.
• Erhebung individueller Rechte (einschließlich Grundrecht auf Datenschutz).
• Die EU-Richtlinie zum Datenschutz und zur elektronischen Kommunikation (E-Privacy-Richtlinie) ist legal
verbindlich für die Mitgliedsstaaten:
• Gilt für die Verarbeitung personenbezogener Daten durch öffentliche elektronische Kommunikation
Dienste und Netzwerke
2018 Allgemeine Datenschutzgesetzgebung (DSGVO)
Was sind die Ziele der neuen EU Datenschutzverordnung (EU DSGVO)
Modernisierung aufgrund der technischen Veränderungen seit 1995.
Vereinfachung und Standardisierung innerhalb Europas.
Vereinheitlichung und Stärkung der Betroffenenrechte
Beispiel: Unter BDSG Strafen bis zu 300.000€
Reduzierung des bürokratischen Aufwands
Freier Datentransfer innerhalb Europa und mit ‚befreundeten‘ Ländern
Äquivalentes Datenschutzniveau (z.B., Privacy Shield)
Vertrauensbildung
Was ist der Eckpunkt des Datenschutz?
Das Recht, dass jeder Mensch grundsätzlich selbst darüber entscheiden darf, wem wann
welche seiner persönlichen Daten zugänglich sein sollen.
Was schützt die EU Datenschutzgrundverordnung?
Schutz natürlicher Personen bei der automatisierten Verarbeitung personenbezogener Daten.
Definiton Persönlich identifizierbare Informationen
[..] alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person („betroffene Person“) beziehen, […]
direkt oder indirekt identifiziert werden, insbesondere durch Bezugnahme auf eine Kennung wie einen Namen,
Identifikationsnummer, Standortdaten, eine Online-Kennung oder auf einen oder mehrere spezifische Faktoren
physische, physiologische, genetische, psychische, wirtschaftliche, kulturelle oder soziale Identität dieser natürlichen Person;
Bietet Pseudonymisierung Anonymität
Pseudonymisierung erhöht die Informationssicherheit, bietet jedoch keine Anonymisierung.
Definition Pseudonymisierung
Bei der Pseudonymisierung wird der Name oder ein anderes Identifikationsmerkmal durch ein Pseudonym (zumeist ein Code, bestehend aus einer Buchstaben- oder Zahlenkombination) ersetzt, um die Feststellung der Identität des Betroffenen auszuschließen oder wesentlich zu erschweren
Definition Anonymisierung
Die Anonymisierung ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können. Eine vollständige Anonymisierung ist sehr schwer zu erlangen.
Negative Bsp für Pseudonymisierung
New Yorker Taxidaten wurden nach einer Anfrage zum Informationsfreiheitsgesetz öffentlich zugänglich gemacht
Taxilizenzen, wenn sie pseudonymisiert sind (umkehrbar)
Zusätzlich Trinkgeldbetrag, Abholkoordinaten, Zeit, Abgabekoordinaten, sofern angegeben
Probleme
• Welche Fahrer halten während der Gebetszeiten?
• Wohin geht mein Nachbar Bob jeden Donnerstagabend?
• Welche Promi-Tipps am häufigsten?
Ist Anonymisierung oder Pseudonymisierung besser? Warum?
Anonymisierung, da Anonymisierung nicht mehr umkehrbar ist, nicht wie Pseudonymisierung
Welche Mittel sollten berücksichtigt werden bei der Frage ob eine natürliche Person identifizierbar ist
Dabei sind alle objektiven Faktoren wie Kosten und Zeitaufwand zu berücksichtigen die zur Identifizierung erforderlich sind
unter Berücksichtigung der zum Zeitpunkt der
Verarbeitung und technologische Entwicklungen
Was sind Bsp für personenbezogene Daten
Name, Steuernummer, Telefonnummer
Was sind personenbezogene Daten
Identifiziert eine Person eindeutig
Was sind Quasi-Identifikatioren?
Kombination nicht identifizierender Attribute, die zusammengenommen eine Person eindeutig identifizieren
Bsp für Quasi-Identifikatioren
Postleitzahl, Geburtsdatum, Geschlecht (hiermit sind 87% der US Bevölkerung eindeutig identifizierbar)
Was ist ein Verknüpfungsangriff (Linkage attack)?
Bsp
„anonymisierte“ Datensätze mit einer anderen Datenbank verknüpfen
– {Geburtsdatum, Postleitzahl, Geschlecht} aus der „anonymisierten“ US-Volkszählung 1990
konnte 87% der Bevölkerung identifizieren
– Netflix-Empfehlungswettbewerb
Was ist ein Differenzierender Angriff?
Unterschiede in Ergebnismengen ausnutzen
Bsp.
„Wie viele Menschen haben Diabetes?“ und „Wie viele Leute, die nicht Bobby heißen, haben Diabetes?“
- Zeigt an, ob Bobby Diabetes hat
Was ist die Idee hinter K-Anonymity? Und wie sind die Schritte?
Idee: Generalisierung und Unterdrückung
- Verallgemeinerung von Quasi-Identifikatoren, bis es
mindestens k Datensätze für jede Gruppe - Unterdrückung aller verbleibenden Datensätze, die gegen
k-Anonymitätseigenschaft verstoßen
Nenne ein Bsp zu k-Anonymity
Birth: 197*
ZIP: 7633*
Weight: <= 80 kg
Was bedeutet zB k=2?
Das mindestens 2 Zeilen in die gleiche Gruppe passen
Bsp. Birth: 197* ZIP: 7633* Weight: <= 80 kg muss zweimal so in Zeilen stehen
Nachteil k-Annoymity
Je nach Nebenwissen immer noch sehr seethrough
Was ist ein Homogeneity attack?
Dieser Angriff nutzt den Fall aus, in dem alle Werte für einen sensiblen Wert innerhalb eines Satzes von k Datensätzen identisch sind. In solchen Fällen kann, obwohl die Daten k-anonymisiert wurden, der sensible Wert für den Satz von k Datensätzen genau vorhergesagt werden.
Was ist ein Background knowledge attack?
Dieser Angriff nutzt eine Assoziation zwischen einem oder mehreren Quasi-Identifier-Attributen mit dem sensiblen Attribut, um die Menge möglicher Werte für das sensible Attribut zu reduzieren. Machanavajjhala, Kifer, Gehrke und Venkitasubramaniam (2007) zeigten beispielsweise, dass das Wissen, dass Herzinfarkte bei japanischen Patienten seltener auftreten, dazu genutzt werden kann, den Wertebereich für ein sensibles Merkmal der Krankheit eines Patienten einzuschränken.
Nenne ein Bsp für die Background knowledge attack
Japaner haben statistisch gesehen, selten Herz Krankheiten
Wenn also mehrere Attribute wzB Illness (sensitive attribute) frei sind und 5 von 6 Herzkrankheiten sind wissen wir das unser gesuchter Japaner die 6te Krankheit hat und somit di e 6 “anonyme” Person ist
Wie sollte mit sensitive attibutes umgegangen werden?
komplett vermeiden
Unterschied zwischen k-anonymity und differential privacy
K-anonymity:
- Vergangenheit
- Datenschutz abhängig vom Datensatz
- Person in Teilmenge der Daten ausblenden
- Syntaktischer Datenschutz: Attribute sind entweder öffentlich oder sensibel
- Informelle Datenschutzgarantie
Differential privacy:
- Present
- Datenschutz abhängig von Funktion
- Auswirkung des Einzelnen auf die Funktion ausblenden
- Semantische Privatsphäre
- Formale Datenschutzgarantie
Was sagt der Fluch der Dimensionalität?
Je mehr Attribute desto leichter aus Variationen, Menschen zu identifizieren
ein Attribute mehr und viel mehr Kombinationen als davor
Was ist epsilon-Differential privacy
versucht, sich vor der Möglichkeit zu schützen, dass ein Benutzer eine unbestimmte Anzahl von Berichten erstellen kann, um daraus sensible Daten preiszugeben. Ein als epsilon bezeichneter Wert misst, wie laut oder privat ein Bericht ist.
Kurze Erklärung von l(L)-Diversity
Inspiriert vin k-Anonymität
Stellt sicher das sensibles Attribute mindestens l “gut vertretene” Werte pro Gruppe hat
- verhindert Homogenitätsangriffe
Probleme:
Skewness attack
1% HIV positive weltweit, aber Gruppe mit 99% HIV positive
Ähnlichkeitsangriffe:
Nähe sensible Werte (Grippe, Bronchitis: alle Husten und Niesen)
Kurez Erklärung l(L)-closness
Verteilung des sensiblen Attributs in der QID-Gruppe
sollte „nahe“ an seiner globalen Verbreitung sein
– Verwendung normalerweise Entfernung des Earth Mover (EMD)
– Semantische Nähe sensibler Werte berücksichtigen
– Entfernung begrenzt durch einen Schwellenwert �
Verhindert Skewness- und Ähnlichkeitsangriffe
Probleme
Wie aussagekräftig sind Daten bei Verteilung in allen QID
Gruppen ähnlich ist?
Allgemeines Thema:
Falsche Annahme, dass Angreifer nur einige Attribute verwenden wird, um Einzelpersonen zu identifizieren
– Unterscheidung zwischen QIDs und „sensibel“
Attribute?
Beispiel:
Angreifer wohnt in 76334, sein älterer Nachbar
(großer Kerl!) wird ins Krankenhaus eingeliefert
- In der Datenbank steht das ein über 80kg Mensch Angina hat. Also hat Angreifers Nachbar Angina
Mechanismus epsilon-Differential Privacy
Durch das Hinzufügen von Rauschen zu einem gegebenen Datensatz ist es möglich, die gewünschten Eigenschaften zu erhalten. Rauschen kann hierbei durch die Generierung neuer Einträge erreicht werden. Diese neuen Einträge, auch Dummys genannt, müssen gegenüber den ursprünglichen Daten ununterscheidbar sein, um den Anforderungen von Differential Privacy gerecht zu werden.
Schwäche epsilon-Differential Privacy
ε-Differential Privacy stellt hohe Anforderungen an Mechanismen, wodurch die Ergebnisse zum Teil stark an Nutzen verlieren. Wird zu viel Rauschen generiert und ist dieses zu unterschiedlich von den Ursprungsdaten, so wird der Informationsgehalt sehr eingeschränkt.