Module 3A - Anonimiseren van databanken en differentiële privacy Flashcards

1
Q

Pseudonimisering

A
  • Pseudonimisering zorgt ervoor dat je de gegevens niet meer eenvoudig kunt koppelen aan de oorspronkelijke identiteit van een betrokkene → zeer nuttige maatregel om gegevens te beveiligen, maar het blijft nog steeds mogelijk om ze terug te koppelen!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Anonieme gegevens

A
  • Dit is wanneer de gegevens geen betrekking hebben op een geïdentificeerde of identificeerbare natuurlijke persoon of wanneer het gaat om persoonsgegevens die zodanig anoniem zijn gemaakt dat de betrokkene niet of niet meer identificeerbaar is.
  • → geen koppelijk mogelijk tussen de dataset en de betrokkenen. Anonimisering betekent dus dat identificatie van de betrokkene onherroepelijk uitgesloten is.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Relevantie onderscheid

A
  • Dit onderscheid is juridisch relevant → gegevensbeschermingsbeginselen in de AVG niet van toepassing zijn op de verwerking van anonieme gegevens, maar daarentegen wel nog steeds op de verwerking van gepseudonimiseerde gegevens.
  • Gepseudonimiseerde persoonsgegevens, die door het gebruik van aanvullende gegevens aan een natuurlijke persoon kunnen worden gekoppeld, worden beschouwd als “gegevens over een identificeerbare natuurlijke persoon”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hoe bepalen of een natuurlijke persoon (her)identificeerbaar is?

A
  • Redelijkheidstoets: er moet rekening worden gehouden met alle middelen waarvan redelijkerwijs valt te verwachten dat zij worden gebruikt door de verwerkingsverantwoordelijke, of door een andere persoon, om de natuurlijke persoon direct of indirect te identificeren (overweging 26 AVG).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Waar wordt rekening mee gehouden bij de redelijkheidstest bij anonimisering?

A
  • Objectieve factoren: kosten en tijd voor identificatie met beschikbare technologie. Pas wanneer heridentificatie onevenredig veel moeite zou kosten, kan de dataset als anoniem worden beschouwd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wanneer kan je iets als anoniem aanmerken?

A
  • Uitsluitend wanneer de voor de verwerking verantwoordelijke de gegevens dermate samenvoegt (aggregeert) dat de individuele gebeurtenissen niet langer identificeerbaar zijn, kan de resulterende dataset als anoniem worden aangemerkt.
  • Bv. Wanneer een verwerkingsverantwoordelijke de originele (identificeerbare) gegevens niet verwijdert op gebeurtenisniveau, en een deel van die dataset doorgeeft (bijvoorbeeld na het verwijderen of maskeren/afschermen van identificeerbare gegevens), de resulterende dataset nog steeds valt onder de noemer van persoonsgegevens.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Gevaar gepseudonimiseerde dataset

A
  • Wordt gedacht dat het anoniem is als de verwerkingsverantwoordelijke enkel de rechtstreekse identificatoren (zoals de naam van de personen) wijzigt, blijven de betrokkenen identificeerbaar zolang de dataset nog quasi-identificatoren bevat, dan wel andere waarden of attributen waarmee een persoon kan worden geïdentificeerd.
  • Vaak kan een persoon in een gepseudonimiseerde dataset even gemakkelijk worden geïdentificeerd als met de oorspronkelijke gegevens.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Waarom moeilijk om een anonieme dataset te creëren?

A
  • Omdat je de onderliggende informatie nodig hebt waardoor het belang van de dataset verminderd.
  • Anonieme dataset kan gecombineerd worden met andere dataset om personen te achterhalen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Anonimiseringstechnieken

A
  • Geen enkele techniek is perfect: afweging tussen:
    • Bruikbaarheid data
    • Privacybescherming
  • Bv. ruis toevoegen aan foto’s.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hoe moeten we “identificatie” begrijpen?

A
  • Mogelijkheid om iemands naam en/of adres te achterhalen, maar ook identificeerbaarheid door gegevens te herleiden tot de persoon, met elkaar in verband te brengen en af te leiden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

3 risico’s bij anonimiseringsproces?

A
  1. Herleidbaarheid (singling out) = mogelijkheid om een persoon in de dataset te individualiseren.
  2. Koppelbaarheid (linkability) = mogelijkheid om minstens 2 records over dezelfde betrokkene met elkaar in verband te brengen (in dezelfde of 2 verschillende databases). Je kan dit niet volstaan maar wel de herleidbaarheidstest.
  3. Deduceerbaarheid (inference) = de mogelijkheid om persoonsgebonden informatie af te leiden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat moet een anonimiseringsoplossing doen?

A
  • Die 3 risico’s uitsluiten → dan voldoende bestand tegen heridentificatie op basis van de meest waarschijnlijke en redelijk middelen = voldoet aan de wettelijke redelijkheidstoets.
  • Maar: geen enkele techniek is vrij van tekortkomingen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Technieken anonimisering

A
  1. Randomiseren
  2. Generaliseren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quasi-identificatoren

A

Combinaties van attributen die verband houden met een betrokkene of een groep betrokkenen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is een aanvaller

A
  • = een derde (dus niet de verwerkingsverantwoordelijke, noch de gegevensverwerker) die per ongeluk of opzettelijk toegang krijgt tot de oorspronkelijke records.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wat is randomisatie?

A
  • Groep technieken waarmee gegevens worden gewijzigd om ze lost te koppelen van een persoon. Als de gegevens voldoende at random zijn (dat wil zeggen willekeurig of onbepaald), is het niet langer mogelijk om ze te herleiden tot een specifieke persoon.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wat met de uniciteit?

A
  • Door randomisatie wordt de uniciteit of eenduidigheid van elke record niet verminderd: er bestaat nog steeds een één-op-éénrelatie tussen de record en de betrokkene.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Waartegen biedt randomisatie wel bescherming?

A
  • Deductieve aanvallen en risico’s van deduceerbaarheid verminderen. Door randomisatie te combineren met generalisatietechnieken worden betere privacywaarborgen geboden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Ruistoevoeging

A
  • Vooral nuttig wanneer attributen belangrijke negatieve gevolgen kunnen hebben voor personen → attributen gewijzigd om ze minder nauwkeurig te maken maar wel met behoud van de algemene verdeling.
    • De waarden blijven accuraat, maar tot een bepaalde hoogte: bv. +-10 cm terwijl de originele data tot op de cm nauwkeurig was.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Wat is de combinatie ruis en anonimiseringstechnieken?

A
  • Ruistoevoeging wordt gecombineerd met andere technieken: verwijderen van doorzichtige attributen en quasi-identificatoren.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoe omvang ruis bepalen?

A
  • Vereiste informatiegehalte en het effect van de bekendmaking van beveiligde attributen op de individuele privacy.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Privacywaarborgen en ruis?

A
  1. Herleidbaarheid: blijft mogelijk om ze te herleiden, maar mogelijk zonder identiteit van een persoon te kunnen vaststellen.
  2. Koppelbaarheid: records van dezelfde persoon maar de records zijn minder betrouwbaar. In sommige gevallen kan een betrokkene bij een onjuiste attributie aanzienlijk meer risico lopen dan wanneer de records juist worden geattribueerd.
  3. Deduceerbaarheid: slaagkans lager en foutpositieven zijn mogelijk.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Permutatie

A
  • = attribuutwaarden in een tabel in een willekeurige volgorde van plaats verwisselen zodat bepaalde waarden op kunstmatige wijze worden gekoppeld aan andere betrokkenen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Wanneer is permutatie nuttig?

A

Wanneer de exacte verdeling van elk attribuut binnen de dataset behouden moet blijven.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Permutatie als bijzondere vorm van ruistoevoeging

A
  • Attributen gewijzigd met aselecte (gerandomiseerde) waarden zonder voorspelbaar patroon. Het kan een hele opgave zijn op consistente wijze ruis te genereren.
  • Bovendien is dit geen privacyveilige oplossing wanneer alleen de attribuutwaarden in geringe mate worden veranderd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Waarvoor zorgt permutatie?

A
  • Bereik en de verdeling van de waarden blijft identiek, maar de correlaties tussen de waarden en personen veranderen.
  • Als er tussen 2 of meer attributen een logische relatie of statistische correlatie bestaat → verloren wanneer de attributen onafhankelijk van elkaar van plaats worden verwisseld (gepermuteerd)
    • Daarom moeten we de logisch volgorde behouden, ander kan een aanvaller de anders geordende attributen identificeren en de permutatie ongedaan maken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Is permutatie voldoende voor anonimiteit?

A
  • Doorgaans bestaat er een sterke logische relatie die de waarden aan elkaar koppelt. Wordt slechts één van die waarden van plaats verwisseld, dan kan een aanvaller die permutatie opsporen en zelfs terugdraaien.
  • Net als bij ruistoevoeging is permutatie op zich niet voldoende om gegevens anoniem te maken. Het is ook van belang dat doorzichtige attributen/quasi-identificatoren worden verwijderd.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Permutatie en herleidbaarheid?

A
  • Herleidbaarheid: net als bij ruistoevoeging blijft het mogelijk om de records te individualiseren, dat wil zeggen te herleiden tot een persoon, ook al zijn de records minder betrouwbaar.
30
Q

Permutatie en koppelbaarheid?

A
  • Koppelbaarheid: door attributen en quasi-identificatoren van plaats te verwisselen, kan worden vermeden dat attributen intern of extern in het „juiste” verband worden gebracht met een dataset; niettemin blijft een risico bestaan dat een „onjuist” verband wordt gelegd wanneer een echt informatie-element wordt gerelateerd aan een andere betrokkene.
31
Q

Permutatie en deduceerbaarheid?

A
  • Deduceerbaarheid: de dataset blijft vatbaar voor deducties, met name wanneer attributen aan elkaar gecorreleerd zijn of sterke logische relaties bezitten. De aanvaller weet echter niet op welke attributen de permutatie werd toegepast en moet er dan ook van uitgaan dat zijn deductie op een onjuiste hypothese kan berusten. Bijgevolg bestaat er alleen nog een risico van probabilistische deduceerbaarheid.
32
Q

Tekortkomingen permutatie?

A
  • Kan onvoldoende privacywaarborgen opleveren zolang er logische relaties tussen verschillende attributen bestaan. Ook na anonimisering valt het inkomen van elke persoon eenvoudig af te leiden uit de functie (en het geboortejaar)
33
Q

Differentiële privacy

A
  • Mathematische ruis aan gegevens wordt toegevoegd.
  • Idee: quasi onmogelijk om in te schatten over welke hulpinformatie (auxiliary information) een mogelijke aanvaller kan beschikken (zie Netflix).
34
Q

Wat houdt differentiële privacy in volgens Dwork?

A
  • Het risico op een privacy-inbreuk niet meer dan met een factor ε toeneemt wanneer de gegevens over een persoon in de dataset worden opgenomen, en dit, ongeacht de hulpinformatie van mogelijke aanvallers.
  • Het opnemen van de gegevens van een persoon in de dataset zou niet veel verschil mogen maken voor de gevolgtrekkingen die over die persoon worden gemaakt.
35
Q

Voorbeeld differentiële privacy?

A
  • Stel 2 identieke databanken met als verschil dat maar 1 je informatie bevat. Differentiële privacy zorgt ervoor dat de waarschijnlijkheid dat een statistische zoekopdracht een bepaald resultaat oplevert (bijna) gelijk is, ongeacht of die wordt uitgevoerd op de eerste of de tweede databank.
  • Wiskundige ruis toe te voegen aan de an de individuele gegevens in de databank (zodat hun identiteit niet kan worden achterhaald), op een zodanige manier dat de ruis de statistische uitkomst van alle gegevens niet beïnvloedt.
    • Lastig maken of een bepaald individu deel uitmaakt van de gegevensset, omdat de uitvoer van het algoritme er in wezen hetzelfde uitziet, ongeacht of de informatie van een bepaalde persoon is opgenomen of weggelaten.
36
Q

Wanneer is differentiële privacy vooral populair?

A
  • Bij algoritmes via machinaal leren, aangezien het toelaat om gebruikspatronen van een groot aantal gebruikers te ontdekken, zonder afbreuk te doen aan individuele privacy.
37
Q

Wat is dus een algoritme dat differentiële privacy biedt?

A
  • Algoritme waarvoor de waarschijnlijkheid dat het een specifieke verzameling parameters leert, ruwweg hetzelfde blijft als we één individu veranderen in de verzameling waarop we het algoritme getraind hebben.
    • Dat betekent dat we een individu kunnen toevoegen, verwijderen of eigenschappen van een individu kunnen aanpassen.
  • Als het algoritme deze eigenschap heeft, dan weten we dat één individu geen invloed heeft op wat het algoritme leert en dat we dus door vragen te stellen aan het algoritme op geen enkele manier informatie kunnen verkrijgen over een individu. Dan bereiken we differentiële privacy.
38
Q

Waartegen zijn differentieel private algoritmes bestand?

A
  • Tegen adaptieve aanvallen die gebruik maken van aanvullende informatie. Door het opnemen van willekeurige ruis in de mix, wordt alles wat een tegenstander ontvangt, luidruchtig en onnauwkeurig, wat de anonimiteit moet verzekeren van ieder lid in de groep gedurende het gehele proces voor het ophalen van informatie.
39
Q

Welke waarde je aan factor ε wil toekennen. Wat is je “privacybudget”?

A
  • Dit gaat ten koste van de bruikbaarheid van je dataset. Hoe meer je individuele privacy beschermt, hoe minder nauwkeurig je samengevoegde statistieken over de verzameling kunt berekenen.
40
Q

Herleidbaarheid en differentiële privacy?

A
  • Herleidbaarheid: wanneer de output alleen uit statistieken bestaat en indien zorgvuldig afgewogen regels op de dataset worden toegepast, kunnen de antwoorden niet worden gebruikt voor de herleiding tot een persoon.
41
Q

Koppelbaarheid en differentiële privacy?

A
  • Koppelbaarheid: bij gebruik van meervoudige gegevensopvragingen kan het mogelijk zijn persoonsgebonden informatie-elementen in twee antwoorden met elkaar in verband te brengen.
42
Q

deduceerbaarheid en differentiële privacy?

A
  • Deduceerbaarheid: meervoudige gegevensopvragingen maken het mogelijk informatie over personen of groepen af te leiden.
43
Q

Tekortkomingen differentiële privacy?

A
  • Elke gegevensopvraging (query) op zichzelf staand behandelen: door queryresultaten te combineren, kan ongewild geheime informatie openbaar worden gemaakt.
    • Als er geen querygeschiedenis bijgehouden, dan kan een aanvaller meerdere gegevensopvragingen verzenden naar een database die berust op “differentiële privacy” → steekproef zodat een specifiek persoonskenmerk met een zeer hoge waarschijnlijkheid naar boven komt.
  • Betrokkene kan nog steeds identificeren in de oorspronkelijke database.
44
Q

Wat is generalisatie?

A
  • Deze benaderingswijze bestaat erin de attributen van de betrokkenen te generaliseren (veralgemenen) of af te zwakken (dilueren) door de schaalgrootte of omvang te wijzigen.
    • Grote granulariteit toevoegen = minder gedetailleerd.
45
Q

Is generalisatie voldoende voor anonimiteit?

A
  • Generalisatie kan een efficiënte manier zijn om herleiding tot de persoon uit te sluiten, maar is niet in alle gevallen geschikt om gegevens op doeltreffende wijze anoniem te maken.
  • Er zijn specifieke en geavanceerde kwantitatieve benaderingen nodig om koppelbaarheid en deduceerbaarheid tegen te gaan.
46
Q

suppression

A
  • Supprimeren of onderdrukken = suppression:
    • Om datasets te delen met onderzoekers maar waarbij ze de personen niet kunnen identificeren → kenmerken of key attributes supprimeren of onderdrukken:
      • Bv. naam weghalen → vaak niet voldoende.
47
Q

Wat is een voorbeeld van generalisatie?

A
  • Individuele waarden van attributen worden vervangen door een bredere categorie.
  • Een dataset kan geen unieke identificator bevatten maar wel 4 quasi-identifiers → sensitive attribute = informatie die we willen afschermen.
  • We gaan die quasi-identifiers generaliseren → dan kan je niet meer combineren zodat minstens 2 personen met dezelfde quasi-identifiers in de dataset voorkomen.
48
Q

K-anonimiteit

A
  • Zwakte van geanonimiseerde datasets voorkomen door deze samen te voegen met ten minste k andere personen → door de attribuutwaarden op zodanige wijze te generaliseren dat meerdere personen dezelfde waarde gemeen hebben.
  • Dit is dus eigenlijk een techniek om de identiteit van individuen binnen een groep van soortgelijke personen te verbergen (daarom worden deze ook wel aangeduid als “groepsgebaseerde anonimisering”)
49
Q

Wat betekent de k in k-anonimiteit

A
  • Grootte van de groep: Als er voor een individu in de gegevensset ten minste k-1 individuen zijn met dezelfde eigenschappen, is er sprake van k-anonimiteit voor de gegevensset.
  • Stel dat voor een bepaalde gegevensset k gelijkstaat aan 50 en de eigenschap de postcode is. Als we naar een persoon in de gegevensset kijken, vinden we altijd 49 anderen met dezelfde postcode. Bijgevolg is het onmogelijk een persoon te identificeren op basis van alleen de postcode.
50
Q

Herleidbaarheid en k-anonimiteit?

A
  • Herleidbaarheid: aangezien k gebruikers nu dezelfde kenmerken gemeen hebben, is het niet langer mogelijk een persoon te individualiseren in een groep van k gebruikers.
51
Q

Koppelbaarheid en k-anonimiteit

A
  • Koppelbaarheid: ook al is de koppelbaarheid minder groot, het blijft mogelijk records met elkaar in verband te brengen in groepen van k gebruikers. Binnen deze groep is de kans dat twee records overeenstemmen met dezelfde pseudo-identificatoren gelijk aan 1 op k (wat veel groter kan zijn dan de kans dat deze informatie-elementen niet koppelbaar zijn).
52
Q

Deduceerbaarheid en k-anonimiteit

A
  • Deduceerbaarheid: de belangrijkste zwakke plek in het k-anonimiteitsmodel is dat deductieve aanvallen niet worden voorkomen. Immers, gesteld dat alle k personen tot dezelfde groep behoren en tevens bekend is van welke groep een persoon deel uitmaakt, dan is de waarde van deze eigenschap eenvoudig te achterhalen.
53
Q

Tekortkomingen k-anonimiteit

A
  • Vatbaar voor aanvallen omdat het geen randomisering inhoudt:
  • Deductieve aanvallen: aanvallers kunnen nog steeds conclusies trekken, zeker als die achtergrondkennis beschikt.
  • Background knowledge attack: Wanneer bijvoorbeeld de aanvaller in het volgende voorbeeld weet dat in de dataset een specifieke persoon is opgenomen met 1964 als geboortejaar, weet hij ook dat die persoon een hartaanval heeft gekregen.
  • Complementary release attack
  • Temporal attack
  • Homogeniteitsaanvallen
54
Q

Complementary release attack

A
  • Indien men informatie uit datasets die na elkaar worden gereleased kan combineren.
  • Kan zijn dat het vrijgeven van 1 dataset voldoet aan k-anonimiteit maar de combinatie niet. Rekening mee houden dat alle eerder vrijgegeven informatie beschikbaar is voor mogelijke aanvallen (en niet langer als privaat kan worden beschouwd).
55
Q

Temporal attack?

A

Het combineren van informatie kan opnieuw unieke combinaties opleveren, waardoor met zekerheid kan worden gezegd dat bv. Alice van adres is veranderd en nu in een andere postcode woont.

56
Q

Homogeniteitsaanvallen

A
  • In situaties waarin alle waarden voor een gevoelige eigenschap binnen een set van k records identiek zijn (bijvoorbeeld: wanneer voor alle personen in de bovenstaande tabellen zou gelden dat ze met obesitas kampen). In dergelijke gevallen kan, ook al zijn de gegevens k-geanonimiseerd, de gevoelige waarde voor de reeks van k records precies worden voorspeld.
57
Q

Curse of Dimensionality

A
  • Generalisatie zorgt er opnieuw voor dat je data minder waardeval is. Je hebt ook veel gegevens nodig om over te gaan tot generalisatie.
  • Het komt regelmatig voor dat in datasets uit de echte wereld (real-world datasets) de gegevens zo schaars zijn dat de “dichtsbijzijnde buur” zeer ver is. Doorgedreven veralgemening dreigt in zo’n gevallen de bruikbaarheid van je dataset te ondermijnen.
58
Q

L-diversiteit en t-gelijkenis

A
  • L-diversiteit betekent dat de de geanonimiseerde gegevensset niet alleen zoekopdrachten voor de griep bevat. De gegevensset kan naast zoekopdrachten voor COVID-19 andere zoekopdrachten bevatten om de privacy van de gebruiker beter te waarborgen.
  • Google maakt gebruik van l-diversiteit om dit risico te beperken. Met de term l-diversiteit wordt een bepaalde mate van diversiteit in de gevoelige waarden beschreven.
    • Bv. iedereen die Covid opzoekt = iedereen een gevoelig kenmerk ondanks dat je niet individueel kan bepalen wie het heeft opgezocht.
59
Q

Herleidbaarheid en l-diversiteit en t-gelijkenis

A

Net als k-anonimiteit kunnen l-diversiteit en t-gelijkenis ertoe bijdragen dat databaserecords niet worden herleid tot een persoon.

60
Q

Koppelbaarheid en l-diversiteit?

A
  • Wat dat betreft, bieden l-diversiteit en t-gelijkenis geen betere garanties dan k-anonimiteit. Hier doet zich hetzelfde probleem voor als met elke cluster: de kans dat dezelfde informatie-elementen aan een en dezelfde betrokkene toebehoren, is groter dan 1 op n (waarbij n het aantal betrokkenen in de database is).
61
Q

Deduceerbaarheid en l-diversiteit en t-gelijkenis?

A
  • De belangrijkste verbetering van l-diversiteit en t-gelijkenis ten opzichte van k-anonimiteit is dat het niet langer mogelijk is deductieve aanvallen op te zetten tegen een op l-diversiteit of t-gelijkenis gebaseerde database met een betrouwbaarheidsniveau van 100%.
62
Q

Wat is pseudonimisering?

A
  • Bij pseudonimisering wordt één attribuut (dat doorgaans uniek is) in een record vervangen door een ander attribuut. De natuurlijke persoon is dus nog steeds indirect identificeerbaar. Bijgevolg is pseudonimisering op zich niet voldoende om een dataset volledig anoniem te maken.
  • Pseudonimisering vermindert de koppelbaarheid tussen een dataset en de oorspronkelijke identiteit van een betrokkene, en is als zodanig een nuttige beveiligingsmaatregel, maar, zoals reeds opgemerkt, geen anonimiseringsmethode.
63
Q

Meest gebruikte technieken bij pseudonomiseringstechnieken?

A
  1. Encryptie: Encryptie met een geheime sleutel: in dit geval kan degene die de sleutel bezit elke betrokkene eenvoudig opnieuw identificeren door de dataset te decoderen. De persoonsgegevens zijn immers nog steeds in de dataset opgenomen, zij het in gecodeerde vorm. Gesteld dat een geavanceerd encryptiesysteem werd toegepast, dan is decodering uitsluitend mogelijk wanneer de sleutel bekend is.
  2. Hashfuncties
64
Q

Hashfunctie

A
  • Deze functie retourneert voor een invoer van willekeurige omvang (één enkel attribuut of een verzameling van attributen) een uitvoer met vaste grootte, en kan niet worden teruggedraaid.
  • → risico bij encryptie dat het proces wordt teruggedraaid bestaat hier niet.
    • Is het bereik van invoerwaarden van de hashfunctie echter bekend, dan bestaat de mogelijkheid de hashfunctie opnieuw daarop toe te passen (replay-aanval) om de juiste waarde voor een specifieke record af te leiden.
    • Hashfuncties zijn doorgaans ontworpen om zo snel mogelijk berekend te kunnen worden, en staan bloot aan brutekrachtaanvallen
65
Q

Herleidbaarheid en pseudonimisering?

A
  • Herleidbaarheid: de records blijven herleidbaar tot de persoon aangezien deze laatste nog steeds wordt geïdentificeerd door een uniek attribuut dat voortvloeit uit de pseudonimiseringsfunctie (= het gepseudonimiseerde attribuut).
66
Q

Koppelbaarheid en pseudonomisering?

A
  • Koppelbaarheid: de records zijn eenvoudig met elkaar in verband te brengen wanneer hetzelfde gepseudonimiseerde attribuut wordt gebruikt om naar dezelfde persoon te verwijzen.
    • Zelfs wanneer voor dezelfde betrokkene verschillende gepseudonimiseerde attributen worden gebruikt, kunnen de records via andere attributen met elkaar in verband worden gebracht.
  • Alleen wanneer geen enkel ander attribuut in de dataset het mogelijk maakt de betrokkene te identificeren en wanneer het oorspronkelijke attribuut volledig werd losgekoppeld van het gepseudonimiseerde attribuut (onder meer door de oorspronkelijke gegevens te verwijderen), kunnen twee datasets waarin verschillende gepseudonimiseerde attributen worden gebruikt niet met elkaar in verband worden gebracht.
67
Q

Deduceerbaarheid en pseudomisering?

A
  • Deduceerbaarheid: deductieve aanvallen om de werkelijke identiteit van een betrokkene te achterhalen zijn mogelijk in een dataset of tussen verschillende databases die hetzelfde gepseudonimiseerde attribuut voor een persoon gebruiken, of wanneer de pseudoniemen doorzichtig zijn en de oorspronkelijke identiteit van de betrokkene niet naar behoren verhullen.
68
Q

Vaak gemaakte fouten bij pseudonomisering?

A
  1. Aannemen dat gepseudonimiseerde dataset anoniem is
  2. Vaak gemaakte fouten bij gebruik van pseudonimisering als techniek om koppelbaarheid te verminderen
    1. Dezelfde sleutel gebruiken in verschillende databases.
    2. Verschillende sleutels “roterende sleutels” gebruiken voor verschillende gebruikers → patronen ontstaan
    3. Sleutel bewaren: wanneer de geheime sleutel samen met de gepseudonimiseerde gegevens wordt bewaard en de gegevens raken gecompromitteerd, dan kan de aanvaller de gepseudonimiseerde gegevens eenvoudig in verband brengen met het oorspronkelijke attribuut, ook als die niet veilig wordt bewaard.
69
Q

Wat is er van belang bij privacy en bruikbaarheid dataset?

A
  • Evenwicht zoeken tussen bruikbaarheid datasets en bescherming privacy.
  • Geen van de technieken voldoende → helpen al wel. Kan een combinatie helpen? Er is geen one-size-fits-all want rekening houden met de doelstellingen, de relevante contextuele factoren, technische onderbouwing.
70
Q

Overzicht technieken?

A
71
Q

Welke restrisico’s bestaan er nog bij geanonimiseerde datasets?

A
  • Restrisico’s ook nog bij geanonimiseerde datasets: Zelfs anoniem gemaakte gegevens, zoals statistieken, zijn bruikbaar om bestaande persoonsprofielen te verrijken, wat nieuwe kwesties en problemen op het gebied van gegevensbescherming kan doen rijzen.
    • Ook al kan een record niet worden opgehaald → mogelijkheid blijft bestaan om informatie die persoon te verzamelen met gebruikmaking van andere (al dan niet publiekelijk) beschikbare informatiebronnen.
  • Dit maakt duidelijk dat anonimisering geen eenmalige oefening is en dat verwerkingsverantwoordelijken de daarmee samenhangende risico’s regelmatig opnieuw zullen moeten bekijken.