Module 3A - Anonimiseren van databanken en differentiële privacy Flashcards
Pseudonimisering
- Pseudonimisering zorgt ervoor dat je de gegevens niet meer eenvoudig kunt koppelen aan de oorspronkelijke identiteit van een betrokkene → zeer nuttige maatregel om gegevens te beveiligen, maar het blijft nog steeds mogelijk om ze terug te koppelen!
Anonieme gegevens
- Dit is wanneer de gegevens geen betrekking hebben op een geïdentificeerde of identificeerbare natuurlijke persoon of wanneer het gaat om persoonsgegevens die zodanig anoniem zijn gemaakt dat de betrokkene niet of niet meer identificeerbaar is.
- → geen koppelijk mogelijk tussen de dataset en de betrokkenen. Anonimisering betekent dus dat identificatie van de betrokkene onherroepelijk uitgesloten is.
Relevantie onderscheid
- Dit onderscheid is juridisch relevant → gegevensbeschermingsbeginselen in de AVG niet van toepassing zijn op de verwerking van anonieme gegevens, maar daarentegen wel nog steeds op de verwerking van gepseudonimiseerde gegevens.
- Gepseudonimiseerde persoonsgegevens, die door het gebruik van aanvullende gegevens aan een natuurlijke persoon kunnen worden gekoppeld, worden beschouwd als “gegevens over een identificeerbare natuurlijke persoon”
Hoe bepalen of een natuurlijke persoon (her)identificeerbaar is?
- Redelijkheidstoets: er moet rekening worden gehouden met alle middelen waarvan redelijkerwijs valt te verwachten dat zij worden gebruikt door de verwerkingsverantwoordelijke, of door een andere persoon, om de natuurlijke persoon direct of indirect te identificeren (overweging 26 AVG).
Waar wordt rekening mee gehouden bij de redelijkheidstest bij anonimisering?
- Objectieve factoren: kosten en tijd voor identificatie met beschikbare technologie. Pas wanneer heridentificatie onevenredig veel moeite zou kosten, kan de dataset als anoniem worden beschouwd.
Wanneer kan je iets als anoniem aanmerken?
- Uitsluitend wanneer de voor de verwerking verantwoordelijke de gegevens dermate samenvoegt (aggregeert) dat de individuele gebeurtenissen niet langer identificeerbaar zijn, kan de resulterende dataset als anoniem worden aangemerkt.
- Bv. Wanneer een verwerkingsverantwoordelijke de originele (identificeerbare) gegevens niet verwijdert op gebeurtenisniveau, en een deel van die dataset doorgeeft (bijvoorbeeld na het verwijderen of maskeren/afschermen van identificeerbare gegevens), de resulterende dataset nog steeds valt onder de noemer van persoonsgegevens.
Gevaar gepseudonimiseerde dataset
- Wordt gedacht dat het anoniem is als de verwerkingsverantwoordelijke enkel de rechtstreekse identificatoren (zoals de naam van de personen) wijzigt, blijven de betrokkenen identificeerbaar zolang de dataset nog quasi-identificatoren bevat, dan wel andere waarden of attributen waarmee een persoon kan worden geïdentificeerd.
- Vaak kan een persoon in een gepseudonimiseerde dataset even gemakkelijk worden geïdentificeerd als met de oorspronkelijke gegevens.
Waarom moeilijk om een anonieme dataset te creëren?
- Omdat je de onderliggende informatie nodig hebt waardoor het belang van de dataset verminderd.
- Anonieme dataset kan gecombineerd worden met andere dataset om personen te achterhalen.
Anonimiseringstechnieken
- Geen enkele techniek is perfect: afweging tussen:
- Bruikbaarheid data
- Privacybescherming
- Bv. ruis toevoegen aan foto’s.
Hoe moeten we “identificatie” begrijpen?
- Mogelijkheid om iemands naam en/of adres te achterhalen, maar ook identificeerbaarheid door gegevens te herleiden tot de persoon, met elkaar in verband te brengen en af te leiden.
3 risico’s bij anonimiseringsproces?
- Herleidbaarheid (singling out) = mogelijkheid om een persoon in de dataset te individualiseren.
- Koppelbaarheid (linkability) = mogelijkheid om minstens 2 records over dezelfde betrokkene met elkaar in verband te brengen (in dezelfde of 2 verschillende databases). Je kan dit niet volstaan maar wel de herleidbaarheidstest.
- Deduceerbaarheid (inference) = de mogelijkheid om persoonsgebonden informatie af te leiden.
Wat moet een anonimiseringsoplossing doen?
- Die 3 risico’s uitsluiten → dan voldoende bestand tegen heridentificatie op basis van de meest waarschijnlijke en redelijk middelen = voldoet aan de wettelijke redelijkheidstoets.
- Maar: geen enkele techniek is vrij van tekortkomingen
Technieken anonimisering
- Randomiseren
- Generaliseren
Quasi-identificatoren
Combinaties van attributen die verband houden met een betrokkene of een groep betrokkenen.
Wat is een aanvaller
- = een derde (dus niet de verwerkingsverantwoordelijke, noch de gegevensverwerker) die per ongeluk of opzettelijk toegang krijgt tot de oorspronkelijke records.
Wat is randomisatie?
- Groep technieken waarmee gegevens worden gewijzigd om ze lost te koppelen van een persoon. Als de gegevens voldoende at random zijn (dat wil zeggen willekeurig of onbepaald), is het niet langer mogelijk om ze te herleiden tot een specifieke persoon.
Wat met de uniciteit?
- Door randomisatie wordt de uniciteit of eenduidigheid van elke record niet verminderd: er bestaat nog steeds een één-op-éénrelatie tussen de record en de betrokkene.
Waartegen biedt randomisatie wel bescherming?
- Deductieve aanvallen en risico’s van deduceerbaarheid verminderen. Door randomisatie te combineren met generalisatietechnieken worden betere privacywaarborgen geboden.
Ruistoevoeging
- Vooral nuttig wanneer attributen belangrijke negatieve gevolgen kunnen hebben voor personen → attributen gewijzigd om ze minder nauwkeurig te maken maar wel met behoud van de algemene verdeling.
- De waarden blijven accuraat, maar tot een bepaalde hoogte: bv. +-10 cm terwijl de originele data tot op de cm nauwkeurig was.
Wat is de combinatie ruis en anonimiseringstechnieken?
- Ruistoevoeging wordt gecombineerd met andere technieken: verwijderen van doorzichtige attributen en quasi-identificatoren.
Hoe omvang ruis bepalen?
- Vereiste informatiegehalte en het effect van de bekendmaking van beveiligde attributen op de individuele privacy.
Privacywaarborgen en ruis?
- Herleidbaarheid: blijft mogelijk om ze te herleiden, maar mogelijk zonder identiteit van een persoon te kunnen vaststellen.
- Koppelbaarheid: records van dezelfde persoon maar de records zijn minder betrouwbaar. In sommige gevallen kan een betrokkene bij een onjuiste attributie aanzienlijk meer risico lopen dan wanneer de records juist worden geattribueerd.
- Deduceerbaarheid: slaagkans lager en foutpositieven zijn mogelijk.
Permutatie
- = attribuutwaarden in een tabel in een willekeurige volgorde van plaats verwisselen zodat bepaalde waarden op kunstmatige wijze worden gekoppeld aan andere betrokkenen.
Wanneer is permutatie nuttig?
Wanneer de exacte verdeling van elk attribuut binnen de dataset behouden moet blijven.
Permutatie als bijzondere vorm van ruistoevoeging
- Attributen gewijzigd met aselecte (gerandomiseerde) waarden zonder voorspelbaar patroon. Het kan een hele opgave zijn op consistente wijze ruis te genereren.
- Bovendien is dit geen privacyveilige oplossing wanneer alleen de attribuutwaarden in geringe mate worden veranderd.
Waarvoor zorgt permutatie?
- Bereik en de verdeling van de waarden blijft identiek, maar de correlaties tussen de waarden en personen veranderen.
- Als er tussen 2 of meer attributen een logische relatie of statistische correlatie bestaat → verloren wanneer de attributen onafhankelijk van elkaar van plaats worden verwisseld (gepermuteerd)
- Daarom moeten we de logisch volgorde behouden, ander kan een aanvaller de anders geordende attributen identificeren en de permutatie ongedaan maken
Is permutatie voldoende voor anonimiteit?
- Doorgaans bestaat er een sterke logische relatie die de waarden aan elkaar koppelt. Wordt slechts één van die waarden van plaats verwisseld, dan kan een aanvaller die permutatie opsporen en zelfs terugdraaien.
- Net als bij ruistoevoeging is permutatie op zich niet voldoende om gegevens anoniem te maken. Het is ook van belang dat doorzichtige attributen/quasi-identificatoren worden verwijderd.