Jan Riis

Kjeld Froberg

Cases

Pseudonymisering af Sundhedsdata

21. januar 2017

[printfriendly current='yes']

I Lakeside har vi sammen med Sundhedsdatastyrelsen udarbejdet en rapport, der indeholder en række principper og metoder til håndtering af følsomme sundhedsdata.

Hver dag bevæger enorme mængder af data sig imellem systemer og institutioner i det danske sundhedsvæsen. Disse data er af særlig følsom karakter, da de indeholder personlige oplysninger om fx sygdoms- og behandlingsforløb, medicinering og andre helbredsmæssige forhold. Derfor må informationssikkerhed omkring sundhedsdata også betragtes som et af digitaliseringens vigtigste indsatsområder. Hos Sundhedsdatastyrelsen er de udfordringer, der er forbundet med håndtering af borgernes data et tilbagevendende emne, om hvilket Pia Jespersen, Chefkonsulent for Compliance, Sikkerhed og Internationale relationer hos Sundhedsdatastyrelsen, bemærker:

“Sundhedsdatastyrelsen har ansvaret for en stor mængde oplysninger om borgernes helbred. De bliver blandt andet brugt til videnskabelige undersøgelser, som skal give ny viden og bedre behandling til patienterne. Men det er vigtigt for os, at oplysningerne ikke kan blive misbrugt eller ved et uheld komme til uvedkommendes kendskab.”

Opgaven

Principper og metoder til håndtering af følsomme sundhedsdata hos sundhedsdatastyrelsen.

I forbindelse med bl.a. den kommende EU persondataforordning, der træder i kraft fra og med 2018, bad Sundhedsdatastyrelsen i efteråret 2016 Lakeside om at udarbejde en række anvisninger, der kunne bruges til at imødekomme EU-forordningens skærpede krav. Pia Jespersen udtaler: “Vi ville gerne have fastlagt nogle principper for pseudonymisering, som skulle gælde alle de sundhedsdata, vi stiller til rådighed.”

Dertil ligger Sundhedsdatastyrelsen generelt stor vægt på, at man for så vidt muligt baserer it-løsninger på gældende internationale standarder. Lakesides indsats byggede vi op omkring materiale og anbefalinger angående pseudonymisering fra bl.a. EU, NIST og med afsæt i ISO25237:2008. Målet var, at belyse de fordele og ulemper pseudonymisering giver i forhold til Sundhedsdatastyrelsens udgangspunkt og ønsker for fremtiden, hvilket bl.a. berører muligheden for fortsat at benytte sundhedsdata til forskning.

Vores bidrag

Fastlæggelse af principper til pseudonymisering af sundhedsdata.

Målet var, at belyse de fordele og ulemper pseudonymisering giver i forhold til Sundhedsdatastyrelsens udgangspunkt og ønsker for fremtiden, hvilket bl.a. berører muligheden for fortsat at benytte sundhedsdata til forskning.

Vores kortlægning kastede to primære konklusioner af sig;

Pseudonymisering anbefales frem for en metode der anvender anonymisering
Hverken pseudonymisering eller anonymisering kan helt fjerne risikoen for, at data er personhenførbare (dvs. kan bruges til at udpege personen, hvis data der er tale om)

Anonymisering vil typisk være den mest effektive måde at sikre integriteten i sine data, men eftersom de data Sundhedsdatastyrelsen råder over, bl.a. skal bruges til forskning, er det et væsentligt parameter, at data kan sammenholdes, hvilket kun er muligt ved brug af pseudonymisering. Det betyder også, at den løsning vi hos Lakeside har kunnet anbefale, og som dækker de forhold der foreskrives i persondataforordningen, er en løsning med pseudonymer med høj entropi kombineret med mapningstabeller.

SDS’S udbytte

“Inden vi igangsatte projektet, havde vi allerede flere løsninger, hvor der blev arbejdet på pseudonymiserede data. Nu vil alle data blive opbevaret med en grundlæggende pseudonymisering, og når de udleveres til et forskningsprojekt, pesudonymiseres de igen, så det ikke er muligt at koble oplysninger mellem de forskellige datasæt, der laves.” Pia Jespersen, Chefkonsulent, Sundhedsdatastyrelsen.

Pseudonymisering forklaret

Anonymisering og pseudonymisering er ikke det samme.

Anonymisering af et datasæt med persondata har til formål uigenkaldeligt at fjerne identificeringen af enkeltpersoner, så de hverken kan udskilles af selve datasættet eller ved sammenkobling med andre datasæt. Set med sikkerhedsbrillerne på er anonymisering i udgangspunktet den foretrukne løsning, men det forholder sig bare sådan, at nogle sundhedsdata anvendes til forskning, og derfor er der behov for at bl.a. Sundhedsdatastyrelsen, kan arbejde med datasættene efterfølgende. Casestudier og forskningspublikationer viser imidlertid, at det ikke er en nem opgave at skabe et helt anonymt datasæt ud fra et omfattende datasæt med personoplysninger, hvis muligheden for at analysere på og/eller at skabe statistiske resultater med afsæt i datasættet skal bevares.

Ved pesudonymisering bevares nogle af de egenskaber ved datasættet, der gør efterfølgende statistik og analyse muligt. Alene af denne grund er pseudonymisering den foretrukne løsning for en aktør som Sundhedsdatastyrelsen.

Helt konkret foregår pseudonymisering ved, at dele af et datasæt erstattes med tilsyneladende tilfældige værdier, hvorved det bliver vanskeligere at knytte datasættet til den registreredes originale identitet. Pseudonymisering giver dog i højere grad end ved anonymisering mulighed for at udskille og sammenkoble enkeltpersoners identitet på tværs af forskellige datasæt. Denne egenskab er fx nødvendig i forbindelse med statistisk monitorering, hvor udvalgte indikatorer løbende monitoreres, og hvor det kan være vigtigt at kontakte en borger, hvis disse indikatorer et til stede i et datasæt.

Når der arbejdes med datasæt der indeholder personoplysninger, dikterer sikkerhedsbekendtgørelsens §19 følgende:

“Der skal foretages maskinel registrering (logning) af alle anvendelser af personoplysninger. Registreringen skal mindst indeholde oplysning om tidspunkt, bruger, type af anvendelse og angivelse af den person, de anvendte oplysninger vedrørte, eller det anvendte søgekriterium. Loggen skal opbevares i 6 måneder, hvorefter den skal slettes. Myndigheder med et særligt behov kan opbevare loggen i op til 5 år.”

Dog uddybes det i sikkerhedsbekendtgørelsen §19 stk. 4 også:

“Bestemmelsen i stk. 1 finder endvidere ikke anvendelse, hvis behandlingen af personoplysningerne udelukkende sker med henblik på statistiske eller videnskabelige undersøgelser, og identifikationsoplysningerne forinden enten er krypteret eller erstattet med et kodenummer eller lignende. Der skal dog foretages maskinel logning af bruger og tidspunkt for behandlingen.”

Da man ved brug af pseudonymisering erstatter identifikationsoplysninger med ikke personhenførbare koder, bliver Sikkerhedsbekendtgørelsens §19 stk. 4 overholdt. Dermed giver pseudonymisering af datasæt mulighed for statistisk og forskningsrelateret arbejde med datasæt indeholdende personoplysninger i overensstemmelse med gældende lovgivning.

Det er dog vigtigt at fastslå at pseudonymiserede persondata, stadig skal behandles som persondata i forhold til persondataloven.