Pseudonymisering af sundhedsdata – Principper og metoder

Lakeside henter to nye PRINCE2-certificeringer
16. december 2016
Lakeside har været til CMMI eksamen… og bestod!
28. februar 2017

 

I Lakeside har vi sammen med Sundhedsdatastyrelsen udarbejdet en rapport, der indeholder en række principper og metoder til håndtering af følsomme sundhedsdata, og deler i dette blogindlæg ud af det, som vi mener, er de væsentligste indsigter fra forløbet.

Hver dag bevæger enorme mængder af data sig imellem systemer og institutioner i det danske sundhedsvæsen. Disse data er af særlig følsom karakter, da de indeholder personlige oplysninger om fx sygdoms- og behandlingsforløb, medicinering og andre helbredsmæssige forhold. Derfor må informationssikkerhed omkring sundhedsdata også betragtes som et af digitaliseringens vigtigste indsatsområder. Hos Sundhedsdatastyrelsen er de udfordringer, der er forbundet med håndtering af borgernes data et tilbagevendende emne, om hvilket Pia Jespersen, Chefkonsulent for Compliance, Sikkerhed og Internationale relationer hos Sundhedsdatastyrelsen, bemærker:

Sundhedsdatastyrelsen har ansvaret for en stor mængde oplysninger om borgernes helbred. De bliver blandt andet brugt til videnskabelige undersøgelser, som skal give ny viden og bedre behandling til patienterne. Men det er vigtigt for os, at oplysningerne ikke kan blive misbrugt eller ved et uheld komme til uvedkommendes kendskab.

Pia Jespersen, Chefkonsulent, Sundhedsdatastyrelsen

I denne konkrete opgave fik Lakeside til opgave at kortlægge en række principper og metoder til pseudonymisering af data; et tiltag der skal mindske muligheden for at data kompromitteres. Pia Jespersen forklarer:

For at beskytte borgernes data har vi valgt, at alle oplysninger skal pseudonymiseres. På den måde kan man ikke direkte se, hvem oplysningerne vedrører, men man har stadig mulighed for at genskabe identiteten på de personer, der f.eks. indgår i et forskningsprojekt, hvis det f.eks. viser sig, at der kan være tale om en arvelig lidelse, og man har mulighed for at finde frem til og behandle nogle mennesker, som måske ellers ville komme for sent i behandling.

Pia Jespersen, Chefkonsulent, Sundhedsdatastyrelsen

Baggrund for opgaven

I forbindelse med bl.a. den kommende EU persondataforordning, der træder i kraft fra og med 2018, bad Sundhedsdatastyrelsen i efteråret 2016 Lakeside om at udarbejde en række anvisninger, der kunne bruges til at imødekomme EU-forordningens skærpede krav. Pia Jespersen udtaler: “Vi ville gerne have fastlagt nogle principper for pseudonymisering, som skulle gælde alle de sundhedsdata, vi stiller til rådighed. Dertil lægger Sundhedsdatastyrelsen stor vægt på, at man for så vidt muligt baserer it-løsninger på gældende internationale standarder”. Lakesides indsats byggede vi op omkring materiale og anbefalinger angående pseudonymisering fra bl.a. EU, NIST og med afsæt i ISO25237:2008. Målet var, at belyse de fordele og ulemper pseudonymisering giver i forhold til Sundhedsdatastyrelsens udgangspunkt og ønsker for fremtiden, hvilket bl.a. berører muligheden for fortsat at benytte sundhedsdata til forskning.

Vores kortlægning kastede to primære konklusioner af sig;

  • Pseudonymisering anbefales frem for en metode der anvender anonymisering
  • Hverken pseudonymisering eller anonymisering kan helt fjerne risikoen for, at data er personhenførbare (dvs. kan bruges til at udpege personen, hvis data der er tale om)

Anonymisering vil typisk være det mest effektive måde at sikre integriteten i sine data, men eftersom de data Sundhedsdatastyrelsen råder over bl.a. skal bruges til forskning, er det et væsentligt parameter, at data kan sammenholdes, hvilket kun er muligt ved brug af pseudonymisering. Det betyder også, at den løsning vi hos Lakeside har kunnet anbefale, og som dækker de forhold der foreskrives i persondataforordningen, er en løsning med pseudonymer med høj entropi kombineret med mapningstabeller.

I det følgende beskriver vi nogle af de forhold vores undersøgelse redegjorde for, og introducerer nogle af de begreber og koncepter, der lå til grund for vores konklusioner.

Anonymisering eller pseudonymisering?

Anonymisering af et datasæt med persondata har til formål uigenkaldeligt at fjerne identificeringen af enkeltpersoner, så de hverken kan udskilles af selve datasættet eller ved sammenkobling med andre datasæt. Set med sikkerhedsbrillerne på er anonymisering i udgangspunktet den foretrukne løsning, men det forholder sig bare sådan, at nogle sundhedsdata anvendes til forskning, og derfor er der behov for at bl.a. Sundhedsdatastyrelsen, kan arbejde med datasættene efterfølgende. Casestudier og forskningspublikationer viser imidlertid, at det ikke er en nem opgave at skabe et helt anonymt datasæt ud fra et omfattende datasæt med personoplysninger, hvis muligheden for at analysere på og/eller at skabe statistiske resultater med afsæt i datasættet skal bevares.

Ved pesudonymisering bevares nogle af de egenskaber ved datasættet, der gør efterfølgende statistik og analyse muligt. Alene af denne grund er pseudonymisering den foretrukne løsning for en aktør som Sundhedsdatastyrelsen.

Helt konkret foregår pseudonymisering ved, at dele af et datasæt erstattes med tilsyneladende tilfældige værdier, hvorved det bliver vanskeligere at knytte datasættet til den registreredes originale identitet. Pseudonymisering giver dog i højere grad end ved anonymisering mulighed for at udskille og sammenkoble enkeltpersoners identitet på tværs af forskellige datasæt. Denne egenskab er fx nødvendig i forbindelse med statistisk monitorering, hvor udvalgte indikatorer løbende monitoreres, og hvor det kan være vigtigt at kontakte en borger, hvis disse indikatorer et til stede i et datasæt.

ASYMMETRISK KRYPTERING – Kryptering med nøgler er en asymmetrisk kryptering, hvor der bliver brugt to forskellige, men matematisk sammenkoblede nøgler (helt konkret en offentlig og en privat nøgle). Begge nøgler kan kryptere data, men kun den øvrige nøgle i nøglesættet kan dekryptere data. I praksis vil den offentlige nøgle blive brugt til at grundpseudonymisere data.

 

Regulative forhold

Når der arbejdes med datasæt der indeholder personoplysninger, dikterer Sikkerhedsbekendtgørelsens §19 følgende:

Der skal foretages maskinel registrering (logning) af alle anvendelser af personoplysninger. Registreringen skal mindst indeholde oplysning om tidspunkt, bruger, type af anvendelse og angivelse af den person, de anvendte oplysninger vedrørte, eller det anvendte søgekriterium. Loggen skal opbevares i 6 måneder, hvorefter den skal slettes. Myndigheder med et særligt behov kan opbevare loggen i op til 5 år.

Dog uddybes det i Sikkerhedsbekendtgørelsen §19 stk. 4 også:

Bestemmelsen i stk. 1 finder endvidere ikke anvendelse, hvis behandlingen af personoplysningerne udelukkende sker med henblik på statistiske eller videnskabelige undersøgelser, og identifikationsoplysningerne forinden enten er krypteret eller erstattet med et kodenummer eller lignende. Der skal dog foretages maskinel logning af bruger og tidspunkt for behandlingen.

Da man ved brug af pseudonymisering erstatter identifikationsoplysninger med ikke personhenførbare koder, bliver Sikkerhedsbekendtgørelsens §19 stk. 4 overholdt. Dermed giver pseudonymisering af datasæt mulighed for statistisk og forskningsrelateret arbejde med datasæt indeholdende personoplysninger i overensstemmelse med gældende lovgivning.

Det er dog vigtigt at fastslå at pseudonymiserede persondata, stadig skal behandles som persondata i forhold til persondataloven.

Hvorfor er pseudonymisering vigtigt?

Et datasæt med personhenførbar data består per definition af:

  • identificerende data (dvs. informationer der kan bruges til at identificere en person direkte), og
  • selve de data som datasættet omfatter (fx sygdoms- eller medicinhistorik, laboratoriesvar, placeringshistorik eller lign.)

Identificerende data kan enten være direkte eller indirekte identificerende – såkaldte kvasi-identifikatorer. Direkte identificerende data kan være CPR-numre, erstatnings CPR-numre, navne og adresser, hvor kvasiidentifikatorer kan være fødselsdatoer, køn og postnumre, eller diagnosekoder i samspil. Et eksempel kan være følgende data:

  • ICD-10 kode: S88-012 (amputeret venstre underben)
  • Køn: Mand
  • Postnummer: 8592, Anholt

Disse vil med stor sandsynlighed kunne medvirke til identifikation af en given borger.

Vigtigheden i ovenstående er selvfølgeligt, at det er væsentligt, at vi hver især kan stole trygt på at vores identitet og sygdomshistorik forbliver bag lås og slå. For det andet hviler kvaliteten af den behandling, som sundhedsvæsenet kan tilbyde i nogen udstrækning på forskning. Da pseudonymisering i forhold til andre metoder tillader fortsat forskning, er metoden det mest oplagte valg i forhold til at sikre såvel privatlivets fred som sundhedssektorens mulighed for at forske.

Sundhedsdatastyrelsens udbytte

Som følge af kortlægningen af disse principper og metoder føler Sundhedsdatastyrelsen nu, at de står stærkere på området for pseudonymisering:

Inden vi igangsatte projektet, havde vi allerede flere løsninger, hvor der blev arbejdet på pseudonymiserede data. Nu vil alle data blive opbevaret med en grundlæggende pseudonymisering, og når de udleveres til et forskningsprojekt, pesudonymiseres de igen, så det ikke er muligt at koble oplysninger mellem de forskellige datasæt, der laves.

Pia Jespersen, Chefkonsulent, Sundhedsdatastyrelsen

I forlængelse heraf gøres det klart, at man fra Sundhedsdatastyrelsens side håber at den valgte løsning, der implementeres på Sunddataplatformen, vil kunne anvendes bredere i det danske sundhedsvæsen – en udvikling vi i Lakeside håber at kunne følge fremover.

 
Kjeld Froberg
Kjeld Froberg
Kjeld Froberg er seniorkonsulent hos Lakeside, og har sine spidskompetencer indenfor systemintegration og sikkerhed, med fokus på konformitet til gængse standarder.