Genomhackere viser, at ingen DNA er anonymt længere

I 2013 chokerede en ung computerbiolog ved navn Yaniv Erlich forskningsverdenen ved at vise, at det var muligt at afsløre identiteterne på personer, der er opført i anonyme genetiske databaser, blot ved hjælp af en internetforbindelse. De politiske beslutningstagere reagerede ved at begrænse adgangen til puljer af anonymiserede biomedicinske genetiske data. En NIH-embedsmand sagde dengang: “Chancen for, at dette sker for de fleste mennesker, er lille, men den er ikke nul.”

Fast-forward fem år og mængden af DNA-informationer i digitale datalagre er eksploderet, og der er ingen tegn på, at den er ved at falde til ro. Forbrugervirksomheder som 23andMe og Ancestry har indtil videre oprettet genetiske profiler for mere end 12 millioner mennesker, ifølge de seneste skøn fra branchen. Kunder, der downloader deres egne oplysninger, kan derefter vælge at tilføje dem til offentlige slægtsforskningswebsteder som GEDmatch, der tidligere i år fik national berømmelse for sin rolle i at lede politiet til en mistænkt i sagen om Golden State Killer.

Se mere

Disse sammenkædede stamtræer, der forbinder folk via DNA-bidder, er nu blevet så store, at de kan bruges til at finde mere end halvdelen af den amerikanske befolkning. Faktisk kan mere end 60 procent af amerikanerne med europæisk afstamning ifølge ny forskning under ledelse af Erlich, der i dag offentliggøres i Science, identificeres via deres DNA ved hjælp af åbne genetiske slægtsforskningsdatabaser, uanset om de nogensinde har sendt et spytkit ind.

“Det, man kan tage med sig, er, at det er ligegyldigt, om man er blevet testet eller ikke testet,” siger Erlich, der nu er videnskabelig chef hos MyHeritage, den tredjestørste udbyder af genetiske data til forbrugere efter 23andMe og Ancestry. “Du kan blive identificeret, fordi databaserne allerede dækker så store dele af USA, i det mindste for europæisk afstamning.”

For at foretage disse skøn analyserede Erlich og hans samarbejdspartnere ved Columbia University og Hebrew University of Jerusalem MyHeritage’s datasæt med 1,28 millioner anonyme personer, der ligesom de fleste af verdens genetiske databaser er overvejende hvide. Ved at betragte hver enkelt af disse personer som et menneskeligt “mål” talte de antallet af slægtninge med store stykker matchende DNA og fandt ud af, at 60 procent af søgningerne viste en kusine på tredje linje eller tættere på. Denne grad af slægtskab var alt, hvad efterforskerne behøvede for at opspore Golden State Killer og de 17 andre sager, der indtil videre er blevet opklaret ved hjælp af denne fremgangsmåde – kendt af de retshåndhævende myndigheder som langtrækkende familiesøgning. For at validere deres resultater indsatte Erlichs hold 30 genetiske profiler i GEDmatch og så lignende resultater, idet 76 procent af søgningerne gav slægtninge i 3. fætter eller tættere på.

Denne analyse giver en liste på omkring 850 personer, afhængigt af hvor produktive en persons forfædre var. Men derfra kan grundlæggende demografiske oplysninger ret hurtigt beskære rækken. Offentlige optegnelser, der angiver, hvor en person bor inden for en radius af 160 km, halverer kandidatgruppen. Ved at kende deres alder inden for fem år udelukkes 9 ud af 10 af de resterende kandidater. Kønnet, som kan udledes af genetik, får listen ned på omkring 16 personer. Hvis man kender det nøjagtige fødselsår, kan man komme ned på blot en eller to personer.

For at demonstrere, hvor let det er, valgte forskerne en anonym kvindelig person fra 1000 Genomes Project – et sekventeringsprojekt med åben adgang – som var gift med den mand, som Erlich tidligere havde identificeret i sin storskrift fra 2013. De omformaterede hendes DNA-data, så de ligner en typisk genetisk profil for forbrugere, og uploadede dem til GEDmatch. Der dukkede to slægtninge op, en i North Dakota og en i Wyoming. Matchet viste, at de var fjernt beslægtede fire til seks generationer tilbage. En time senere havde holdet fundet deres ægtepar ved at finkæmme offentlige registre og fundet deres mand og kone. Herefter sporede forskerne hundredvis af efterkommeres stamtavler for at finde frem til identiteten på deres mål. Alt i alt tog indsatsen en enkelt dag.

Ifølge Erlich vil det ikke vare længe, før det er muligt at foretage den slags søgninger på alle, der efterlader en smule DNA liggende. Undersøgelsen viste, at når en genetisk database først dækker omkring to procent af de voksne i en given etnisk befolkningsgruppe, kan man forvente et match af en kusine på tredje linje eller tættere på for næsten enhver person af interesse. For amerikanere af europæisk afstamning, som er bedre repræsenteret i genetiske og genealogiske databaser, kan denne tærskel nås i løbet af de næste par år, hvis de rekreative DNA-tests fortsætter i det nuværende tempo. To procent er kun omkring fire millioner mennesker, baseret på de seneste amerikanske folketællingsdata.

En sådan ressource ville i høj grad udvide antallet og arten af personer, som de retshåndhævende myndigheder kunne få adgang til, når de jagter et spor. Databaser over lovovertrædere, hvor politiet gemmer DNA fra tæt på 17 millioner mennesker – dømte kriminelle og i nogle stater anholdte – er i høj grad rettet mod afroamerikanske og latinamerikanske befolkninger. Siden DNA-undersøgelsernes tidligste dage har den teknologiske uforenelighed mellem metoderne skabt en praktisk firewall mellem lovovertræderdatabaser og genetiske databaser til fritids- eller forskningsformål. Retshåndhævende myndigheder indsamler og analyserer kun meget variable ikke-kodende dele af genomet og tæller antallet af gentagelser af disse “junk”-sekvenser. Det er i bund og grund bare en række tal – det afslører ikke noget personligt identificerbart i sig selv. Men det er meget unikt for et individ, ligesom en stregkode eller et fingeraftryk. Og det er billigt og hurtigt. Perfekt til retshåndhævelsesformål.

De fleste medicinske og rekreative DNA-tests involverer derimod enten fuld sekventering eller genotype arrays – en samling af ændringer, der hver især forekommer på et enkelt sted i et gen. Disse SNP’er er grunden til, at du har grønne øjne eller krøllet hår, eller at du er disponeret for hjertesygdomme. De er også meget mere nyttige til at finde familiemedlemmer. Da disse to typer databaser ikke kunne kommunikere, måtte efterforskerne i sagen om Golden State Killer udtage DNA fra en gammel prøve fra et gerningssted, oprette en SNP-profil og uploade den til GEDmatch. Men nu behøver de ikke engang at gøre det.

En anden artikel, der blev offentliggjort i dag i Cell, viser for første gang, at det er muligt at foretage langtrækkende familiesøgninger på data fra forbryderdatabaser. Noah Rosenbergs gruppe på Stanford University havde tidligere vist, at man kunne sammenkæde registreringer mellem de to typer databaser ved at mappe nærliggende SNP’er til de ikke-kodende gentagelser. Forskningen blev offentliggjort sidste år, men fik ikke megen opmærksomhed. “Griller,” siger Rosenberg. Men dette seneste arbejde, som undersøger de to databasers krydsoverensstemmelse med hensyn til at finde slægtninge, har ny, dybtgående relevans i kølvandet på sagen om Golden State Killer.

“Dette kunne være en måde at udvide retsgenetikkens rækkevidde på og potentielt løse endnu flere uopklarede sager”, siger Rosenberg. “Men samtidig kan det udsætte deltagerne i disse databaser for retsmedicinske søgninger, som de måske ikke havde forudset.”

Den større sag er dog ifølge juridiske eksperter, at Rosenbergs arbejde afslører, at der er langt flere oplysninger i en retsmedicinsk DNA-profil, end man hidtil har troet. Det skyldes, at man kan bruge den til præcist at forudsige kodningsregioner af genomet – dele af det grønne øje, krøllet hår og hjertesygdomme – med nøjagtighed. “Alle højesteretsafgørelser om, hvorfor eksisterende databaser over lovovertrædere ikke krænker rettighederne i henhold til fjerde tillægsforordning, er alle baseret på den antagelse, at der ikke kan uddrages noget personligt fra dette junk-DNA”, siger Andrea Roth, direktør for UC Berkeley’s Center for Law and Technology. “Nu er det hele ude i luften.”

Rosenberg har ikke frigivet nogen software sammen med sin artikel, så det vil stadig kræve noget arbejde at få beregningen op at køre. Men han siger, at alle med adgang til flere databaser har alle de oplysninger, de skal bruge for at begynde at bruge teknikken. Hvilket betyder, at de indbyggede sikkerhedsforanstaltninger til beskyttelse af privatlivets fred kan smuldre ret hurtigt. Papiret er ment som et advarselsskud for at vise politikerne, hvad der er muligt med dagens teknologi, og Rosenberg håber, at det ansporer til tiltrængte samtaler om, hvordan genetiske oplysninger lagres og bruges fremover.

Erlich og hans medforfattere gik endnu længere og kom med anbefalinger om, hvilke ændringer der er nødvendige for at sikre, at ressourcer som GEDmatch, der yder en vigtig service til folk, der leder efter for længst forsvundne slægtninge og adopterede, der leder efter deres biologiske familier, forbliver online på en sikker måde. De opfordrede indtrængende det amerikanske Department of Human Services til at revidere omfanget af personligt identificerbare sundhedsoplysninger, så de også omfatter anonymiserede genomiske data. Og de skitserede en krypteringsstrategi, der ville skabe en kæde af opbevaring, så tredjepartsdatabaser kunne markere brugere, der forsøger at analysere genetiske data, som ikke er deres egne. Men selv hvis alle udbydere af genomforskning til forbrugere købte sig ind i dette system, er det måske stadig ikke nok.

“Jeg tror, at bundlinjen er, at nu er alle ved at være under genetisk overvågning på den ene eller anden måde, medmindre vi regulerer regeringens mulighed for at foretage genealogiske søgninger,” siger Roth. Hun foreslår et system, der svarer til den måde, hvorpå Californien i øjeblikket regulerer mere traditionelle familiesøgninger i sine databaser over lovovertrædere. De kan kun bruges til at efterforske voldsforbrydelser – drab eller seksuelle overgreb – og søgningen er begrænset for at forhindre, at hundredvis af uskyldige mennesker bliver indfanget i efterforskningen. Og der er et tilsynsudvalg, som kan gribe ind og forhindre utilsigtet afsløring af følsomme oplysninger, der kan opstå, f.eks. at en persons far ikke er den pågældendes rigtige far. “Det er det, der er så ironisk ved dette”, siger Roth. “Hvis du er slægtning til en person i CODIS , har du langt flere rettigheder til genetisk privatlivets fred, end hvis du er slægtning til en person i GEDMatch.” Med tilstrækkeligt med DNA er det ligegyldigt, om du ønsker at blive fundet eller ej. Det er ikke længere en mulighed at fravælge det.

Mere store WIRED-historier

Så meget genetisk testning, så få mennesker til at forklare dig det
Når teknologien kender dig bedre, end du kender dig selv
Disse magiske solbriller blokerer alle skærme omkring dig
Alt du behøver at vide om online konspirationsteorier
Ind i Black Mirror-verdenen med polygrafiske jobscreeninger
Søger du efter mere? Tilmeld dig vores daglige nyhedsbrev og gå aldrig glip af vores nyeste og bedste historier

Mere store WIRED-historier

Skriv et svar Annuller svar