Genomhuggare visar att ingens DNA är anonymt längre

2013 chockade en ung datorbiolog vid namn Yaniv Erlich forskarvärlden genom att visa att det var möjligt att avslöja identiteterna hos personer i anonyma genetiska databaser med hjälp av endast en internetanslutning. Politikerna reagerade genom att begränsa tillgången till pooler av anonymiserade biomedicinska genetiska data. En tjänsteman vid NIH sade då: ”Chansen att detta ska hända för de flesta människor är liten, men den är inte noll.”

Fast forward fem år och mängden DNA-information i digitala datalagren har exploderat och det finns inga tecken på att den kommer att avta. Konsumentföretag som 23andMe och Ancestry har hittills skapat genetiska profiler för mer än 12 miljoner människor, enligt färska uppskattningar från branschen. Kunder som laddar ner sin egen information kan sedan välja att lägga till den på offentliga släktforskningswebbplatser som GEDmatch, som fick nationell ryktbarhet tidigare i år för att ha lett polisen till en misstänkt i fallet med Golden State Killer.

Se mer

Dessa sammanhängande släktträd, som kopplar samman människor genom DNA-bitar, har nu vuxit sig så stora att de kan användas för att hitta mer än hälften av den amerikanska befolkningen. Enligt ny forskning som leddes av Erlich och som idag publiceras i Science kan mer än 60 procent av amerikanerna med europeisk härstamning identifieras genom sitt DNA med hjälp av öppna genetiska släktforskningsdatabaser, oavsett om de någonsin har skickat in en spottkopp.

”Det som man kan dra nytta av är att det inte spelar någon roll om du har testats eller inte testats”, säger Erlich som numera är vetenskaplig chef på MyHeritage, den tredje största leverantören av genetiska tjänster för konsumenter efter 23andMe och Ancestry. ”Du kan identifieras eftersom databaserna redan täcker så stora delar av USA, åtminstone när det gäller europeisk härstamning.”

För att göra dessa uppskattningar analyserade Erlich och hans medarbetare vid Columbia University och Hebreiska universitetet i Jerusalem MyHeritages dataset med 1,28 miljoner anonyma individer, som i likhet med de flesta av världens genetiska databaser till övervägande del är vita. De betraktade var och en av dessa individer som ett mänskligt ”mål” och räknade antalet släktingar med stora delar av matchande DNA och fann att 60 procent av sökningarna visade på en kusin i tredje led eller närmare. Denna nivå av släktskap var allt som utredarna behövde för att spåra upp Golden State Killer och de 17 andra fall som hittills har lösts med hjälp av detta tillvägagångssätt, som inom brottsbekämpningen kallas långväga familjesökning. För att bekräfta sina resultat lade Erlichs team in 30 genetiska profiler i GEDmatch och fick liknande resultat, med 76 procent av sökningarna som gav släktingar i tredje kusin eller närmare.

Den analysen ger en lista med cirka 850 personer, beroende på hur produktiva en persons förfäder var. Men därifrån kan man med grundläggande demografisk information ganska snabbt rensa uppställningen. Offentliga register som visar var en person bor inom en radie av 160 kilometer halverar kandidatpoolen. Om man vet hur gammal personen är inom fem år utesluts nio av tio av de återstående kandidaterna. Könet, som kan härledas från genetik, minskar listan till cirka 16 personer. Om man känner till det exakta födelseåret kan man komma ner till bara en eller två personer.

För att visa hur lätt det är valde forskarna en anonym kvinnlig person från 1000 Genomes Project – ett sekvenseringsprojekt med öppen tillgång – som var gift med den man som Erlich tidigare hade identifierat i sin succéartikel från 2013. De omformaterade hennes DNA-data så att de liknade en typisk genetisk profil för konsumenter och laddade upp den till GEDmatch. Två släktingar dök upp, en i North Dakota och en i Wyoming. Matchningen tydde på att de var släkt på långt håll fyra till sex generationer bakåt i tiden. Efter en timmes grävande i offentliga register hade teamet hittat sin man och hustru. Därefter spårade forskarna hundratals släktingars stamtavlor för att komma fram till vem som var deras måltavla. Allt som allt tog det hela en enda dag.

Enligt Erlich kommer det inte att dröja länge innan det blir möjligt att göra den här typen av sökning på alla som lämnar lite DNA liggande. Studien visade att när en genetisk databas väl täcker ungefär två procent av de vuxna i en viss etnisk population kan man förvänta sig en matchning med en kusin i tredje led eller närmare för nästan alla personer av intresse. För amerikaner med europeisk härstamning, som är bättre representerade i genetiska och genealogiska databaser, kan den tröskeln nås under de närmaste åren om fritids-DNA-testerna fortsätter i nuvarande takt. Två procent är bara cirka fyra miljoner människor, baserat på de senaste uppgifterna från USA:s folkräkning.

En sådan resurs skulle kraftigt öka antalet, och typen av människor, som brottsbekämpande myndigheter skulle kunna ha tillgång till när de jagar ett spår. Databaser över brottslingar, där polisen lagrar DNA från nära 17 miljoner människor – dömda brottslingar och, i vissa stater, arresterade – är starkt inriktade på afroamerikanska och latinamerikanska befolkningar. Sedan DNA-testernas första dagar har den tekniska inkompatibiliteten mellan metoderna skapat en praktisk brandvägg mellan databaser över brottslingar och genetiska databaser för rekreations- eller forskningsändamål. Brottsbekämpande myndigheter samlar endast in och analyserar mycket varierande icke-kodande delar av arvsmassan och räknar antalet gånger som dessa ”skräpsekvenser” upprepas. Det är i princip bara en sifferkedja – den avslöjar inget personligt identifierbart i sig själv. Men den är mycket unik för en individ, som en streckkod eller ett fingeravtryck. Och det är billigt och snabbt. Perfekt för brottsbekämpning.

Däremot innebär de flesta medicinska och fritids-DNA-tester antingen fullständig sekvensering eller genotypartiklar – en samling förändringar som var och en sker på en enda plats i en gen. Dessa SNPs är anledningen till att du har gröna ögon eller lockigt hår, eller att du är predisponerad för hjärtsjukdomar. De är också mycket mer användbara för att hitta familjemedlemmar. Eftersom dessa två typer av databaser inte kunde kommunicera var utredarna i fallet med Golden State Killer tvungna att extrahera DNA från ett gammalt prov från brottsplatsen, skapa en SNP-profil och ladda upp den till GEDmatch. Men nu behöver de inte ens göra det.

En annan artikel, som i dag publiceras i Cell, visar för första gången att det är möjligt att göra släktskapssökningar med lång räckvidd på data från databaser över gärningsmän. Noah Rosenbergs grupp vid Stanford University hade tidigare visat att man kunde koppla ihop poster mellan de två typerna av databaser, genom att mappa närliggande SNPs till de icke-kodande upprepningarna. Forskningen publicerades förra året och fick inte mycket uppmärksamhet. ”Syrsor”, säger Rosenberg. Men det senaste arbetet, där man undersöker om de två databaserna är kompatibla med varandra när det gäller att hitta släktingar, har en ny, djupgående relevans i kölvattnet av fallet med Golden State Killer.

”Det här skulle kunna vara ett sätt att utvidga räckvidden för den rättsmedicinska genetiken, vilket skulle kunna leda till att ännu fler kalla fall kan lösas”, säger Rosenberg. ”Men samtidigt kan det utsätta deltagarna i dessa databaser för rättsmedicinska sökningar som de kanske inte hade räknat med.”

Enligt juridiska experter är dock den större saken att Rosenbergs arbete avslöjar att det finns mycket mer information i en rättsmedicinsk DNA-profil än vad man tidigare trott. Det beror på att man kan använda den för att exakt förutsäga kodningsregioner i genomet – de delar som rör gröna ögon, lockigt hår och hjärtsjukdomar. ”Alla Högsta domstolens beslut om varför befintliga databaser över brottslingar inte bryter mot fjärde tillägget bygger alla på antagandet att inget personligt kan utläsas ur detta skräp-DNA”, säger Andrea Roth, chef för UC Berkeleys Center for Law and Technology. ”Nu är allt det där uppe i luften.”

Rosenberg släppte ingen mjukvara tillsammans med sin artikel, så det krävs fortfarande en del arbete för att få beräkningen att fungera. Men han säger att alla som har tillgång till flera databaser har all information de behöver för att börja använda tekniken. Vilket innebär att de inbyggda integritetsskydden kan smulas sönder ganska snabbt. Dokumentet är tänkt som ett varningsskott, för att visa beslutsfattare vad som är möjligt med dagens teknik, och Rosenberg hoppas att det ger upphov till välbehövliga samtal om hur genetisk information lagras och används framöver.

Erlich och hans medförfattare gick till och med längre och gav rekommendationer om vilka förändringar som är nödvändiga för att se till att resurser som GEDmatch, som tillhandahåller en viktig tjänst för människor som söker efter släktingar som försvunnit för länge sedan och för adopterade som letar efter sin biologiska familj, förblir online i en säker kapacitet. De uppmanade USA:s Department of Human Services att se över omfattningen av personligt identifierbar hälsoinformation för att inkludera anonymiserade genomdata. Och de beskrev en krypteringsstrategi som skulle skapa en vårdkedja, så att databaser från tredje part skulle kunna flagga användare som försöker analysera genetiska data som inte är deras egna. Men även om varje leverantör av konsumentgenomik skulle köpa in sig i detta system skulle det kanske ändå inte räcka.

”Jag tror att det viktigaste är att alla nu är på väg att hamna under genetisk övervakning på ett eller annat sätt, om vi inte reglerar regeringens möjlighet att genomföra genealogiska sökningar”, säger Roth. Hon föreslår ett system som liknar det som Kalifornien för närvarande reglerar mer traditionella familjesökningar i sina databaser över brottslingar. De kan bara användas för att utreda våldsbrott – mord eller sexuella övergrepp – och sökningens omfattning är begränsad för att förhindra att hundratals oskyldiga människor hamnar i kläm i utredningen. Och det finns en övervakningskommitté som kan ingripa och förhindra oavsiktligt avslöjande av känslig information som kan uppstå, t.ex. att någons far inte är hans riktiga far. ”Det är det som är så ironiskt med detta”, säger Roth. ”Om du är släkt med någon i CODIS har du mycket större rätt till genetisk integritet än om du är släkt med någon i GEDMatch.” Med tillräckligt med DNA spelar det ingen roll om du vill bli hittad eller inte. Att välja bort är inte längre ett alternativ.

Mer fantastiska WIRED-historier

Så mycket genetiska tester, så få människor som kan förklara det för dig
När tekniken känner dig bättre än du känner dig själv
Dessa magiska solglasögon blockerar alla skärmar runt omkring dig
Allt du behöver veta om konspirationsteorier på nätet
Inför Black Mirror-världen av polygrafiska jobbscreeningar
Har du lust till mer? Anmäl dig till vårt dagliga nyhetsbrev och missa aldrig våra senaste och bästa historier

Mer fantastiska WIRED-historier

Lämna ett svar Avbryt svar