Deze in elkaar grijpende stambomen, die mensen met elkaar verbinden via stukjes DNA, zijn nu zo groot geworden dat ze kunnen worden gebruikt om meer dan de helft van de Amerikaanse bevolking te vinden. Volgens nieuw onderzoek onder leiding van Erlich, dat vandaag in Science is gepubliceerd, kan meer dan 60 procent van de Amerikanen met Europese voorouders via hun DNA worden geïdentificeerd met behulp van open genetische genealogiedatabases, ongeacht of ze ooit een spuugkit hebben ingestuurd.
“Het maakt niet uit of je wel of niet bent getest,” zegt Erlich, die nu chief science officer is bij MyHeritage, de op twee na grootste aanbieder van genetica voor consumenten, na 23andMe en Ancestry. “Je kunt worden geïdentificeerd omdat de databases al zulke grote fracties van de VS bestrijken, althans voor Europese voorouders.”
Om deze schattingen te maken, analyseerden Erlich en zijn medewerkers aan de Columbia University en de Hebreeuwse Universiteit van Jeruzalem MyHeritage’s dataset van 1,28 miljoen anonieme individuen, die, net als de meeste genetische databases in de wereld, overweldigend blank is. Door elk van die individuen als een menselijk “doelwit” te beschouwen, telden zij het aantal verwanten met grote stukken overeenkomend DNA en ontdekten zij dat bij 60 procent van de zoekopdrachten een derde neef of dichter werd gevonden. Dat niveau van verwantschap was alles wat onderzoekers nodig hadden om de Golden State Killer op te sporen, en de 17 andere zaken die tot nu toe met deze aanpak zijn opgelost – bij de rechtshandhaving bekend als lange-afstands familial searching. Om hun bevindingen te valideren, voegde Erlich’s team 30 genetische profielen toe aan GEDmatch en zag vergelijkbare resultaten, waarbij 76 procent van de zoekopdrachten verwanten opleverde in de buurt van de derde neef of dichter.
Die analyse levert een lijst van ongeveer 850 individuen op, afhankelijk van hoe talrijk de voorouders van een persoon waren. Maar vanaf dat punt kan de line-up met behulp van demografische informatie vrij snel worden ingekort. Openbare gegevens die aangeven waar iemand binnen een straal van 100 mijl woont, halveren het aantal kandidaten. Als je hun leeftijd tot op vijf jaar weet, worden 9 van de 10 overgebleven kandidaten uitgesloten. Het geslacht, dat uit de genetica kan worden afgeleid, brengt de lijst terug tot ongeveer 16 personen. Als je het exacte geboortejaar weet, kom je tot slechts een of twee mensen.
Om aan te tonen hoe eenvoudig het is, kozen de onderzoekers een anonieme vrouw uit het 1000 Genomes Project – een open-access sequencing project – die getrouwd was met de man die Erlich eerder had geïdentificeerd in zijn blockbuster paper uit 2013. Ze herformatteerden haar DNA-gegevens zodat ze leken op een typisch genetisch consumentenprofiel en uploadden ze naar GEDmatch. Er kwamen twee familieleden naar voren, een in North Dakota en een in Wyoming. De overeenkomst suggereerde dat ze vier tot zes generaties terug verre verwant waren. Een uur later, na het doorzoeken van openbare gegevens, had het team hun man en vrouw gevonden. Van daaruit traceerden de onderzoekers de stambomen van honderden afstammelingen om tot de identiteit van hun doelwit te komen. Volgens Erlich zal het niet lang meer duren voordat iedereen die een beetje DNA laat rondslingeren, op deze manier kan worden doorzocht. Uit de studie blijkt dat wanneer een genetische databank ruwweg twee procent van de volwassenen in een bepaalde etnische populatie omvat, voor bijna elke interessante persoon een match van een derde neef of dichter te verwachten is. Voor Amerikanen van Europese afkomst, die beter vertegenwoordigd zijn in genetische en genealogische databanken, zou die drempel in de komende jaren kunnen worden bereikt als de recreatieve DNA-tests in het huidige tempo doorgaan. Twee procent is slechts ongeveer vier miljoen mensen, gebaseerd op de meest recente volkstellingsgegevens van de VS.
Een dergelijke bron zou het aantal en het soort mensen waartoe de rechtshandhaving toegang zou kunnen hebben bij het najagen van een spoor, aanzienlijk uitbreiden. Daderdatabanken, waarin de politie het DNA opslaat van bijna 17 miljoen mensen – veroordeelde misdadigers en in sommige staten arrestanten – zijn sterk gericht op Afro-Amerikaanse en Latijns-Amerikaanse bevolkingsgroepen. Sinds de begindagen van de DNA-tests heeft de technologische onverenigbaarheid van de methoden een praktische firewall gecreëerd tussen databanken van misdadigers en genetische databanken voor recreatieve of onderzoeksdoeleinden. De rechtshandhavingsinstanties verzamelen en analyseren alleen de zeer variabele niet-coderende delen van het genoom en tellen het aantal keren dat deze “junk”-sequenties zich herhalen. Het is in wezen gewoon een reeks getallen, die op zichzelf niets onthullen dat persoonlijk identificeerbaar is. Maar het is zeer uniek voor een individu, zoals een streepjescode of een vingerafdruk. En het is goedkoop en snel. Perfect voor rechtshandhavingsdoeleinden.
Bij de meeste medische en recreatieve DNA-tests gaat het daarentegen om een volledige sequentiebepaling of genotype-arrays – een verzameling veranderingen die elk op een enkele plaats in een gen voorkomen. Deze SNP’s zijn de reden dat u groene ogen of krullend haar hebt, of een aanleg voor hartaandoeningen. Ze zijn ook veel nuttiger voor het vinden van familieleden. Omdat deze twee soorten databanken niet met elkaar konden communiceren, moesten de onderzoekers in de zaak van de Golden State Killer DNA afnemen van een oud misdaadmonster, een SNP-profiel maken en dit uploaden naar GEDmatch. Maar nu hoeven ze dat niet eens meer te doen.
Een tweede paper, vandaag gepubliceerd in Cell, toont voor het eerst aan dat het mogelijk is om lange-afstand familiaire zoekopdrachten uit te voeren op gegevens uit dader databases. Noah Rosenberg’s groep aan de Stanford University had eerder aangetoond dat je records tussen de twee soorten databases aan elkaar kon koppelen, door SNP’s in de buurt in kaart te brengen op de niet-coderende herhalingen. Het onderzoek, dat vorig jaar werd gepubliceerd, kreeg niet veel aandacht. “Krekels,” zegt Rosenberg. Maar dit laatste werk, dat de kruiscompatibiliteit van de twee databases voor het vinden van verwanten onderzoekt, heeft nieuwe, diepgaande relevantie in de nasleep van de zaak van de Golden State Killer.
“Dit zou een manier kunnen zijn om de reikwijdte van forensische genetica uit te breiden, mogelijk voor het oplossen van nog meer cold cases,” zegt Rosenberg. “Maar tegelijkertijd kunnen deelnemers aan deze databases worden blootgesteld aan forensisch onderzoek dat ze misschien niet hadden verwacht.”
Volgens juridische experts is het belangrijkste echter dat het werk van Rosenberg onthult dat een forensisch DNA-profiel veel meer informatie bevat dan eerder werd gedacht. Dat komt omdat je het kunt gebruiken om nauwkeurig coderende delen van het genoom te voorspellen – de delen met groene ogen, krullend haar, hartaandoeningen. “Alle beslissingen van het Hooggerechtshof over waarom bestaande databanken van daders niet in strijd zijn met de rechten van het Vierde Amendement zijn allemaal gebaseerd op de veronderstelling dat er niets persoonlijks uit dit junk-DNA kan worden gehaald,” zegt Andrea Roth, directeur van het Centrum voor Recht en Technologie van UC Berkeley. “Nu is dat allemaal in de lucht.”
Rosenberg heeft geen software vrijgegeven bij zijn artikel, dus het zou nog wat werk kosten om de berekening aan de gang te krijgen. Maar hij zegt dat iedereen met toegang tot meerdere databases alle informatie heeft die ze nodig hebben om de techniek te gaan gebruiken. Dat betekent dat de ingebouwde privacywaarborgen vrij snel kunnen afbrokkelen. De paper is bedoeld als een waarschuwingsschot, om beleidsmakers te laten zien wat er mogelijk is met de technologie van vandaag, en Rosenberg hoopt dat het de aanzet geeft tot de broodnodige gesprekken over hoe genetische informatie wordt opgeslagen en gebruikt in de toekomst.
Erlich en zijn co-auteurs gingen zelfs nog verder en deden aanbevelingen over welke veranderingen nodig zijn om ervoor te zorgen dat bronnen zoals GEDmatch, die een essentiële dienst leveren aan mensen die op zoek zijn naar lang verloren verwanten en geadopteerden die op zoek zijn naar hun biologische familie, veilig online blijven. Zij drongen er bij het US Department of Human Services op aan de reikwijdte van persoonlijk identificeerbare gezondheidsinformatie te herzien zodat ook geanonimiseerde genomische gegevens daaronder vallen. En zij schetsten een versleutelingsstrategie die een chain of custody zou creëren, zodat databases van derden gebruikers kunnen signaleren die proberen genetische gegevens te analyseren die niet van henzelf afkomstig zijn. Maar zelfs als elke aanbieder van consumentengenomica zich bij dit systeem zou aansluiten, zou het nog steeds niet genoeg kunnen zijn.
“Ik denk dat het er nu op neerkomt dat iedereen op de een of andere manier onder genetisch toezicht komt te staan, tenzij we het vermogen van de overheid om genealogische zoekopdrachten uit te voeren reguleren,” zegt Roth. Ze stelt een systeem voor dat vergelijkbaar is met de manier waarop Californië momenteel de meer traditionele familiale opzoekingen in de databanken van zijn overtreders reguleert. Ze kunnen alleen gebruikt worden voor het onderzoeken van gewelddadige misdaden – moord of sexuele aanranding – en de reikwijdte van het onderzoek is beperkt, om te voorkomen dat honderden onschuldige mensen verstrikt raken in het onderzoek. En er is een comité van toezicht dat kan ingrijpen om te voorkomen dat er onbedoeld gevoelige informatie naar buiten komt, bijvoorbeeld dat iemands vader niet echt zijn vader is. “Dat is het ironische hieraan,” zegt Roth. “Als je een familielid bent van iemand in CODIS, heb je veel meer recht op genetische privacy dan als je een familielid bent van iemand in GEDMatch.” Met genoeg DNA, maakt het niet uit of je gevonden wilt worden of niet. Opt-out is niet langer een optie.
More Great WIRED Stories
Zoveel genetische testen, zo weinig mensen om het je uit te leggen
Wanneer tech jou beter kent dan jij jezelf
Deze magische zonnebril blokkeert alle schermen om je heen
Alles wat je moet weten over online complottheorieën
Inside the Black Mirror world of polygraph job screenings
Op zoek naar meer? Meld u aan voor onze dagelijkse nieuwsbrief en mis nooit meer onze nieuwste en beste verhalen