Vuonna 2013 nuori tietokonebiologi Yaniv Erlich järkytti tutkimusmaailmaa osoittamalla, että anonyymeihin geneettisiin tietokantoihin merkittyjen ihmisten henkilöllisyys oli mahdollista paljastaa pelkän internet-yhteyden avulla. Poliittiset päättäjät vastasivat tähän rajoittamalla pääsyä anonymisoitujen biolääketieteellisten geenitietojen kokoelmiin. Eräs NIH:n virkamies sanoi tuolloin: ”Mahdollisuudet siihen, että tämä tapahtuu useimpien ihmisten kohdalla, ovat pienet, mutta ne eivät ole nolla.”
Käännyimme viisi vuotta eteenpäin, ja digitaalisiin tietovarastoihin tallennetun DNA-tiedon määrä on kasvanut räjähdysmäisesti, eikä hidastumisen merkkejä ole näkyvissä. 23andMe:n ja Ancestryn kaltaiset kuluttajayritykset ovat alan tuoreiden arvioiden mukaan luoneet tähän mennessä geneettiset profiilit yli 12 miljoonasta ihmisestä. Asiakkaat, jotka lataavat omat tietonsa, voivat sitten halutessaan lisätä ne GEDmatchin kaltaisille julkisille sukututkimussivustoille, jotka saivat aiemmin tänä vuonna valtakunnallista mainetta, koska ne johtivat poliisin Golden State Killer -tapauksen epäillyn luo.
Nämä toisiinsa liittyvät sukupuut, jotka yhdistävät ihmisiä DNA:n perusteella, ovat nyt kasvaneet niin laajoiksi, että niiden avulla voidaan löytää yli puolet Yhdysvaltain väestöstä. Itse asiassa Erlichin johtaman, tänään Science-lehdessä julkaistun uuden tutkimuksen mukaan yli 60 prosenttia amerikkalaisista, joilla on eurooppalaista syntyperää, voidaan tunnistaa DNA:nsa avulla avoimien geneettisten sukututkimustietokantojen avulla riippumatta siitä, ovatko he koskaan lähettäneet sylkipakkauksen.
”Lähtökohtana on se, ettei ole väliä sillä, onko sinua testattu vai ei”, Erlich sanoo, ja hän toimii nykyään tiedepäällikkönä MyHeritagessa, joka on kolmanneksi suurin kuluttajille suunnattujen geneettisten testien tarjoaja, joka on kolmanneksi suurin kuluttajille suunnattujen geenipalvelujen tarjoaja 23andMe:n ja Ancestryn jälkeen. ”Sinut voidaan tunnistaa, koska tietokannat kattavat jo nyt niin suuren osan Yhdysvalloista, ainakin eurooppalaisen syntyperän osalta.”
Erlich ja hänen yhteistyökumppaninsa Columbian yliopistossa ja Jerusalemin heprealaisessa yliopistossa analysoivat näitä arvioita varten MyHeritagen 1,28 miljoonan nimettömän henkilön aineistoa, joka on useimpien maailman geneettisten tietokantojen tapaan ylivoimaisesti valkoinen. He pitivät jokaista näistä henkilöistä ihmisen ”kohteena” ja laskivat niiden sukulaisten lukumäärän, joiden DNA:ssa oli suuria yhteneväisyyksiä, ja havaitsivat, että 60 prosentissa hauista löytyi kolmas serkku tai lähempänä sitä oleva sukulainen. Tämä sukulaisuustaso oli kaikki, mitä tutkijat tarvitsivat jäljittääkseen Golden State Killerin ja 17 muuta tapausta, jotka on tähän mennessä ratkaistu tällä lähestymistavalla, jota lainvalvontaviranomaiset kutsuvat pitkän kantaman sukulaisetsinnäksi. Havaintojensa vahvistamiseksi Erlichin työryhmä yhdisti 30 geneettistä profiilia GEDmatchiin ja sai samankaltaisia tuloksia: 76 prosenttia hauista löysi sukulaisia kolmannella serkulla tai lähempänä sitä.
Tämä analyysi antaa noin 850 henkilön luettelon riippuen siitä, kuinka tuotteliaita henkilön esivanhemmat olivat. Mutta sieltä perusdemografisilla tiedoilla voi karsia kokoonpanon melko nopeasti. Julkiset rekisterit, joista käy ilmi, missä henkilö asuu 100 mailin säteellä, puolittavat ehdokasjoukon. Tieto iästä viiden vuoden tarkkuudella sulkee pois yhdeksän kymmenestä jäljelle jäävästä ehdokkaasta. Sukupuoli, joka voidaan päätellä genetiikan perusteella, supistaa listan noin 16 henkilöön. Tarkan syntymävuoden tietäminen voi vähentää vain yhteen tai kahteen henkilöön.
Vaikuttaakseen, miten helppoa se on, tutkijat valitsivat 1000 Genomes Project – avoimen sekvensointihankkeen – nimettömän naishenkilön, joka oli naimisissa miehen kanssa, jonka Erlich oli aiemmin tunnistanut menestyksekkäässä artikkelissaan vuonna 2013. He muotoilivat hänen DNA-tietonsa uudelleen niin, että ne muistuttavat tyypillistä kuluttajan geneettistä profiilia, ja latasivat ne GEDmatchiin. Esiin tuli kaksi sukulaista, toinen Pohjois-Dakotassa ja toinen Wyomingissa. Vastausten perusteella he olivat kaukaisia sukulaisia neljästä kuuteen sukupolvea taaksepäin. Tunnin verran julkisten rekistereiden läpikäyntiä myöhemmin tiimi oli löytänyt aviomiehen ja vaimon. Tämän jälkeen tutkijat jäljittivät satojen jälkeläisten sukutaulut saadakseen selville kohteensa henkilöllisyyden. Kaiken kaikkiaan ponnistelu kesti yhden ainoan päivän.
Erlichin mukaan ei kestä enää kauan, ennen kuin vastaavanlainen haku on mahdollista tehdä kenelle tahansa, joka jättää vähänkin DNA:ta lojumaan. Tutkimuksessa todettiin, että kun geneettinen tietokanta kattaa noin kaksi prosenttia tietyn etnisen väestön aikuisista, lähes jokaiselle kiinnostavalle henkilölle on odotettavissa kolmannen serkun tai sitä lähempänä olevan serkun vastaavuus. Eurooppalaista syntyperää olevilla amerikkalaisilla, jotka ovat paremmin edustettuina geneettisissä ja sukututkimustietokannoissa, tämä raja voidaan saavuttaa lähivuosina, jos vapaa-ajan DNA-testaus jatkuu nykyistä tahtia. Kaksi prosenttia on vain noin neljä miljoonaa ihmistä Yhdysvaltojen viimeisimpien väestönlaskentatietojen perusteella.
Tällainen resurssi laajentaisi huomattavasti niiden ihmisten määrää ja lajia, joita lainvalvontaviranomaiset voisivat käyttää johtolankaa jäljittäessään. Rikoksentekijöiden tietokannat, joihin poliisi tallentaa lähes 17 miljoonan ihmisen – tuomittujen rikollisten ja joissakin osavaltioissa pidätettyjen – DNA:ta, painottuvat voimakkaasti afroamerikkalaisiin ja latinalaisamerikkalaisiin. DNA-testien alkuajoista lähtien menetelmien tekninen yhteensopimattomuus on luonut käytännön palomuurin rikoksentekijöiden tietokantojen ja virkistys- tai tutkimustarkoituksiin käytettävien geneettisten tietokantojen välille. Lainvalvontaviranomaiset keräävät ja analysoivat vain erittäin vaihtelevia genomin ei-koodaavia osia ja laskevat, kuinka monta kertaa nämä ”roskasekvenssit” toistuvat. Kyseessä on pohjimmiltaan pelkkä numerosarja, joka ei itsessään paljasta mitään henkilökohtaisesti tunnistettavaa. Se on kuitenkin hyvin yksilöllinen, kuten viivakoodi tai sormenjälki. Ja se on halpa ja nopea. Täydellinen lainvalvontatarkoituksiin.
Sen sijaan suurin osa lääketieteellisistä ja vapaa-ajan DNA-testeistä perustuu joko täydelliseen sekvensointiin tai genotyyppiryhmiin – kokoelmaan muutoksista, jotka kaikki tapahtuvat yhdessä geenin kohdassa. Nämä SNP:t ovat syy siihen, miksi sinulla on vihreät silmät tai kiharat hiukset tai alttius sydänsairauksille. Ne ovat myös paljon hyödyllisempiä perheenjäsenten löytämiseksi. Koska nämä kaksi tietokantatyyppiä eivät pystyneet kommunikoimaan keskenään, Golden State Killer -tapauksen tutkijoiden oli otettava DNA vanhasta rikospaikkanäytteestä, luotava SNP-profiili ja ladattava se GEDmatchiin. Mutta nyt heidän ei tarvitse tehdä edes sitä.
Toinen tänään Cell-lehdessä julkaistu artikkeli osoittaa ensimmäistä kertaa, että rikoksentekijöiden tietokantojen tiedoista on mahdollista tehdä pitkän kantaman sukuhakuja. Noah Rosenbergin ryhmä Stanfordin yliopistossa oli jo aiemmin osoittanut, että kahdenlaisten tietokantojen välillä voi yhdistää tietueita kartoittamalla läheiset SNP:t ei-koodaaviin toistoihin. Viime vuonna julkaistu tutkimus ei saanut paljon huomiota. ”Sirkat”, Rosenberg sanoo. Mutta tällä uusimmalla työllä, jossa tutkitaan näiden kahden tietokannan yhteensopivuutta sukulaisten löytämiseksi, on uutta, syvällistä merkitystä Golden State Killer -tapauksen jälkeen.
”Tämä voisi olla keino laajentaa rikosgenetiikan soveltamisalaa, ja näin voitaisiin mahdollisesti ratkaista vieläkin useampia kylmiä tapauksia”, Rosenberg sanoo. ”Mutta samalla se saattaa altistaa näihin tietokantoihin osallistujat oikeuslääketieteellisille etsinnöille, joita he eivät ehkä olisi osanneet odottaa.”
Juridiikan asiantuntijoiden mukaan tärkeämpää on kuitenkin se, että Rosenbergin työ paljastaa, että oikeuslääketieteellisessä DNA-profiilissa on paljon enemmän tietoa kuin aiemmin luultiin. Sen avulla voidaan nimittäin ennustaa tarkasti genomin koodaavia alueita – vihreäsilmäisyyttä, kiharaa tukkaa, sydänvikaisia osia. ”Kaikki korkeimman oikeuden päätökset siitä, miksi nykyiset rikoksentekijöiden tietokannat eivät loukkaa neljännen lisäyksen oikeuksia, perustuvat olettamukseen, että tästä roska-DNA:sta ei voi saada mitään henkilökohtaista tietoa”, sanoo Andrea Roth, UC Berkeleyn Center for Law and Technologyn johtaja. ”Nyt kaikki on epävarmaa.”
Rosenberg ei julkaissut artikkelinsa mukana mitään ohjelmistoa, joten laskennan käynnistäminen vaatii vielä jonkin verran työtä. Mutta hän sanoo, että kenellä tahansa, jolla on pääsy useisiin tietokantoihin, on kaikki tiedot, joita hän tarvitsee aloittaakseen tekniikan käytön. Tämä tarkoittaa, että sisäänrakennetut yksityisyydensuojat voivat murentua melko nopeasti. Julkaisu on tarkoitettu varoituslaukaukseksi, joka osoittaa poliittisille päättäjille, mikä on mahdollista nykyisellä teknologialla, ja Rosenberg toivoo, että se herättää kipeästi kaivattuja keskusteluja siitä, miten geneettistä tietoa tallennetaan ja käytetään jatkossa.
Erlich ja hänen kirjoittajakollegansa menivät vielä pidemmälle ja antoivat suosituksia siitä, millaisia muutoksia on tehtävä, jotta GEDmatchin kaltaiset resurssit, jotka tarjoavat olennaisen tärkeän palvelun kauan kadoksissa olleita sukulaisiaan etsiville henkilöille ja biologista perhettään etsiville adoptoiduille lapsille ja nuorukaisille, pysyisivät turvallisesti verkossa. He kehottivat Yhdysvaltain terveysministeriötä tarkistamaan henkilökohtaisesti tunnistettavien terveystietojen soveltamisalaa siten, että se kattaa myös anonymisoidut genomitiedot. Lisäksi he hahmottelivat salausstrategian, jolla luotaisiin alkuperäketju, jotta kolmannen osapuolen tietokannat voisivat merkitä käyttäjät, jotka yrittävät analysoida geneettisiä tietoja, jotka eivät ole heidän omiaan. Mutta vaikka jokainen kuluttajien genomitietoja tarjoava taho ostaisi tämän järjestelmän, se ei välttämättä riittäisi.
”Luulen, että lopputulos on se, että nyt kaikki joutuvat tavalla tai toisella geneettisen tarkkailun piiriin, ellemme säätelisi hallituksen mahdollisuuksia tehdä geenitietohakuja”, Roth sanoo. Hän ehdottaa samankaltaista järjestelmää kuin Kalifornia säätelee tällä hetkellä perinteisempiä sukuhakuja rikoksentekijöiden tietokannoissaan. Niitä voidaan käyttää vain väkivaltarikosten – henkirikosten tai seksuaalirikosten – tutkimiseen, ja hakujen laajuus on rajoitettu, jotta estettäisiin satojen viattomien ihmisten joutuminen tutkinnan ansaan. Lisäksi on olemassa valvontakomitea, joka voi puuttua asiaan ja estää arkaluonteisten tietojen tahattoman paljastumisen, esimerkiksi sen, että jonkun isä ei olekaan hänen isänsä. ”Se tässä on niin ironista”, Roth sanoo. ”Jos olet jonkun CODIS-tietokannassa olevan henkilön sukulainen, sinulla on paljon enemmän oikeuksia geneettiseen yksityisyyteen kuin jos olet jonkun GEDMatch-tietokannassa olevan henkilön sukulainen.” Kun DNA:ta on tarpeeksi, ei ole väliä, haluatko tulla löydetyksi vai et. Poistuminen ei ole enää mahdollista.
More Great WIRED Stories
- Niin paljon geenitestejä, niin vähän ihmisiä selittämässä sitä sinulle
- Kun tekniikka tuntee sinut paremmin kuin sinä itse tunnet itsesi
- Nämä maagiset aurinkolasit blokkaavat kaikki näytöt ympärilläsi
- Kaikki mitä sinun tarvitsee tietää netin salaliittoteorioista
- Sisällä valheenpaljastuskoneen työtehtäviin tehtävien valintakokeiden mustassa peilimaailmassa
- Etsitkö lisää? Tilaa päivittäinen uutiskirjeemme, niin et jää koskaan paitsi uusimmista ja parhaista jutuistamme