2013-ban egy Yaniv Erlich nevű fiatal számítógépes biológus sokkolta a kutatói világot azzal, hogy megmutatta, lehetséges az anonim genetikai adatbázisokban szereplő emberek személyazonosságának leleplezése csupán egy internetkapcsolat segítségével. A politikai döntéshozók válaszul korlátozták az anonimizált orvosbiológiai genetikai adatokhoz való hozzáférést. Az NIH egyik tisztviselője akkoriban azt mondta: “Annak az esélye, hogy ez a legtöbb ember esetében megtörténjen, kicsi, de nem nulla.”
Öt évvel később a digitális adattárolókban tárolt DNS-információk mennyisége robbanásszerűen megnőtt, és a lassulásnak semmi jele. Az olyan fogyasztói cégek, mint a 23andMe és az Ancestry, a legújabb iparági becslések szerint eddig több mint 12 millió ember genetikai profilját készítették el. Azok az ügyfelek, akik letöltik a saját adataikat, aztán választhatják, hogy hozzáadják azokat az olyan nyilvános genealógiai weboldalakhoz, mint a GEDmatch, amely az év elején országos hírnévre tett szert azzal a szerepével, hogy elvezette a rendőrséget a Golden State Killer ügy gyanúsítottjához.
Az egymásba fonódó családfák, amelyek a DNS-darabkákon keresztül kötik össze az embereket, mára olyan nagyra nőttek, hogy az USA lakosságának több mint felét meg lehet találni velük. Sőt, az Erlich által vezetett, a Science folyóiratban ma közzétett új kutatás szerint az európai felmenőkkel rendelkező amerikaiak több mint 60 százaléka azonosítható a DNS-e alapján a nyílt genetikai genealógiai adatbázisok segítségével, függetlenül attól, hogy küldtek-e valaha köpetkészletet.
“A tanulság az, hogy nem számít, hogy teszteltek-e már vagy sem” – mondja Erlich, aki jelenleg a MyHeritage tudományos vezetője, a 23andMe és az Ancestry mögött a harmadik legnagyobb fogyasztói genetikai szolgáltató. “Azonosítható vagy, mert az adatbázisok már az USA ilyen nagy részét lefedik, legalábbis az európai felmenők esetében.”
A becslések elkészítéséhez Erlich és munkatársai a Columbia Egyetemen és a Jeruzsálemi Héber Egyetemen elemezték a MyHeritage 1,28 millió anonim személyt tartalmazó adatállományát, amely a világ legtöbb genetikai adatbázisához hasonlóan túlnyomórészt fehér. Minden egyes ilyen személyt emberi “célpontnak” tekintve megszámolták a nagy mennyiségű egyező DNS-sel rendelkező rokonok számát, és megállapították, hogy a keresések 60 százalékában egy harmadik unokatestvér vagy annál közelebbi rokon került elő. Ez a rokonsági szint volt minden, amire a nyomozóknak szükségük volt ahhoz, hogy a Golden State Killer nyomára bukkanjanak, és ahhoz a 17 másik esethez, amelyet eddig ezzel a megközelítéssel oldottak meg – a bűnüldözés számára ez a hosszú távú családi keresés. Eredményeik megerősítése érdekében Erlich csapata 30 genetikai profilt töltött be a GEDmatch-be, és hasonló eredményeket tapasztaltak: a keresések 76 százaléka a 3. unokatestvér vagy annál közelebbi rokonsági körbe tartozott.
Ez az elemzés mintegy 850 személyt tartalmazó listát eredményez, attól függően, hogy mennyire voltak termékenyek az adott személy ősei. De onnantól kezdve az alapvető demográfiai információkkal elég gyorsan le lehet szűkíteni a sort. A nyilvános nyilvántartások, amelyek 100 mérföldes körzetben jelzik, hol él valaki, felére csökkentik a jelöltek számát. Az életkor ismerete öt éven belüli pontossággal kizárja a fennmaradó 10 jelöltből 9-et. A nem, amelyet a genetikai adatokból lehet kikövetkeztetni, körülbelül 16 személyre csökkenti a listát. A pontos születési év ismeretében már csak egy vagy két személyt lehet leszűkíteni.
Az egyszerűség demonstrálására a kutatók kiválasztottak egy névtelen női alanyt az 1000 Genom projektből – egy nyílt hozzáférésű szekvenálási projektből -, aki annak a férfinak a felesége volt, akit Erlich már korábban azonosított a 2013-as nagy sikerű tanulmányában. Átformálták a DNS-adatait, hogy azok egy tipikus fogyasztói genetikai profilhoz hasonlítsanak, és feltöltötték a GEDmatch-ra. Két rokon bukkant fel, egy Észak-Dakotában és egy Wyomingban. Az egyezés azt mutatta, hogy négy-hat generációra visszamenőleg távoli rokonságban állnak egymással. Egy órával később a közhiteles nyilvántartások átfésülése után a csapat megtalálta a férjet és a feleséget. Ezután a kutatók több száz leszármazott családfáját követték nyomon, hogy megtalálják a célszemélyt. Mindent egybevetve az erőfeszítés egyetlen napot vett igénybe.
Erlich szerint nem kell már sokáig várni arra, hogy bárkinél elvégezhető legyen ez a fajta keresés, aki hagy egy kis DNS-t szanaszét heverni. A tanulmány megállapította, hogy amint egy genetikai adatbázis egy adott etnikai populáció felnőttjeinek nagyjából két százalékát lefedi, szinte minden érdeklődő személy esetében várható egy harmad-unokatestvér vagy annál közelebbi egyezés. Az európai felmenőkkel rendelkező amerikaiak esetében, akik jobban képviseltetik magukat a genetikai és genealógiai adatbázisokban, ezt a küszöböt a következő néhány évben elérhetik, ha a szabadidős DNS-vizsgálatok a jelenlegi ütemben folytatódnak. Az USA legfrissebb népszámlálási adatai alapján a két százalék csak körülbelül négymillió embert jelent.
Egy ilyen forrás nagymértékben bővítené azoknak az embereknek a számát és fajtáját, akikhez a bűnüldöző szervek hozzáférhetnének, amikor egy nyomot követnek. Az elkövetők adatbázisai, amelyekben a rendőrség közel 17 millió ember – elítélt bűnözők és egyes államokban letartóztatottak – DNS-ét tárolja, erősen elkanyarodnak az afroamerikai és spanyolajkú lakosság felé. A DNS-vizsgálat kezdete óta a módszerek közötti technológiai összeegyeztethetetlenség gyakorlati tűzfalat hozott létre a bűnelkövetők adatbázisai és a szabadidős vagy kutatási célú genetikai adatbázisok között. A bűnüldöző szervek csak a genom nagymértékben változó, nem kódoló részeit gyűjtik és elemzik, összeszámolva, hogy ezek a “szemét” szekvenciák hányszor ismétlődnek. Ez lényegében csak egy számsor – önmagában semmi személyazonosításra alkalmasat nem mutat. De nagyon is egyedi az egyénre nézve, mint egy vonalkód vagy egy ujjlenyomat. És olcsó és gyors. Tökéletes bűnüldözési célokra.
Ezzel szemben a legtöbb orvosi és szabadidős DNS-vizsgálat vagy teljes szekvenálást, vagy genotípus-mintázatokat foglal magában – olyan változások gyűjteményét, amelyek egy-egy gén egyetlen helyén fordulnak elő. Ezek az SNP-k az okai annak, hogy zöld szeme vagy göndör haja van, vagy hogy hajlamos a szívbetegségekre. Sokkal hasznosabbak a családtagok felkutatásában is. Mivel ez a kétféle adatbázis nem tudott kommunikálni egymással, a Golden State Killer-ügy nyomozóinak egy régi helyszínről származó mintából kellett DNS-t kinyerniük, SNP-profilt készíteniük és feltölteniük a GEDmatch-be. Most azonban még ezt sem kell megtenniük.
Egy másik, ma a Cell című folyóiratban megjelent tanulmány először mutatja be, hogy a bűnelkövetők adatbázisaiból származó adatokon hosszú távú családi kereséseket lehet végezni. Noah Rosenberg csoportja a Stanford Egyetemen már korábban megmutatta, hogy össze lehet kapcsolni a kétféle adatbázis közötti rekordokat, a közeli SNP-ket a nem kódoló ismétlődésekre leképezve. A tavaly közzétett kutatás nem kapott nagy figyelmet. “Tücskök” – mondja Rosenberg. Ez a legújabb munka azonban, amely a két adatbázis keresztkompatibilitását vizsgálja a rokonok felkutatására, új, mélyreható jelentőséggel bír a Golden State Killer-ügy nyomán.
“Ez egy módja lehet a törvényszéki genetika hatókörének kiterjesztésének, potenciálisan még több lezáratlan ügy megoldására” – mondja Rosenberg. “Ugyanakkor azonban az is lehet, hogy ezeknek az adatbázisoknak a résztvevőit olyan törvényszéki kereséseknek teszi ki, amelyekre talán nem is számítottak.”
A jogi szakértők szerint azonban a nagyobb dolog az, hogy Rosenberg munkájából kiderül, hogy egy törvényszéki DNS-profil sokkal több információt tartalmaz, mint azt korábban gondolták. Ezzel ugyanis pontosan meg lehet jósolni a genom kódoló régióit – a zöld szemű, göndör hajú, szívbetegségben szenvedő részeket. “Az összes legfelsőbb bírósági döntés arról, hogy a meglévő bűnelkövetők adatbázisa miért nem sérti a negyedik alkotmánymódosításhoz fűződő jogokat, azon a feltételezésen alapul, hogy ebből az ócska DNS-ből semmi személyes nem derül ki” – mondja Andrea Roth, a Berkeley Egyetem Jogi és Technológiai Központjának igazgatója. “Most mindez a levegőben lóg.”
Rosenberg nem adott ki semmilyen szoftvert a tanulmányával együtt, így a számítás beindításához még némi munkára lenne szükség. De azt mondja, bárki, akinek hozzáférése van több adatbázishoz, minden szükséges információval rendelkezik ahhoz, hogy elkezdje használni a technikát. Ami azt jelenti, hogy a beépített adatvédelmi biztosítékok elég gyorsan összeomolhatnak. A tanulmányt figyelmeztető lövésnek szánják, hogy megmutassa a döntéshozóknak, mi minden lehetséges a mai technológiával, és Rosenberg reméli, hogy a genetikai információk tárolásának és felhasználásának jövőbeli módjáról szóló, nagyon szükséges beszélgetésekre ösztönöz.
Erlich és szerzőtársai még ennél is tovább mentek, és ajánlásokat tettek arról, milyen változtatásokra van szükség ahhoz, hogy az olyan források, mint a GEDmatch, amelyek alapvető szolgáltatást nyújtanak a rég elveszett rokonokat kereső emberek és a biológiai családjukat kereső örökbefogadottak számára, biztonságos módon maradjanak online. Sürgették az Egyesült Államok Emberi Szolgálatok Minisztériumát, hogy vizsgálja felül a személyazonosításra alkalmas egészségügyi információk körét, hogy az kiterjedjen az anonimizált genomikai adatokra is. És felvázoltak egy olyan titkosítási stratégiát, amely létrehozná a felügyeleti láncot, hogy a harmadik fél adatbázisok megjelölhessék azokat a felhasználókat, akik olyan genetikai adatokat próbálnak elemezni, amelyek nem a sajátjaik. De még ha minden fogyasztói genomikai szolgáltató be is vásárolná ezt a rendszert, lehet, hogy ez még mindig nem lenne elég.
“Azt hiszem, a lényeg az, hogy most már így vagy úgy, de mindenki genetikai megfigyelés alá kerül, hacsak nem szabályozzuk a kormányzat genealógiai kutatásokra vonatkozó képességét” – mondja Roth. Egy olyan rendszert javasol, amely hasonló ahhoz, ahogyan Kalifornia jelenleg szabályozza a hagyományosabb családi kereséseket a bűnelkövetők adatbázisában. Ezeket csak erőszakos bűncselekmények – gyilkosságok vagy szexuális támadások – kivizsgálására lehet használni, és a keresés hatókörét korlátozzák, hogy megakadályozzák, hogy ártatlan emberek százai kerüljenek a nyomozás hálójába. És van egy felügyelőbizottság, amely közbeléphet, és megakadályozhatja, hogy véletlenül bizalmas információk kerüljenek nyilvánosságra, mondjuk, hogy valakinek az apja valójában nem is az apja. “Ez az, ami annyira ironikus ebben az egészben” – mondja Roth. “Ha valakinek a rokona vagy a CODIS-ban , sokkal több jogod van a genetikai adatvédelemhez, mint ha valakinek a rokona vagy a GEDMatch-ban”. Elegendő DNS birtokában nem számít, hogy akarod-e, hogy megtaláljanak vagy sem. A kilépés többé nem lehetséges.
Még több nagyszerű WIRED-sztori
- Sok genetikai vizsgálat, olyan kevés ember, aki elmagyarázza neked
- Mikor a technológia jobban ismer téged, mint te magadat
- Ez a mágikus napszemüveg blokkolja az összes képernyőt körülötted
- Minden, amit az online összeesküvés-elméletekről tudni kell
- Belépés a poligráfos állásszűrések Black Mirror világába
- Keresed még? Iratkozzon fel napi hírlevelünkre, és soha ne maradjon le legújabb és legjobb történeteinkről