Mladý počítačový biolog Yaniv Erlich v roce 2013 šokoval svět výzkumu, když ukázal, že je možné odhalit identitu lidí uvedených v anonymních genetických databázích pouze pomocí internetového připojení. Politici na to reagovali omezením přístupu k fondům anonymizovaných biomedicínských genetických dat. Jeden z úředníků NIH tehdy řekl: „Šance, že se to stane u většiny lidí, je malá, ale není nulová.“
Překročili jsme o pět let a množství informací o DNA uložených v digitálních úložištích dat explodovalo a nic nenasvědčuje tomu, že by se mělo zpomalit. Spotřebitelské společnosti jako 23andMe a Ancestry dosud vytvořily genetické profily pro více než 12 milionů lidí, jak vyplývá z posledních odhadů odvětví. Zákazníci, kteří si stáhnou své vlastní informace, se pak mohou rozhodnout přidat je na veřejné genealogické webové stránky, jako je například GEDmatch, který se na začátku letošního roku proslavil v celostátním měřítku tím, že přivedl policii k podezřelému v případu Golden State Killer.
Tyto propojené rodokmeny, spojující lidi prostřednictvím kousků DNA, se nyní rozrostly natolik, že je lze použít k nalezení více než poloviny obyvatel USA. Podle nového výzkumu vedeného Erlichem, který byl dnes zveřejněn v časopise Science, lze totiž pomocí otevřených genetických genealogických databází identifikovat více než 60 % Američanů s evropskými předky, a to bez ohledu na to, zda někdy poslali plivátko.
„Závěr je, že nezáleží na tom, zda jste byli testováni, nebo ne,“ říká Erlich, který je nyní vědeckým ředitelem společnosti MyHeritage, třetího největšího poskytovatele genetických služeb pro spotřebitele po společnostech 23andMe a Ancestry. „Můžete být identifikováni, protože databáze již pokrývají tak velké části USA, přinejmenším pro evropské předky.“
Pro tyto odhady Erlich a jeho spolupracovníci z Kolumbijské univerzity a Hebrejské univerzity v Jeruzalémě analyzovali soubor dat společnosti MyHeritage čítající 1,28 milionu anonymních osob, který je stejně jako většina světových genetických databází v drtivé většině bělošský. Každého z těchto jedinců považovali za lidský „cíl“, spočítali počet příbuzných s velkými kusy shodné DNA a zjistili, že v 60 procentech vyhledávání se objevil třetí nebo bližší bratranec či sestřenice. Tato úroveň příbuznosti vyšetřovatelům stačila k vypátrání vraha ze Zlatého státu a dalších 17 případů, které byly dosud vyřešeny tímto přístupem – známým u orgánů činných v trestním řízení jako dálkové příbuzenské pátrání. Aby si Erlichův tým ověřil svá zjištění, zapojil 30 genetických profilů do služby GEDmatch a zjistil podobné výsledky: 76 procent vyhledávání vedlo k nalezení příbuzných v rozmezí 3. bratrance nebo bližšího příbuzenstva.
Tato analýza poskytuje seznam přibližně 850 osob, v závislosti na tom, jak plodní byli předci dané osoby. Odtud však lze na základě základních demografických informací sestavu poměrně rychle ořezat. Veřejné záznamy, které uvádějí, kde kdo žije v okruhu 100 mil, snižují počet kandidátů na polovinu. Znalost věku do pěti let vyloučí 9 z 10 zbývajících kandidátů. Pohlaví, které lze odvodit z genetiky, sníží seznam asi na 16 osob. Znalost přesného roku narození může snížit počet osob na pouhou jednu nebo dvě.
Aby vědci demonstrovali, jak je to snadné, vybrali si anonymní ženský subjekt z projektu 1000 genomů – projektu sekvenování s otevřeným přístupem -, který byl ženatý s mužem, jehož Erlich dříve identifikoval ve své průlomové práci z roku 2013. Data její DNA přeformátovali tak, aby se podobala typickému genetickému profilu spotřebitele, a nahráli je na GEDmatch. Objevili se dva příbuzní, jeden v Severní Dakotě a druhý ve Wyomingu. Shoda naznačovala, že jsou vzdáleně příbuzní čtyři až šest generací nazpět. Po hodině hledání ve veřejných záznamech tým našel manžele. Odtud výzkumníci sledovali rodokmeny stovek potomků, aby dospěli k totožnosti svého cíle. Celkově jim toto úsilí zabralo jediný den.
Podle Erlicha nebude trvat dlouho a bude možné takto vyhledávat kohokoli, kdo po sobě nechá ležet kousek DNA. Studie zjistila, že jakmile genetická databáze pokryje zhruba dvě procenta dospělých v dané etnické populaci, lze očekávat shodu třetího nebo bližšího bratrance téměř u každé zájmové osoby. U Američanů evropského původu, kteří jsou v genetických a genealogických databázích zastoupeni lépe, by této hranice mohlo být dosaženo během několika příštích let, pokud bude rekreační testování DNA pokračovat současným tempem. Dvě procenta jsou podle posledních údajů ze sčítání lidu v USA jen asi čtyři miliony lidí.
Takový zdroj by výrazně rozšířil počet a druh lidí, k nimž by orgány činné v trestním řízení měly přístup při pátrání po stopách. Databáze pachatelů, v nichž policie uchovává DNA téměř 17 milionů lidí – odsouzených zločinců a v některých státech i zatčených – se výrazně přiklání k afroamerické a hispánské populaci. Od prvních dnů testování DNA vytvářela technologická nekompatibilita metod praktickou hráz mezi databázemi pachatelů a genetickými databázemi pro rekreační nebo výzkumné účely. Orgány činné v trestním řízení shromažďují a analyzují pouze vysoce variabilní nekódující části genomu a počítají, kolikrát se tyto „nevyžádané“ sekvence opakují. Je to v podstatě jen řetězec čísel – sám o sobě neodhaluje nic, co by umožňovalo osobní identifikaci. Je však vysoce unikátní pro jednotlivce, podobně jako čárový kód nebo otisk prstu. A je to levné a rychlé. Ideální pro účely vymáhání práva.
Naproti tomu většina lékařských a rekreačních testů DNA zahrnuje buď úplné sekvenování, nebo genotypové pole – soubor změn, z nichž každá se vyskytuje na jednom místě v genu. Tyto SNP jsou důvodem, proč máte zelené oči nebo kudrnaté vlasy nebo predispozici k srdečním chorobám. Jsou také mnohem užitečnější pro vyhledávání rodinných příslušníků. Protože tyto dva typy databází spolu nemohly komunikovat, museli vyšetřovatelé v případu vraha z Golden State získat DNA ze starého vzorku z místa činu, vytvořit profil SNP a nahrát ho do databáze GEDmatch. Nyní však nebudou muset dělat ani to.
Druhá práce, publikovaná dnes v časopise Cell, poprvé ukazuje, že je možné provádět dálkové příbuzenské vyhledávání na datech z databází pachatelů. Skupina Noaha Rosenberga ze Stanfordovy univerzity již dříve ukázala, že lze propojit záznamy mezi oběma druhy databází, a to mapováním blízkých SNP na nekódující repetice. Výzkum publikovaný v loňském roce se netěšil velké pozornosti. „Cvrčci,“ říká Rosenberg. Ale tato nejnovější práce, která zkoumá vzájemnou kompatibilitu obou databází pro vyhledávání příbuzných, má nový, hluboký význam v souvislosti s případem Golden State Killer.
„To by mohl být způsob, jak rozšířit dosah forenzní genetiky, potenciálně pro vyřešení ještě více odložených případů,“ říká Rosenberg. „Ale zároveň by to mohlo vystavit účastníky těchto databází forenznímu pátrání, které by možná nepředpokládali.“
Podle právních expertů je však větší problém v tom, že Rosenbergova práce odhaluje, že ve forenzním profilu DNA je obsaženo mnohem více informací, než se dříve myslelo. Lze jej totiž použít k přesnému předvídání kódujících oblastí genomu – zelených očí, kudrnatých vlasů, částí s nemocným srdcem. „Všechna rozhodnutí Nejvyššího soudu o tom, proč existující databáze pachatelů neporušují práva vyplývající ze čtvrtého dodatku, vycházejí z předpokladu, že z této nevyžádané DNA nelze získat nic osobního,“ říká Andrea Rothová, ředitelka Centra pro právo a technologie na Kalifornské univerzitě v Berkeley. „Teď je to všechno ve hvězdách.“
Rosenberg spolu se svou prací nezveřejnil žádný software, takže zprovoznění výpočtů bude ještě vyžadovat nějakou práci. Říká však, že každý, kdo má přístup k více databázím, má všechny informace, které potřebuje, aby mohl tuto techniku začít používat. Což znamená, že tyto vestavěné ochrany soukromí by se mohly poměrně rychle rozpadnout. Článek má být varovným výstřelem, který má tvůrcům politik ukázat, co je s dnešní technologií možné, a Rosenberg doufá, že podnítí tolik potřebné rozhovory o tom, jak se budou genetické informace uchovávat a používat do budoucna.
Erlich a jeho spoluautoři šli ještě dál a předložili doporučení, jaké změny jsou nutné, aby zdroje jako GEDmatch, které poskytují zásadní službu lidem hledajícím dlouho ztracené příbuzné a osvojitelům hledajícím své biologické rodiny, zůstaly online v bezpečném stavu. Vyzvali americké ministerstvo pro lidské služby, aby revidovalo rozsah osobně identifikovatelných zdravotních informací tak, aby zahrnoval i anonymizované genomické údaje. A nastínili strategii šifrování, která by vytvořila řetězec opatrovnictví, aby databáze třetích stran mohly označit uživatele, kteří se snaží analyzovat genetické údaje, které nejsou jejich vlastní. Ale i kdyby se do tohoto systému zapojili všichni poskytovatelé genomických služeb pro spotřebitele, nemuselo by to stačit.
„Myslím, že pointa je, že nyní budou všichni tak či onak pod genetickým dohledem, pokud nebudeme regulovat možnost vlády provádět genealogické vyhledávání,“ říká Roth. Navrhuje systém podobný tomu, jak Kalifornie v současnosti reguluje tradičnější rodinné vyhledávání ve svých databázích pachatelů. Mohou být použity pouze při vyšetřování násilných trestných činů – vražd nebo sexuálních útoků – a rozsah vyhledávání je omezen, aby se zabránilo tomu, že se do vyšetřování zapletou stovky nevinných lidí. A existuje dohledový výbor, který může zasáhnout a zabránit neúmyslnému zveřejnění citlivých informací, které by se mohly objevit, například že něčí otec není ve skutečnosti jeho otcem. „To je na tom to ironické,“ říká Roth. „Pokud jste příbuzný někoho v databázi CODIS , máte mnohem větší práva na genetické soukromí, než když jste příbuzný někoho v databázi GEDMatch.“ S dostatečným množstvím DNA je jedno, jestli chcete být nalezeni, nebo ne. Odmítnutí již není možné.
Další skvělé příběhy WIRED
- Tolik genetické testování, tak málo lidí, kteří by vám to vysvětlili
- Když vás technika zná lépe než vy sami sebe
- Tyto kouzelné sluneční brýle blokují všechny obrazovky kolem vás
- Vše, co potřebujete vědět o online konspiračních teoriích
- Nahlédněte do světa Černého zrcadla při prověrkách na detektoru lži v zaměstnání
- Hledáte víc? Přihlaste se k odběru našeho denního zpravodaje a nikdy vám neuniknou naše nejnovější a nejzajímavější články
.