W 2013 r. młody biolog obliczeniowy o nazwisku Yaniv Erlich zaszokował świat badawczy, pokazując, że możliwe jest zdemaskowanie tożsamości osób wymienionych w anonimowych genetycznych bazach danych przy użyciu jedynie połączenia internetowego. Politycy zareagowali ograniczeniem dostępu do puli anonimowych biomedycznych danych genetycznych. Urzędnik NIH powiedział wtedy: „Szanse na to, że stanie się to dla większości ludzi są niewielkie, ale nie zerowe.”
Przedział czasu o pięć lat i ilość informacji DNA przechowywanych w cyfrowych magazynach danych eksplodowała, bez oznak spowolnienia. Firmy konsumenckie, takie jak 23andMe i Ancestry, do tej pory stworzyły profile genetyczne dla ponad 12 milionów ludzi, według ostatnich szacunków branżowych. Klienci, którzy pobierają własne informacje, mogą następnie dodać je do publicznych serwisów genealogicznych, takich jak GEDmatch, który zyskał rozgłos na początku tego roku dzięki roli, jaką odegrał w doprowadzeniu policji do podejrzanego w sprawie Golden State Killer.
Te zazębiające się drzewa genealogiczne, łączące ludzi poprzez bity DNA, urosły tak bardzo, że mogą być wykorzystane do odnalezienia ponad połowy populacji USA. W rzeczywistości, według nowych badań prowadzonych przez Erlicha, opublikowanych dzisiaj w Science, ponad 60 procent Amerykanów z europejskim rodowodem może być zidentyfikowanych poprzez ich DNA przy użyciu otwartych baz danych genealogii genetycznej, niezależnie od tego, czy kiedykolwiek wysłali zestaw do badania plwociny.
„Najważniejsze jest to, że nie ma znaczenia, czy zostałeś przetestowany, czy nie”, mówi Erlich, który jest obecnie dyrektorem naukowym w MyHeritage, trzecim co do wielkości konsumenckim dostawcą usług genetycznych za 23andMe i Ancestry. „Możesz być zidentyfikowany, ponieważ bazy danych obejmują już tak duże części USA, przynajmniej dla europejskiego rodowodu.”
Aby dokonać tych szacunków, Erlich i jego współpracownicy z Columbia University i Hebrew University of Jerusalem przeanalizowali zbiór danych MyHeritage 1,28 mln anonimowych osób, który jest, jak większość światowych genetycznych baz danych, w przeważającej części biały. Rozważając każdą z tych osób jako ludzki „cel”, policzyli liczbę krewnych z dużymi kawałkami pasującego DNA i odkryli, że 60 procent wyszukiwań zwróciło się do trzeciego kuzyna lub bliżej. Ten poziom pokrewieństwa był wszystkim, czego potrzebowali śledczy, aby wytropić Golden State Killer oraz 17 innych spraw, które do tej pory zostały rozwiązane dzięki temu podejściu, określanemu przez organy ścigania mianem poszukiwań rodzinnych dalekiego zasięgu. Aby potwierdzić swoje ustalenia, zespół Erlicha podłączył 30 profili genetycznych do GEDmatch i zobaczył podobne wyniki, z 76 procentami wyszukiwań siatki krewnych w trzecim kuzynie lub bliższym zakresie.
Ta analiza zapewnia listę około 850 osób, w zależności od tego, jak płodni byli przodkowie danej osoby. Jednak podstawowe informacje demograficzne mogą dość szybko zawęzić skład. Publiczne zapisy wskazujące, gdzie ktoś mieszka w promieniu 100 mil, zmniejszają pulę kandydatów o połowę. Znajomość wieku z dokładnością do pięciu lat wyklucza 9 na 10 pozostałych kandydatów. Płeć, która może być wywnioskowana z genetyki, redukuje listę do około 16 osób. Znając dokładny rok urodzenia, można zejść do zaledwie jednej lub dwóch osób.
Aby zademonstrować, jakie to proste, badacze wybrali anonimowy obiekt żeński z 1000 Genomes Project – projektu sekwencjonowania o otwartym dostępie – który był żonaty z mężczyzną, którego Erlich wcześniej zidentyfikował w swoim głośnym artykule z 2013 roku. Przeformatowali jej dane DNA tak, by przypominały typowy profil genetyczny konsumenta i przesłali je do GEDmatch. Pojawiło się dwóch krewnych, jeden w Północnej Dakocie, a drugi w Wyoming. Dopasowanie sugerowało, że byli oni daleko spokrewnieni od czterech do sześciu pokoleń wstecz. Godzinę później zespół odnalazł męża i żonę. Następnie badacze prześledzili rodowody setek potomków, by dojść do tożsamości swojego celu. W sumie, wysiłek zajął jeden dzień.
Według Erlicha, to nie będzie długo przed to możliwe, aby zrobić tego rodzaju wyszukiwania na każdego, kto pozostawia trochę DNA leżącego wokół. Badanie wykazało, że po genetycznej bazy danych obejmuje około dwóch procent dorosłych w danej populacji etnicznej, mecz trzeciego kuzyna lub bliżej jest oczekiwany dla prawie każdej osoby zainteresowania. Dla Amerykanów o europejskim rodowodzie, którzy są lepiej reprezentowani w genetycznych i genealogicznych bazach danych, ten próg może zostać osiągnięty w ciągu najbliższych kilku lat, jeśli rekreacyjne testy DNA będą kontynuowane w obecnym tempie. Dwa procent to tylko około czterech milionów ludzi, w oparciu o najnowsze dane US census.
Taki zasób znacznie rozszerzyłby liczbę, i rodzaj ludzi, że egzekwowanie prawa może mieć dostęp do kiedy goni w dół ołowiu. Bazy danych przestępców, w których policja przechowuje DNA blisko 17 milionów ludzi – skazanych przestępców, a w niektórych stanach także aresztowanych – są silnie ukierunkowane na populacje Afroamerykanów i Latynosów. Od najwcześniejszych dni badań DNA, technologiczna niekompatybilność metod stworzyła praktyczną zaporę pomiędzy bazami danych przestępców a bazami danych genetycznych dla celów rekreacyjnych lub badawczych. Organy ścigania gromadzą i analizują jedynie wysoce zmienne niekodujące fragmenty genomu, licząc ile razy powtarzają się te „śmieciowe” sekwencje. Jest to w zasadzie tylko ciąg liczb – sam w sobie nie ujawnia niczego, co można by zidentyfikować. Jest jednak bardzo unikalny dla danej osoby, jak kod kreskowy czy odcisk palca. Do tego jest tani i szybki. Idealne do celów egzekwowania prawa.
Dla kontrastu, większość medycznych i rekreacyjnych testów DNA obejmuje albo pełne sekwencjonowanie albo tablice genotypów – zbiór zmian, z których każda występuje w jednym miejscu w genie. Te SNPs są powodem, dla którego masz zielone oczy lub kręcone włosy, lub predyspozycje do chorób serca. Są one również o wiele bardziej przydatne do odnajdywania członków rodziny. Ponieważ te dwa typy baz danych nie mogły się ze sobą komunikować, śledczy w sprawie Golden State Killer musieli wyodrębnić DNA ze starej próbki z miejsca zbrodni, stworzyć profil SNP i przesłać go do GEDmatch. Ale teraz nie będą musieli nawet tego robić.
Drugi artykuł, opublikowany dziś w Cell, po raz pierwszy pokazuje, że możliwe jest prowadzenie rodzinnych poszukiwań dalekiego zasięgu na danych z baz danych przestępców. Grupa Noah Rosenberga z Uniwersytetu Stanforda pokazała wcześniej, że można połączyć rekordy pomiędzy dwoma rodzajami baz danych, poprzez mapowanie pobliskich SNPs do niekodujących powtórzeń. Badania te, opublikowane w zeszłym roku, nie wzbudziły większego zainteresowania. „Świerszcze” – mówi Rosenberg. Ale ta ostatnia praca, która bada wzajemną kompatybilność dwóch baz danych w celu znalezienia krewnych, ma nowe, głębokie znaczenie w następstwie sprawy Golden State Killer.
„To może być sposób na rozszerzenie zasięgu genetyki sądowej, potencjalnie dla rozwiązania jeszcze większej ilości zimnych spraw,” mówi Rosenberg. „Ale jednocześnie może to narazić uczestników tych baz danych na poszukiwania kryminalistyczne, których mogliby nie przewidzieć.”
Według ekspertów prawnych, jednak, większą sprawą jest to, że praca Rosenberga ujawnia, że istnieje o wiele więcej informacji zawartych w profilu DNA kryminalistycznego niż wcześniej sądzono. A to dlatego, że można go użyć do dokładnego przewidzenia kodowania regionów genomu – zielonych oczu, kręconych włosów, części związanych z chorobą serca. „Wszystkie decyzje Sądu Najwyższego o tym, dlaczego istniejące bazy danych przestępców nie naruszają praw wynikających z Czwartej Poprawki, opierają się na założeniu, że z tego śmieciowego DNA nie można wyciągnąć nic osobistego” – mówi Andrea Roth, dyrektor Centrum Prawa i Technologii UC Berkeley. „Teraz to wszystko jest w powietrzu.”
Rosenberg nie wydał żadnego oprogramowania z jego pracy, więc to nadal zajmie trochę pracy, aby uzyskać obliczenia się i działa. Ale twierdzi on, że każdy, kto ma dostęp do wielu baz danych, ma wszystkie informacje, których potrzebuje, aby zacząć używać tej techniki. Co oznacza, że te wbudowane zabezpieczenia prywatności mogą się dość szybko rozsypać. Papier jest przeznaczony jako strzał ostrzegawczy, aby pokazać decydentom, co jest możliwe z dzisiejszą technologią, a Rosenberg ma nadzieję, że pobudza bardzo potrzebne rozmowy o tym, jak informacje genetyczne są przechowywane i wykorzystywane w przyszłości.
Erlich i jego współautorzy poszedł nawet dalej, aby zalecenia dotyczące tego, co zmiany są niezbędne do zapewnienia, że zasoby takie jak GEDmatch, które zapewniają istotną usługę dla ludzi szukających dawno zaginionych krewnych i adoptowanych szukających swoich rodzin biologicznych, pozostają online w bezpiecznej zdolności. Wezwali oni Departament Usług Społecznych USA do zrewidowania zakresu informacji zdrowotnych umożliwiających identyfikację osób, tak aby obejmowały one zanonimizowane dane genomiczne. Nakreślili również strategię szyfrowania, która stworzyłaby łańcuch nadzoru, aby bazy danych stron trzecich mogły oznaczać użytkowników próbujących analizować dane genetyczne, które nie były ich własnymi. Ale nawet jeśli każdy dostawca genomiki konsumenta kupił do tego systemu, to nadal może nie być wystarczające.
„Myślę, że dolna linia jest teraz każdy ma być pod nadzorem genetycznym w ten czy inny sposób, chyba że regulujemy zdolność rządu do prowadzenia wyszukiwań genealogicznych,” mówi Roth. Sugeruje ona system podobny do tego, w jaki sposób Kalifornia reguluje obecnie bardziej tradycyjne przeszukiwanie rodzinnych baz danych przestępców. Można ich używać tylko do badania przestępstw z użyciem przemocy – zabójstw lub napaści na tle seksualnym, a zakres poszukiwań jest ograniczony, aby zapobiec uwikłaniu w śledztwo setek niewinnych ludzi. Istnieje również komisja nadzorcza, która może wkroczyć i zapobiec nieumyślnemu ujawnieniu wrażliwych informacji, które mogą się pojawić, na przykład, że czyjś ojciec nie jest tak naprawdę jego ojcem. „To jest właśnie ironia losu”, mówi Roth. „Jeśli jesteś krewnym kogoś w CODIS , masz o wiele więcej praw do prywatności genetycznej niż jeśli jesteś krewnym kogoś w GEDMatch”. Z wystarczającą ilością DNA, nie ma znaczenia, czy chcesz być znaleziony, czy nie. Wycofanie się nie jest już opcją.
More Great WIRED Stories
- Tak wiele testów genetycznych, tak mało ludzi, którzy ci to wytłumaczą
- Kiedy technologia zna cię lepiej niż ty sam siebie
- Te magiczne okulary przeciwsłoneczne blokują wszystkie ekrany wokół ciebie
- Wszystko, co musisz wiedzieć o internetowych teoriach spiskowych
- Wewnątrz czarnego lustra świata badań poligraficznych w pracy
- Czy chcesz więcej? Zapisz się do naszego codziennego newslettera i nigdy nie przegap naszych najnowszych i największych historii