În 2013, un tânăr biolog computațional pe nume Yaniv Erlich a șocat lumea cercetării demonstrând că este posibil să demaște identitățile persoanelor listate în baze de date genetice anonime folosind doar o conexiune la internet. Factorii de decizie politică au reacționat prin restricționarea accesului la bazinele de date genetice biomedicale anonime. Un oficial al NIH a declarat la acea vreme: „Șansele ca acest lucru să se întâmple pentru majoritatea oamenilor sunt mici, dar nu sunt zero.”
Avansați cinci ani și cantitatea de informații ADN găzduite în magazinele de date digitale a explodat, fără semne de încetinire. Companiile de consum precum 23andMe și Ancestry au creat până în prezent profiluri genetice pentru mai mult de 12 milioane de persoane, potrivit unor estimări recente ale industriei. Clienții care își descarcă propriile informații pot alege apoi să le adauge pe site-urile publice de genealogie, cum ar fi GEDmatch, care a căpătat notorietate la nivel național la începutul acestui an pentru rolul său de a conduce poliția către un suspect în cazul ucigașului din Golden State.
Acesti arbori genealogici întrepătrunșiți, care conectează oamenii prin intermediul unor fragmente de ADN, au crescut acum atât de mult încât pot fi utilizați pentru a găsi mai mult de jumătate din populația SUA. De fapt, potrivit noilor cercetări conduse de Erlich, publicate astăzi în Science, peste 60 la sută dintre americanii cu strămoși europeni pot fi identificați prin intermediul ADN-ului lor folosind bazele de date deschise de genealogie genetică, indiferent dacă au trimis vreodată un kit de scuipat.
„Concluzia este că nu contează dacă ați fost testat sau nu”, spune Erlich, care este în prezent director științific la MyHeritage, al treilea cel mai mare furnizor de servicii genetice pentru consumatori, după 23andMe și Ancestry. „Puteți fi identificat deoarece bazele de date acoperă deja fracțiuni atât de mari din SUA, cel puțin pentru strămoșii europeni.”
Pentru a face aceste estimări, Erlich și colaboratorii săi de la Universitatea Columbia și de la Universitatea Ebraică din Ierusalim au analizat setul de date al MyHeritage de 1,28 milioane de persoane anonime, care este, la fel ca majoritatea bazelor de date genetice din lume, covârșitor de alb. Considerând fiecare dintre acești indivizi drept o „țintă” umană, ei au numărat numărul de rude cu bucăți mari de ADN care se potrivesc și au descoperit că 60% dintre căutări au dat de un văr de gradul trei sau mai apropiat. Acest nivel de rudenie a fost tot ceea ce au avut nevoie anchetatorii pentru a da de urma ucigașului din Golden State și a celorlalte 17 cazuri care au fost rezolvate până în prezent cu ajutorul acestei abordări – cunoscută în cadrul autorităților de aplicare a legii sub numele de căutare familială pe distanțe lungi. Pentru a-și valida descoperirile, echipa lui Erlich a introdus 30 de profiluri genetice în GEDmatch și a observat rezultate similare, 76% dintre căutări găsind rude în intervalul vărului de gradul 3 sau mai apropiat.
Această analiză oferă o listă de aproximativ 850 de persoane, în funcție de cât de prolifici au fost strămoșii unei persoane. Dar, de acolo, informațiile demografice de bază pot curăța destul de repede lista. Înregistrările publice care indică unde locuiește o persoană pe o rază de 160 de kilometri reduc la jumătate lista de candidați. Cunoașterea vârstei până la cinci ani exclude 9 din 10 candidați rămași. Sexul, care poate fi dedus din datele genetice, reduce lista la aproximativ 16 persoane. Cunoașterea anului exact de naștere ar putea să vă reducă la doar una sau două persoane.
Pentru a demonstra cât de ușor este, cercetătorii au ales un subiect feminin anonim din Proiectul 1000 Genomes Project – un proiect de secvențiere cu acces liber – care era căsătorit cu bărbatul pe care Erlich îl identificase anterior în lucrarea sa de succes din 2013. Ei au reformatat datele ei ADN pentru a semăna cu profilul genetic tipic al unui consumator și le-au încărcat pe GEDmatch. Au apărut două rude, una în Dakota de Nord și una în Wyoming. Potrivirea a sugerat că erau rude îndepărtate cu patru până la șase generații în urmă. O oră mai târziu, după o căutare în registrele publice, echipa și-a găsit soțul și soția. De acolo, cercetătorii au urmărit pedigriile a sute de descendenți pentru a ajunge la identitatea țintei lor. În total, efortul a durat o singură zi.
Potrivit lui Erlich, nu va trece mult timp până când va fi posibil să se facă acest tip de căutare pe oricine care lasă un pic de ADN prin preajmă. Studiul a constatat că, odată ce o bază de date genetice acoperă aproximativ două procente din adulții dintr-o anumită populație etnică, este de așteptat o potrivire a unui văr de gradul trei sau mai apropiat pentru aproape orice persoană de interes. Pentru americanii cu strămoși europeni, care sunt mai bine reprezentați în bazele de date genetice și genealogice, acest prag ar putea fi atins în următorii câțiva ani, dacă testele ADN recreaționale continuă în ritmul actual. Doi la sută reprezintă doar aproximativ patru milioane de persoane, pe baza celor mai recente date de recensământ din SUA.
O astfel de resursă ar extinde foarte mult numărul și tipul de persoane la care forțele de ordine ar putea avea acces atunci când urmăresc o pistă. Bazele de date cu infractori, în care poliția stochează ADN-ul a aproape 17 milioane de persoane – infractori condamnați și, în unele state, arestați – sunt puternic orientate către populația afro-americană și hispanică. Încă din primele zile ale testelor ADN, incompatibilitatea tehnologică dintre metode a creat o barieră practică între bazele de date ale infractorilor și bazele de date genetice în scopuri recreative sau de cercetare. Organele de aplicare a legii colectează și analizează doar porțiunile necodificatoare foarte variabile ale genomului, numărând numărul de ori în care aceste secvențe „nedorite” se repetă. În esență, este vorba doar de un șir de numere – nu dezvăluie nimic care să permită identificarea personală în sine. Dar este extrem de unic pentru un individ, precum un cod de bare sau o amprentă digitală. Și este ieftin și rapid. Perfect pentru scopuri de aplicare a legii.
În schimb, majoritatea testelor ADN medicale și de agrement implică fie secvențierea completă, fie matricea genotipurilor – o colecție de modificări care apar fiecare într-o singură locație a unei gene. Aceste SNP-uri sunt motivul pentru care aveți ochii verzi sau părul creț, sau o predispoziție pentru boli de inimă. Ele sunt, de asemenea, mult mai utile pentru a găsi membrii familiei. Deoarece aceste două tipuri de baze de date nu puteau comunica, anchetatorii din cazul Golden State Killer au fost nevoiți să extragă ADN dintr-o mostră veche de la locul crimei, să creeze un profil SNP și să îl încarce în GEDmatch. Dar acum, ei nici măcar nu vor mai fi nevoiți să facă acest lucru.
Un al doilea articol, publicat astăzi în Cell, arată pentru prima dată că este posibil să se efectueze căutări familiale pe termen lung pe baza datelor din bazele de date ale infractorilor. Grupul lui Noah Rosenberg de la Universitatea Stanford demonstrase anterior că se pot lega înregistrări între cele două tipuri de baze de date, prin cartografierea SNP-urilor apropiate la repetările non-codificatoare. Publicată anul trecut, cercetarea nu a primit prea multă atenție. „Greierii”, spune Rosenberg. Dar această ultimă lucrare, care explorează compatibilitatea încrucișată a celor două baze de date pentru găsirea rudelor, are o relevanță nouă și profundă în urma cazului Ucigașului din Golden State.
„Aceasta ar putea fi o modalitate de extindere a domeniului de aplicare a geneticii medico-legale, potențial pentru a rezolva și mai multe cazuri nerezolvate”, spune Rosenberg. „Dar, în același timp, ar putea expune participanții la aceste baze de date la cercetări medico-legale pe care poate că nu le-ar fi anticipat.”
Potrivit experților în drept, totuși, cea mai mare problemă este că lucrarea lui Rosenberg dezvăluie faptul că există mult mai multe informații conținute într-un profil ADN medico-legal decât se credea până acum. Acest lucru se datorează faptului că îl puteți folosi pentru a prezice cu exactitate regiunile codificatoare ale genomului – părțile legate de ochii verzi, părul creț, afecțiunile cardiace. „Toate deciziile Curții Supreme cu privire la motivul pentru care bazele de date existente ale infractorilor nu încalcă drepturile celui de-al Patrulea Amendament se bazează toate pe prezumția că nu se poate extrage nimic personal din acest ADN nedorit”, spune Andrea Roth, director al Centrului pentru Drept și Tehnologie din cadrul UC Berkeley. „Acum, toate acestea sunt în aer.”
Rosenberg nu a publicat niciun software împreună cu lucrarea sa, așa că ar mai fi nevoie de ceva muncă pentru a pune în funcțiune calculul. Dar el spune că oricine are acces la mai multe baze de date are toate informațiile de care are nevoie pentru a începe să folosească tehnica. Ceea ce înseamnă că acele măsuri de protecție a confidențialității integrate s-ar putea prăbuși destul de repede. Lucrarea este menită să fie un semnal de alarmă, pentru a arăta factorilor de decizie ce este posibil cu tehnologia de astăzi, iar Rosenberg speră să stimuleze conversațiile atât de necesare cu privire la modul în care informațiile genetice sunt stocate și utilizate în viitor.
Erlich și coautorii săi au mers chiar mai departe pentru a face recomandări cu privire la ce schimbări sunt necesare pentru a se asigura că resurse precum GEDmatch, care oferă un serviciu esențial pentru persoanele care caută rude pierdute de mult timp și pentru cei adoptați care își caută familiile biologice, rămân online într-o capacitate sigură. Aceștia au îndemnat Departamentul pentru Servicii Umane al SUA să revizuiască domeniul de aplicare al informațiilor de sănătate identificabile personal pentru a include datele genomice anonime. Și au schițat o strategie de criptare care ar crea un lanț de custodie, astfel încât bazele de date terțe să poată semnala utilizatorii care încearcă să analizeze date genetice care nu sunt ale lor. Dar chiar dacă fiecare furnizor de servicii de genomică pentru consumatori a aderat la acest sistem, s-ar putea să nu fie suficient.
„Cred că concluzia este că acum toată lumea este pe cale să se afle sub supraveghere genetică într-un fel sau altul, dacă nu reglementăm capacitatea guvernului de a efectua căutări genealogice”, spune Roth. Ea sugerează un sistem similar cu modul în care California reglementează în prezent căutările familiale mai tradiționale în bazele sale de date cu infractori. Acestea pot fi folosite doar pentru a investiga infracțiuni violente – omucideri sau agresiuni sexuale, iar domeniul de aplicare al căutării este limitat, pentru a preveni ca sute de oameni nevinovați să fie prinși în capcană în anchetă. De asemenea, există un comitet de supraveghere care poate interveni și poate preveni dezvăluirea involuntară de informații sensibile care ar putea apărea, de exemplu, că tatăl cuiva nu este chiar tatăl său. „Asta este ceea ce este atât de ironic în această situație”, spune Roth. „Dacă ești ruda cuiva din CODIS , ai mult mai multe drepturi la confidențialitate genetică decât dacă ești ruda cuiva din GEDMatch.” Cu suficient ADN, nu mai contează dacă vrei să fii găsit sau nu. Excluderea nu mai este o opțiune.
Mai multe povești grozave de la WIRED
- Așa de multe teste genetice, atât de puțini oameni care să ți le explice
- Când tehnologia te cunoaște mai bine decât te cunoști tu însuți
- Acești ochelari de soare magici blochează toate ecranele din jurul tău
- Tot ce trebuie să știi despre teoriile conspirației online
- În interiorul lumii Black Mirror a verificărilor de angajare cu poligraful
- Căutați mai mult? Înscrieți-vă la buletinul nostru informativ zilnic și nu ratați niciodată cele mai noi și cele mai bune povești
.