Nel 2013, un giovane biologo computazionale di nome Yaniv Erlich ha scioccato il mondo della ricerca dimostrando che era possibile smascherare le identità delle persone elencate in banche dati genetiche anonime utilizzando solo una connessione Internet. I politici hanno risposto limitando l’accesso ai pool di dati genetici biomedici anonimizzati. Un funzionario NIH ha detto all’epoca: “Le possibilità che questo accada per la maggior parte delle persone sono piccole, ma non sono pari a zero.”
Fast-forward cinque anni e la quantità di informazioni sul DNA ospitate in archivi di dati digitali è esplosa, senza segni di rallentamento. Aziende di consumo come 23andMe e Ancestry hanno finora creato profili genetici per più di 12 milioni di persone, secondo recenti stime del settore. I clienti che scaricano le proprie informazioni possono poi scegliere di aggiungerle a siti web pubblici di genealogia come GEDmatch, che ha guadagnato notorietà nazionale all’inizio di quest’anno per il suo ruolo nel condurre la polizia a un sospetto nel caso del Golden State Killer.
Questi alberi genealogici a incastro, che collegano le persone attraverso pezzi di DNA, sono ora cresciuti così tanto che possono essere utilizzati per trovare più della metà della popolazione statunitense. Infatti, secondo una nuova ricerca guidata da Erlich, pubblicata oggi su Science, più del 60 per cento degli americani con antenati europei possono essere identificati attraverso il loro DNA utilizzando i database di genealogia genetica aperta, indipendentemente dal fatto che abbiano mai inviato un kit di sputo.
“Il risultato è che non importa se sei stato testato o meno”, dice Erlich, che ora è il chief science officer di MyHeritage, il terzo più grande fornitore genetico dei consumatori dietro 23andMe e Ancestry. “Puoi essere identificato perché i database coprono già frazioni così grandi degli Stati Uniti, almeno per l’ascendenza europea.”
Per fare queste stime, Erlich e i suoi collaboratori della Columbia University e dell’Università Ebraica di Gerusalemme hanno analizzato il set di dati di MyHeritage di 1,28 milioni di individui anonimi, che è, come la maggior parte dei database genetici del mondo, in gran parte bianco. Considerando ognuno di questi individui come un “bersaglio” umano, hanno contato il numero di parenti con grandi pezzi di DNA corrispondente e hanno scoperto che il 60 per cento delle ricerche ha rivelato un cugino di terzo grado o più vicino. Questo livello di parentela era tutto ciò di cui gli investigatori avevano bisogno per rintracciare il Golden State Killer e gli altri 17 casi che sono stati risolti con questo approccio, noto alle forze dell’ordine come ricerca familiare a lungo raggio. Per convalidare le loro scoperte, il team di Erlich ha inserito 30 profili genetici in GEDmatch e ha visto risultati simili, con il 76 per cento delle ricerche che hanno portato a parenti di terzo grado o più vicini.
Questa analisi fornisce una lista di circa 850 individui, a seconda di quanto prolifici fossero gli antenati di una persona. Ma da lì, le informazioni demografiche di base possono sfoltire la lista abbastanza rapidamente. Le registrazioni pubbliche che indicano dove qualcuno vive entro 100 miglia tagliano il pool di candidati a metà. Conoscere la loro età entro i cinque anni esclude 9 su 10 dei candidati rimanenti. Il sesso, che può essere dedotto dalla genetica, riduce la lista a circa 16 individui. Conoscere l’anno di nascita esatto potrebbe farvi scendere a una o due persone.
Per dimostrare quanto sia facile, i ricercatori hanno scelto un soggetto femminile anonimo dal 1000 Genomes Project – un progetto di sequenziamento ad accesso aperto – che era sposato con l’uomo che Erlich aveva precedentemente identificato nel suo blockbuster 2013. Hanno riformattato i dati del suo DNA per assomigliare a un tipico profilo genetico del consumatore e lo hanno caricato su GEDmatch. Sono saltati fuori due parenti, uno nel Nord Dakota e uno nel Wyoming. La corrispondenza suggeriva che erano lontanamente imparentati da quattro a sei generazioni indietro. Un’ora di ricerca nei registri pubblici più tardi e la squadra ha trovato il marito e la moglie. Da lì, i ricercatori hanno tracciato i pedigree di centinaia di discendenti per arrivare all’identità del loro obiettivo. In tutto, lo sforzo è durato un solo giorno.
Secondo Erlich, non passerà molto tempo prima che sia possibile fare questo tipo di ricerca su chiunque lasci un po’ di DNA in giro. Lo studio ha scoperto che una volta che un database genetico copre circa il due per cento degli adulti in una data popolazione etnica, ci si aspetta una corrispondenza di un cugino di terzo grado o più vicino per quasi ogni persona di interesse. Per gli americani di origine europea, che sono meglio rappresentati nei database genetici e genealogici, quella soglia potrebbe essere raggiunta nei prossimi anni se i test ricreativi del DNA continuano al ritmo attuale. Il due per cento è solo circa quattro milioni di persone, in base ai dati del censimento più recente degli Stati Uniti.
Tale risorsa espanderebbe notevolmente il numero e il tipo di persone a cui le forze dell’ordine potrebbero avere accesso quando inseguono una pista. I database dei criminali, dove la polizia immagazzina il DNA di circa 17 milioni di persone – criminali condannati e, in alcuni stati, arrestati – si orientano pesantemente verso le popolazioni afroamericane e ispaniche. Fin dai primi giorni del test del DNA, l’incompatibilità tecnologica tra i metodi ha creato una barriera pratica tra i database dei criminali e i database genetici per scopi ricreativi o di ricerca. Le forze dell’ordine raccolgono e analizzano solo porzioni non codificanti altamente variabili del genoma, contando il numero di volte che queste sequenze “spazzatura” si ripetono. È essenzialmente solo una stringa di numeri – non rivela nulla di personalmente identificabile di per sé. Ma è altamente unico per un individuo, come un codice a barre o un’impronta digitale. Ed è economico e veloce. Perfetto per le forze dell’ordine.
Al contrario, la maggior parte dei test del DNA medici e ricreativi coinvolge il sequenziamento completo o gli array di genotipi, una raccolta di cambiamenti che si verificano ciascuno in una singola posizione in un gene. Questi SNPs sono la ragione per cui hai gli occhi verdi o i capelli ricci, o una predisposizione per le malattie cardiache. Sono anche molto più utili per trovare i membri della famiglia. Poiché questi due tipi di database non potevano comunicare, gli investigatori nel caso del Golden State Killer hanno dovuto estrarre il DNA da un vecchio campione della scena del crimine, creare un profilo SNP e caricarlo su GEDmatch. Ma ora, non dovranno nemmeno farlo.
Un secondo documento, pubblicato oggi su Cell, mostra per la prima volta che è possibile eseguire ricerche familiari a lungo raggio sui dati dei database dei criminali. Il gruppo di Noah Rosenberg dell’Università di Stanford aveva precedentemente dimostrato che si potevano collegare i record tra i due tipi di database, mappando gli SNPs vicini alle ripetizioni non codificanti. Pubblicata l’anno scorso, la ricerca non ha avuto molta attenzione. “Grilli”, dice Rosenberg. Ma quest’ultimo lavoro, che esplora la compatibilità incrociata dei due database per trovare parenti, ha una nuova, profonda rilevanza sulla scia del caso del Golden State Killer.
“Questo potrebbe essere un modo per espandere la portata della genetica forense, potenzialmente per risolvere ancora più casi freddi”, dice Rosenberg. “Ma allo stesso tempo potrebbe esporre i partecipanti a quei database a ricerche forensi che potrebbero non aver previsto.”
Secondo gli esperti legali, però, l’affare più grande è che il lavoro di Rosenberg rivela che ci sono molte più informazioni contenute in un profilo di DNA forense di quanto si pensasse. Questo perché è possibile usarlo per prevedere accuratamente le regioni codificanti del genoma – l’occhio verde, i capelli ricci, le parti con problemi di cuore. “Tutte le decisioni della Corte Suprema sul perché le banche dati dei criminali esistenti non violano i diritti del quarto emendamento sono tutte basate sulla presunzione che nulla di personale può essere ricavato da questo DNA spazzatura”, dice Andrea Roth, direttore del Center for Law and Technology della UC Berkeley. “Ora è tutto in aria”.
Rosenberg non ha rilasciato alcun software con il suo documento, quindi ci vorrebbe ancora del lavoro per ottenere il calcolo attivo e funzionante. Ma dice che chiunque abbia accesso a più banche dati ha tutte le informazioni necessarie per iniziare a utilizzare la tecnica. Il che significa che quelle protezioni integrate per la privacy potrebbero sgretolarsi abbastanza rapidamente. Il documento è inteso come un colpo di avvertimento, per mostrare ai responsabili politici ciò che è possibile con la tecnologia di oggi, e Rosenberg spera che stimoli conversazioni molto necessarie su come le informazioni genetiche vengono memorizzate e utilizzate in futuro.
Erlich e i suoi coautori sono andati anche oltre per fare raccomandazioni su quali cambiamenti sono necessari per garantire che risorse come GEDmatch, che forniscono un servizio essenziale per le persone alla ricerca di parenti persi da tempo e gli adottati che cercano le loro famiglie biologiche, rimangano online in una capacità sicura. Hanno esortato il Dipartimento dei Servizi Umani degli Stati Uniti a rivedere la portata delle informazioni sanitarie identificabili personalmente per includere i dati genomici anonimizzati. E hanno delineato una strategia di crittografia che creerebbe una catena di custodia, in modo che i database di terze parti possano segnalare gli utenti che cercano di analizzare i dati genetici che non sono i loro. Ma anche se ogni fornitore di genomica dei consumatori acquistasse questo sistema, potrebbe ancora non essere sufficiente.
“Penso che la linea di fondo è che ora tutti stanno per essere sotto sorveglianza genetica in un modo o nell’altro, a meno che non regoliamo la capacità del governo di condurre ricerche genealogiche”, dice Roth. Suggerisce un sistema simile a come la California regola attualmente le ricerche familiari più tradizionali dei suoi database di criminali. Possono essere usate solo per indagare su crimini violenti – omicidi o aggressioni sessuali – e la portata della ricerca è limitata, per evitare che centinaia di persone innocenti siano intrappolate nell’indagine. E c’è un comitato di supervisione che può intervenire e prevenire la divulgazione involontaria di informazioni sensibili che potrebbero emergere, ad esempio che il padre di qualcuno non è veramente suo padre. “Questo è ciò che è così ironico su questo”, dice Roth. “Se sei un parente di qualcuno nel CODIS, hai molti più diritti alla privacy genetica che se sei un parente di qualcuno in GEDMatch”. Con abbastanza DNA, non importa se vuoi essere trovato o no. L’opting out non è più un’opzione.
Altre grandi storie di WIRED
- Tanti test genetici, così poche persone per spiegarteli
- Quando la tecnologia ti conosce meglio di quanto tu conosca te stesso
- Questi magici occhiali da sole bloccano tutti gli schermi intorno a te
- Tutto quello che devi sapere sulle teorie di cospirazione online
- Dentro il mondo di Black Mirror dei controlli poligrafici sul lavoro
- Cercandone altri? Iscriviti alla nostra newsletter quotidiana e non perdere mai le nostre ultime e più grandi storie