Em 2013, um jovem biólogo computacional chamado Yaniv Erlich chocou o mundo da pesquisa ao mostrar que era possível desmascarar as identidades das pessoas listadas em bancos de dados genéticos anônimos usando apenas uma conexão com a Internet. Os formuladores de políticas responderam restringindo o acesso a conjuntos de dados genéticos biomédicos anonimizados. Um funcionário do NIH disse na época: “As chances de isso acontecer para a maioria das pessoas são pequenas, mas elas não são zero”
Pré-avante cinco anos e a quantidade de informação de DNA alojada em depósitos de dados digitais explodiu, sem sinais de desaceleração. Empresas de consumo como 23andMe e Ancestry criaram até agora perfis genéticos para mais de 12 milhões de pessoas, de acordo com estimativas recentes da indústria. Clientes que baixam suas próprias informações podem então optar por adicioná-las a sites públicos de genealogia como o GEDmatch, que ganhou notoriedade nacional no início deste ano por seu papel em levar a polícia a um suspeito no caso Golden State Killer.
As árvores genealógicas interligadas, conectando pessoas através de pedaços de DNA, agora cresceram tanto que podem ser usadas para encontrar mais da metade da população dos EUA. Na verdade, de acordo com novas pesquisas lideradas por Erlich, publicadas hoje na Science, mais de 60% dos americanos com ascendência européia podem ser identificados através de seu DNA usando bancos de dados abertos de genealogia genética, independentemente de já terem enviado um kit de cuspe.
“O takeaway é que não importa se você foi testado ou não”, diz Erlich, que agora é o diretor de ciência do MyHeritage, o terceiro maior fornecedor de genética de consumo atrás de 23andMe e Ancestry. “Você pode ser identificado porque os bancos de dados já cobrem frações tão grandes dos EUA, pelo menos para os ancestrais europeus”
Para fazer essas estimativas, Erlich e seus colaboradores da Universidade de Columbia e da Universidade Hebraica de Jerusalém analisaram o conjunto de dados de MyHeritage de 1,28 milhões de indivíduos anônimos, que é, como a maioria dos bancos de dados genéticos do mundo, esmagadoramente branco. Considerando cada um desses indivíduos como um “alvo” humano, eles contaram o número de parentes com grandes pedaços de DNA correspondente e descobriram que 60 por cento das buscas resultaram em um primo de terceiro grau ou mais próximo. Esse nível de parentesco era todo o que os investigadores precisavam para rastrear o Golden State Killer, e os outros 17 casos que até agora foram resolvidos com essa aprovação – conhecidos pelas autoridades policiais como buscas familiares de longo alcance. Para validar seus achados, a equipe de Erlich conectou 30 perfis genéticos ao GEDmatch e viu resultados semelhantes, com 76% das buscas conectando parentes na rede do terceiro primo ou mais próximo.
Essa análise fornece uma lista de cerca de 850 indivíduos, dependendo de quão prolíficos eram os antepassados de uma pessoa. Mas a partir daí, informações demográficas básicas podem podar o alinhamento muito rapidamente. Registros públicos indicando para onde alguém mora dentro de 100 milhas cortam o grupo de candidatos na metade. Sabendo que a sua idade até dentro de cinco anos exclui 9 dos 10 candidatos restantes. O sexo, que pode ser inferido a partir da genética, reduz a lista a cerca de 16 indivíduos. Sabendo o ano exato de nascimento pode levar a apenas uma ou duas pessoas.
Para demonstrar como é fácil, os pesquisadores escolheram um sujeito anônimo do Projeto 1000 Genomes – um projeto de seqüenciamento de acesso aberto – que era casado com o homem que Erlich havia previamente identificado em seu trabalho de sucesso de bilheteria de 2013. Eles reformataram os dados de DNA dela para se parecerem com um perfil genético típico do consumidor e fizeram o upload para o GEDmatch. Dois parentes apareceram, um no Dakota do Norte e um no Wyoming. O jogo sugeriu que eles eram parentes distantes, de quatro a seis gerações atrás. Uma hora de combate público e a equipa tinha encontrado o marido e a mulher. A partir daí, os pesquisadores rastrearam os pedigrees de centenas de descendentes para chegar à identidade do seu alvo. No total, o esforço levou um único dia.
De acordo com Erlich, não vai demorar muito até que seja possível fazer esse tipo de busca em qualquer um que deixe um pouco de DNA por aí. O estudo descobriu que uma vez que um banco de dados genético cobre cerca de 2% dos adultos de uma determinada população étnica, espera-se uma correspondência de um primo de terceiro grau ou mais próximo para quase todas as pessoas de interesse. Para os americanos de ascendência europeia, que estão melhor representados em bancos de dados genéticos e genealógicos, esse limiar poderia ser atingido nos próximos anos se os testes de DNA recreativos continuassem em seu ritmo atual. Dois por cento são apenas cerca de quatro milhões de pessoas, com base nos dados do censo mais recente dos EUA.
Esse recurso ampliaria muito o número, e tipo de pessoas, a que as autoridades policiais poderiam ter acesso quando perseguissem uma pista. Bancos de dados de criminosos, onde a polícia armazena o DNA de cerca de 17 milhões de criminosos condenados e, em alguns estados, prende – inclina-se fortemente para as populações afro-americanas e hispânicas. Desde os primeiros dias dos testes de DNA, a incompatibilidade tecnológica entre métodos criou um firewall prático entre bancos de dados de criminosos e bancos de dados genéticos para fins recreativos ou de pesquisa. A aplicação da lei apenas coleta e analisa porções altamente variáveis do genoma que não codificam, contando o número de vezes que essas seqüências de “lixo” se repetem. É essencialmente apenas uma seqüência de números – não revela nada pessoalmente identificável por si só. Mas é altamente único para um indivíduo, como um código de barras ou uma impressão digital. E é barato e rápido. Perfeito para fins de aplicação da lei.
Por contraste, a maioria dos testes de DNA médico e recreativo envolve ou o sequenciamento completo ou arrays de genótipos – uma coleção de mudanças que ocorrem em um único local em um gene. Estes SNPs são a razão pela qual você tem olhos verdes ou cabelos encaracolados, ou uma predisposição para doenças cardíacas. Eles também são muito mais úteis para encontrar membros da família. Como esses dois tipos de bancos de dados não conseguiam se comunicar, os investigadores do caso Golden State Killer tiveram que extrair DNA de uma amostra antiga da cena do crime, criar um perfil de SNP e enviá-lo para o GEDmatch. Mas agora, eles nem precisarão fazer isso.
Um segundo artigo, publicado hoje na Cell, pela primeira vez mostra que é possível fazer buscas familiares de longo alcance em dados de bancos de dados de infratores. O grupo de Noah Rosenberg na Universidade de Stanford tinha mostrado anteriormente que era possível ligar registros entre os dois tipos de bancos de dados, mapeando os SNPs próximos às repetições não codificadas. Publicada no ano passado, a pesquisa não recebeu muita atenção. “Crickets”, diz Rosenberg. Mas este último trabalho, que explora a compatibilidade cruzada das duas bases de dados para encontrar parentes, tem uma nova e profunda relevância na sequência do caso Golden State Killer.
“Esta poderia ser uma forma de expandir o alcance da genética forense, potencialmente para resolver casos ainda mais frios”, diz Rosenberg. “Mas, ao mesmo tempo, poderia estar expondo os participantes desses bancos de dados a pesquisas forenses que eles poderiam não ter previsto”.
De acordo com os especialistas legais, porém, o maior negócio é que o trabalho de Rosenberg revela que há muito mais informações contidas em um perfil de DNA forense do que se pensava anteriormente. Isso porque você pode usá-lo para prever com precisão as regiões codificadoras do genoma – o olho verde, cabelos encaracolados, partes do problema cardíaco. “Todas as decisões da Suprema Corte sobre o motivo pelo qual as bases de dados existentes de infratores não violam os direitos da Quarta Emenda são todas baseadas na presunção de que nada pessoal pode ser extraído desse DNA de lixo”, diz Andrea Roth, diretora do Centro de Direito e Tecnologia da UC Berkeley. “Isso está tudo no ar.”
Rosenberg não liberou nenhum software com o seu trabalho, por isso ainda seria preciso algum trabalho para pôr o cálculo a funcionar. Mas ele diz que qualquer pessoa com acesso a múltiplos bancos de dados tem toda a informação necessária para começar a usar a técnica. O que significa que essas proteções de privacidade embutidas podem desmoronar rapidamente. O documento pretende ser um tiro de aviso, para mostrar aos legisladores o que é possível com a tecnologia atual, e Rosenberg espera que ele estimule conversas muito necessárias sobre como a informação genética é armazenada e usada no futuro.
Erlich e seus co-autores foram ainda mais longe para fazer recomendações sobre quais mudanças são necessárias para garantir que recursos como o GEDmatch, que fornecem um serviço essencial às pessoas que procuram por parentes há muito perdidos e adotados em busca de suas famílias biológicas, permaneçam on-line em uma capacidade segura. Eles pediram ao Departamento de Serviços Humanos dos EUA que revisasse o escopo das informações de saúde pessoalmente identificáveis para incluir dados genômicos anonimizados. E eles delinearam uma estratégia de criptografia que criaria uma cadeia de custódia, para que bancos de dados de terceiros pudessem sinalizar os usuários tentando analisar dados genéticos que não eram seus. Mas mesmo que todos os fornecedores de genômica de consumo comprassem esse sistema, isso ainda poderia não ser suficiente.
“Acho que o resultado final é que agora todos estão prestes a ficar sob vigilância genética de uma forma ou de outra, a menos que regulamentemos a capacidade do governo de conduzir pesquisas genealógicas”, diz Roth. Ela sugere um sistema semelhante à forma como a Califórnia atualmente regula as buscas familiares mais tradicionais de seus bancos de dados de infratores. Elas só podem ser usadas para investigar crimes violentos – homicídios ou agressões sexuais, e o escopo da busca é limitado, para evitar que centenas de pessoas inocentes sejam ludibriadas na investigação. E há uma comissão de supervisão que pode intervir e impedir a revelação inadvertida de informações sensíveis que possam surgir, dizendo que o pai de alguém não é realmente seu pai. “É isso que é tão irónico nisto”, diz Roth. “Se você é parente de alguém no CODIS , você tem muito mais direitos à privacidade genética do que se você for parente de alguém no GEDMatch.” Com ADN suficiente, não importa se queres ser encontrado ou não. Optar por sair já não é uma opção.
Mais Grandes Histórias WIRED
- Tantos testes genéticos, tão poucas pessoas para lhe explicar
- Quando o técnico o conhece melhor do que você mesmo
- Estes óculos de sol mágicos bloqueiam todas as telas à sua volta
- Tudo o que você precisa saber sobre teorias de conspiração online
- Inside the Black Mirror world of polygraph job screenings
- Procura de mais? Inscreva-se na nossa newsletter diária e nunca perca as nossas últimas e maiores histórias