En 2013, un jeune biologiste computationnel nommé Yaniv Erlich a choqué le monde de la recherche en montrant qu’il était possible de démasquer l’identité des personnes répertoriées dans des bases de données génétiques anonymes en utilisant uniquement une connexion Internet. Les décideurs politiques ont réagi en restreignant l’accès aux pools de données génétiques biomédicales anonymes. Un responsable des NIH a déclaré à l’époque : » Les chances que cela se produise pour la plupart des gens sont faibles, mais elles ne sont pas nulles. «
Avance rapide de cinq ans et la quantité d’informations génétiques hébergées dans des magasins de données numériques a explosé, sans aucun signe de ralentissement. Des entreprises grand public comme 23andMe et Ancestry ont jusqu’à présent créé des profils génétiques pour plus de 12 millions de personnes, selon des estimations récentes du secteur. Les clients qui téléchargent leurs propres informations peuvent ensuite choisir de les ajouter à des sites Web publics de généalogie tels que GEDmatch, qui a acquis une notoriété nationale plus tôt cette année pour son rôle dans la conduite de la police à un suspect dans l’affaire du Golden State Killer.
Ces arbres généalogiques imbriqués, reliant les gens par des morceaux d’ADN, sont maintenant devenus si grands qu’ils peuvent être utilisés pour trouver plus de la moitié de la population américaine. En fait, selon une nouvelle recherche dirigée par Erlich, publiée aujourd’hui dans Science, plus de 60 % des Américains ayant des ancêtres européens peuvent être identifiés grâce à leur ADN en utilisant des bases de données généalogiques génétiques ouvertes, qu’ils aient ou non déjà envoyé un kit de crachat.
« Le point à retenir est que cela n’a pas d’importance si vous avez été testé ou non », déclare Erlich, qui est maintenant le directeur scientifique de MyHeritage, le troisième plus grand fournisseur de génétique grand public derrière 23andMe et Ancestry. « Vous pouvez être identifié parce que les bases de données couvrent déjà de si grandes fractions des États-Unis, au moins pour l’ascendance européenne. »
Pour faire ces estimations, Erlich et ses collaborateurs de l’Université Columbia et de l’Université hébraïque de Jérusalem ont analysé l’ensemble de données de MyHeritage de 1,28 million d’individus anonymes, qui est, comme la plupart des bases de données génétiques du monde, très majoritairement blanc. En considérant chacun de ces individus comme une « cible » humaine, ils ont compté le nombre de parents ayant de gros morceaux d’ADN correspondant et ont constaté que 60 % des recherches aboutissaient à un cousin au troisième degré ou plus proche. Ce niveau de parenté était tout ce dont les enquêteurs avaient besoin pour retrouver le Golden State Killer et les 17 autres affaires qui ont été résolues jusqu’à présent grâce à cette approche, connue des services de police sous le nom de recherche familiale à grande distance. Pour valider leurs conclusions, l’équipe d’Erlich a branché 30 profils génétiques dans GEDmatch et a vu des résultats similaires, avec 76 pour cent des recherches aboutissant à des parents dans la gamme des cousins au 3e degré ou plus proches.
Cette analyse fournit une liste d’environ 850 individus, en fonction de la prolifération des ancêtres d’une personne. Mais à partir de là, des informations démographiques de base permettent d’élaguer la liste assez rapidement. Les dossiers publics indiquant le lieu de résidence d’une personne dans un rayon de 160 km réduisent de moitié le nombre de candidats. Connaître son âge à cinq ans près exclut 9 candidats sur 10. Le sexe, qui peut être déduit de la génétique, réduit la liste à environ 16 personnes. Connaître l’année de naissance exacte pourrait vous ramener à une ou deux personnes seulement.
Pour démontrer à quel point c’est facile, les chercheurs ont choisi un sujet féminin anonyme du projet 1000 Genomes – un projet de séquençage en libre accès – qui était marié à l’homme qu’Erlich avait précédemment identifié dans son article à succès de 2013. Ils ont reformaté les données de son ADN pour qu’elles ressemblent au profil génétique d’un consommateur typique et les ont téléchargées sur GEDmatch. Deux parents sont apparus, l’un dans le Dakota du Nord et l’autre dans le Wyoming. La correspondance suggère qu’ils sont apparentés de façon éloignée sur quatre à six générations. Une heure de recherche dans les archives publiques plus tard, l’équipe a trouvé le mari et la femme. À partir de là, les chercheurs ont retracé les pedigrees de centaines de descendants pour arriver à l’identité de leur cible. En tout et pour tout, l’effort n’a duré qu’une seule journée.
Selon Erlich, il ne faudra pas longtemps avant qu’il soit possible de faire ce genre de recherche sur toute personne qui laisse traîner un peu d’ADN. L’étude a montré qu’une fois qu’une base de données génétiques couvre environ deux pour cent des adultes d’une population ethnique donnée, on peut s’attendre à une correspondance avec un cousin au troisième degré ou plus proche pour presque toute personne d’intérêt. Pour les Américains d’ascendance européenne, qui sont mieux représentés dans les bases de données génétiques et généalogiques, ce seuil pourrait être atteint dans les prochaines années si les tests ADN récréatifs se poursuivent au rythme actuel. Deux pour cent ne représentent qu’environ quatre millions de personnes, sur la base des données du recensement américain le plus récent.
Une telle ressource élargirait considérablement le nombre, et le type de personnes, auxquelles les forces de l’ordre pourraient avoir accès lorsqu’elles poursuivent une piste. Les bases de données sur les délinquants, où la police stocke l’ADN de près de 17 millions de personnes – des criminels condamnés et, dans certains États, des personnes arrêtées – sont fortement axées sur les populations afro-américaines et hispaniques. Depuis les premiers jours des tests ADN, l’incompatibilité technologique entre les méthodes a créé un pare-feu pratique entre les bases de données sur les délinquants et les bases de données génétiques à des fins récréatives ou de recherche. Les services chargés de l’application de la loi ne collectent et n’analysent que les parties non codantes hautement variables du génome, en comptant le nombre de répétitions de ces séquences « inutiles ». Il s’agit essentiellement d’une chaîne de chiffres qui ne révèle rien de personnellement identifiable en soi. Mais il est très spécifique à un individu, comme un code-barres ou une empreinte digitale. Et c’est bon marché et rapide. Parfait à des fins d’application de la loi.
En revanche, la plupart des tests ADN médicaux et récréatifs impliquent soit un séquençage complet, soit des tableaux de génotypes – une collection de changements qui se produisent chacun à un seul endroit dans un gène. Ces SNP sont la raison pour laquelle vous avez les yeux verts ou les cheveux frisés, ou une prédisposition aux maladies cardiaques. Ils sont également beaucoup plus utiles pour retrouver les membres d’une famille. Comme ces deux types de bases de données ne pouvaient pas communiquer, les enquêteurs chargés de l’affaire du Golden State Killer ont dû extraire l’ADN d’un ancien échantillon prélevé sur la scène du crime, créer un profil SNP et le télécharger sur GEDmatch. Mais maintenant, ils n’auront même pas à le faire.
Un deuxième article, publié aujourd’hui dans Cell, montre pour la première fois qu’il est possible d’effectuer des recherches familiales à longue portée sur des données provenant de bases de données de délinquants. Le groupe de Noah Rosenberg, de l’université de Stanford, avait déjà montré qu’il était possible de relier les dossiers entre les deux types de bases de données, en faisant correspondre les SNP proches aux répétitions non codantes. Publiée l’année dernière, cette recherche n’a pas suscité beaucoup d’intérêt. « Des grillons », dit Rosenberg. Mais ce dernier travail, qui explore la compatibilité croisée des deux bases de données pour trouver des parents, a une pertinence nouvelle et profonde dans le sillage de l’affaire du Golden State Killer.
« Cela pourrait être un moyen d’étendre la portée de la génétique médico-légale, potentiellement pour résoudre encore plus d’affaires non résolues », dit Rosenberg. « Mais en même temps, cela pourrait exposer les participants à ces bases de données à des recherches médico-légales qu’ils n’auraient peut-être pas anticipées. »
Selon les experts juridiques, cependant, la plus grande affaire est que le travail de Rosenberg révèle qu’il y a beaucoup plus d’informations contenues dans un profil d’ADN médico-légal qu’on ne le pensait auparavant. En effet, il est possible de l’utiliser pour prédire avec précision les régions codantes du génome – les parties concernant les yeux verts, les cheveux frisés ou les problèmes cardiaques. « Toutes les décisions de la Cour suprême expliquant pourquoi les bases de données existantes sur les délinquants ne violent pas les droits du quatrième amendement reposent sur la présomption que rien de personnel ne peut être glané à partir de cet ADN poubelle », explique Andrea Roth, directrice du Center for Law and Technology de l’UC Berkeley. « Maintenant, tout cela est en suspens ».
Rosenberg n’a pas publié de logiciel avec son article, il faudrait donc encore un peu de travail pour que le calcul soit opérationnel. Mais il affirme que toute personne ayant accès à de multiples bases de données dispose de toutes les informations nécessaires pour commencer à utiliser cette technique. Ce qui signifie que les mesures de protection de la vie privée intégrées pourraient s’effondrer assez rapidement. Le document est conçu comme un coup de semonce, pour montrer aux décideurs ce qui est possible avec la technologie d’aujourd’hui, et Rosenberg espère qu’il suscite des conversations très nécessaires sur la façon dont les informations génétiques sont stockées et utilisées à l’avenir.
Erlich et ses coauteurs sont allés encore plus loin pour faire des recommandations sur les changements nécessaires pour s’assurer que des ressources comme GEDmatch, qui fournissent un service essentiel aux personnes à la recherche de parents perdus depuis longtemps et aux adoptés à la recherche de leurs familles biologiques, restent en ligne dans une capacité sûre. Ils ont exhorté le ministère américain des services sociaux à revoir la portée des informations de santé personnellement identifiables pour y inclure les données génomiques anonymes. Ils ont également présenté une stratégie de cryptage qui créerait une chaîne de responsabilité, afin que les bases de données tierces puissent signaler les utilisateurs qui tentent d’analyser des données génétiques qui ne sont pas les leurs. Mais même si tous les fournisseurs de génomique grand public adhéraient à ce système, cela pourrait ne pas suffire.
« Je pense que le résultat final est maintenant que tout le monde est sur le point d’être sous surveillance génétique d’une manière ou d’une autre, à moins que nous ne régulions la capacité du gouvernement à effectuer des recherches généalogiques », dit Roth. Elle suggère un système similaire à la façon dont la Californie réglemente actuellement les recherches familiales plus traditionnelles dans ses bases de données sur les délinquants. Elles ne peuvent être utilisées que pour enquêter sur des crimes violents – homicides ou agressions sexuelles – et la portée de la recherche est limitée, afin d’éviter que des centaines d’innocents ne soient piégés dans l’enquête. Et un comité de surveillance peut intervenir et empêcher la divulgation par inadvertance d’informations sensibles, par exemple que le père d’une personne n’est pas vraiment son père. « C’est ce qui est si ironique dans tout ça », dit Roth. « Si vous êtes le parent de quelqu’un dans le CODIS , vous avez beaucoup plus de droits à la confidentialité génétique que si vous êtes le parent de quelqu’un dans GEDMatch. » Avec suffisamment d’ADN, peu importe si vous voulez être retrouvé ou non. L’option de refus n’est plus une option.
Plus de grandes histoires de WIRED
- Tant de tests génétiques, si peu de personnes pour vous les expliquer
- Quand la technologie vous connaît mieux que vous ne vous connaissez vous-même
- Ces lunettes de soleil magiques bloquent tous les écrans autour de vous
- Tout ce que vous devez savoir sur les théories de conspiration en ligne
- Inside the Black Mirror world of polygraph job screenings
- Vous en voulez plus ? Inscrivez-vous à notre newsletter quotidienne et ne manquez jamais nos dernières et meilleures histoires
.