En 2013, un joven biólogo computacional llamado Yaniv Erlich conmocionó al mundo de la investigación al demostrar que era posible desenmascarar las identidades de las personas que figuraban en bases de datos genéticos anónimas utilizando únicamente una conexión a Internet. Los responsables políticos respondieron restringiendo el acceso a los grupos de datos genéticos biomédicos anónimos. Un funcionario de los Institutos Nacionales de Salud (NIH) dijo entonces: «Las posibilidades de que esto ocurra para la mayoría de la gente son pequeñas, pero no son nulas».
Hay que avanzar cinco años y la cantidad de información sobre el ADN alojada en los almacenes de datos digitales se ha disparado, y no hay señales de que vaya a disminuir. Empresas de consumo como 23andMe y Ancestry han creado hasta ahora los perfiles genéticos de más de 12 millones de personas, según estimaciones recientes del sector. Los clientes que descargan su propia información pueden optar por añadirla a sitios web públicos de genealogía como GEDmatch, que adquirió notoriedad nacional a principios de este año por su papel a la hora de guiar a la policía hacia un sospechoso en el caso del Asesino del Estado de Oro.
Estos árboles genealógicos entrelazados, que conectan a las personas a través de trozos de ADN, han crecido tanto que pueden utilizarse para encontrar a más de la mitad de la población estadounidense. De hecho, según una nueva investigación dirigida por Erlich, publicada hoy en Science, más del 60 por ciento de los estadounidenses con ascendencia europea pueden ser identificados a través de su ADN utilizando bases de datos genéticas abiertas, independientemente de si alguna vez han enviado un kit de escupitajos.
«La conclusión es que no importa si te has sometido a una prueba o no», dice Erlich, que ahora es el director científico de MyHeritage, el tercer mayor proveedor genético de los consumidores detrás de 23andMe y Ancestry. «Puedes ser identificado porque las bases de datos ya cubren fracciones muy grandes de los EE.UU., al menos para la ascendencia europea.»
Para hacer estas estimaciones, Erlich y sus colaboradores de la Universidad de Columbia y la Universidad Hebrea de Jerusalén analizaron el conjunto de datos de MyHeritage de 1,28 millones de individuos anónimos, que es, como la mayoría de las bases de datos genéticos del mundo, abrumadoramente blanco. Considerando a cada uno de esos individuos como un «objetivo» humano, contaron el número de parientes con grandes trozos de ADN coincidente y descubrieron que el 60 por ciento de las búsquedas daban como resultado un primo tercero o más cercano. Ese nivel de parentesco era todo lo que necesitaban los investigadores para localizar al «Asesino del Estado Dorado» y los otros 17 casos que se han resuelto hasta ahora con este método, conocido por las fuerzas del orden como búsqueda familiar de largo alcance. Para validar sus hallazgos, el equipo de Erlich introdujo 30 perfiles genéticos en GEDmatch y obtuvo resultados similares, ya que el 76% de las búsquedas arrojaron parientes en el rango de primos terceros o más cercanos.
Este análisis proporciona una lista de unos 850 individuos, dependiendo de lo prolíficos que fueran los antepasados de una persona. Pero a partir de ahí, la información demográfica básica puede reducir la lista con bastante rapidez. Los registros públicos que indican el lugar de residencia de una persona en un radio de 100 millas reducen el grupo de candidatos a la mitad. Si se conoce la edad de la persona hasta un máximo de cinco años, se excluye a 9 de cada 10 candidatos restantes. El sexo, que puede deducirse de la genética, reduce la lista a unos 16 individuos. Si se conoce el año exacto de nacimiento se puede reducir a una o dos personas.
Para demostrar lo fácil que es, los investigadores eligieron a una mujer anónima del Proyecto 1000 Genomas -un proyecto de secuenciación de acceso abierto- que estaba casada con el hombre que Erlich había identificado previamente en su exitoso artículo de 2013. Reformatearon sus datos de ADN para que se parecieran a un perfil genético típico de consumidor y lo subieron a GEDmatch. Aparecieron dos parientes, uno en Dakota del Norte y otro en Wyoming. La coincidencia sugería que tenían un parentesco lejano de cuatro a seis generaciones atrás. Tras una hora de búsqueda en los registros públicos, el equipo encontró a los cónyuges. A partir de ahí, los investigadores rastrearon los pedigríes de cientos de descendientes hasta llegar a la identidad de su objetivo. En total, el esfuerzo duró un solo día.
Según Erlich, no pasará mucho tiempo antes de que sea posible hacer ese tipo de búsqueda en cualquier persona que deje un poco de ADN por ahí. El estudio reveló que una vez que una base de datos genéticos cubre aproximadamente el dos por ciento de los adultos de una determinada población étnica, se espera una coincidencia de un primo tercero o más cercano para casi cualquier persona de interés. En el caso de los estadounidenses de ascendencia europea, que están mejor representados en las bases de datos genéticos y genealógicos, ese umbral podría alcanzarse en los próximos años si las pruebas de ADN recreativas continúan al ritmo actual. El dos por ciento son sólo unos cuatro millones de personas, según los datos más recientes del censo de EE.UU.
Un recurso de este tipo ampliaría enormemente el número y el tipo de personas a las que las fuerzas de seguridad podrían tener acceso a la hora de seguir una pista. Las bases de datos de delincuentes, en las que la policía almacena el ADN de cerca de 17 millones de personas -criminales condenados y, en algunos estados, detenidos- se inclinan en gran medida hacia la población afroamericana e hispana. Desde los primeros días de las pruebas de ADN, la incompatibilidad tecnológica entre los métodos ha creado un cortafuegos práctico entre las bases de datos de delincuentes y las bases de datos genéticos con fines recreativos o de investigación. Las fuerzas del orden sólo recogen y analizan las partes no codificantes del genoma, muy variables, y cuentan el número de veces que se repiten estas secuencias «basura». En esencia, se trata de una cadena de números: no revela nada personalmente identificable por sí mismo. Pero es muy exclusivo de un individuo, como un código de barras o una huella dactilar. Y es barato y rápido. Por el contrario, la mayoría de las pruebas de ADN médicas y recreativas implican la secuenciación completa o las matrices de genotipos, un conjunto de cambios que se producen en un solo lugar de un gen. Estos SNP son la razón por la que usted tiene ojos verdes o pelo rizado, o una predisposición a las enfermedades del corazón. También son mucho más útiles para encontrar miembros de la familia. Como estos dos tipos de bases de datos no podían comunicarse, los investigadores del caso del Asesino del Estado Dorado tuvieron que extraer el ADN de una antigua muestra de la escena del crimen, crear un perfil de SNP y subirlo a GEDmatch. Pero ahora, ni siquiera tendrán que hacer eso.
Un segundo trabajo, publicado hoy en Cell, muestra por primera vez que es posible realizar búsquedas familiares de largo alcance en los datos de las bases de datos de delincuentes. El grupo de Noah Rosenberg, de la Universidad de Stanford, había demostrado anteriormente que se podían enlazar registros entre los dos tipos de bases de datos, mediante la asignación de SNP cercanos a las repeticiones no codificantes. Publicada el año pasado, la investigación no recibió mucha atención. «Grillos», dice Rosenberg. Pero este último trabajo, que explora la compatibilidad cruzada de las dos bases de datos para encontrar parientes, tiene una nueva y profunda relevancia a raíz del caso del Asesino del Estado Dorado.
«Esto podría ser una forma de ampliar el alcance de la genética forense, potencialmente para resolver aún más casos sin resolver», dice Rosenberg. «Pero al mismo tiempo podría estar exponiendo a los participantes en esas bases de datos a búsquedas forenses que podrían no haber previsto».
Sin embargo, según los expertos legales, lo más importante es que el trabajo de Rosenberg revela que hay mucha más información contenida en un perfil de ADN forense de lo que se pensaba. Esto se debe a que se puede utilizar para predecir con exactitud las regiones codificadas del genoma: las partes de ojos verdes, pelo rizado y afecciones cardíacas. «Todas las decisiones del Tribunal Supremo sobre por qué las bases de datos de delincuentes existentes no violan los derechos de la Cuarta Enmienda se basan en la presunción de que no se puede extraer nada personal de este ADN basura», dice Andrea Roth, directora del Centro de Derecho y Tecnología de la UC Berkeley. «Ahora todo eso está en el aire».
Rosenberg no publicó ningún programa informático con su artículo, por lo que todavía se necesitaría algo de trabajo para poner en marcha el cálculo. Pero dice que cualquiera que tenga acceso a múltiples bases de datos tiene toda la información que necesita para empezar a utilizar la técnica. Lo que significa que las salvaguardias de privacidad incorporadas podrían desmoronarse con bastante rapidez. El documento pretende ser una advertencia para mostrar a los responsables políticos lo que es posible con la tecnología actual, y Rosenberg espera que estimule las conversaciones necesarias sobre cómo se almacena y utiliza la información genética en el futuro.
Erlich y sus coautores fueron aún más lejos para hacer recomendaciones sobre los cambios necesarios para garantizar que recursos como GEDmatch, que proporcionan un servicio esencial a las personas que buscan parientes perdidos hace mucho tiempo y a los adoptados que buscan a sus familias biológicas, permanezcan en línea de forma segura. Instaron al Departamento de Servicios Humanos de EE.UU. a revisar el alcance de la información sanitaria personalmente identificable para incluir los datos genómicos anonimizados. Y esbozaron una estrategia de encriptación que crearía una cadena de custodia, de modo que las bases de datos de terceros podrían señalar a los usuarios que intentaran analizar datos genéticos que no fueran suyos. Pero incluso si todos los proveedores de genómica de los consumidores se adhirieran a este sistema, podría no ser suficiente.
«Creo que la conclusión es que ahora todo el mundo está a punto de estar bajo vigilancia genética de una forma u otra, a menos que regulemos la capacidad del gobierno para realizar búsquedas genealógicas», dice Roth. Sugiere un sistema similar a la forma en que California regula actualmente las búsquedas familiares más tradicionales de sus bases de datos de delincuentes. Sólo pueden utilizarse para investigar delitos violentos -homicidios o agresiones sexuales- y el alcance de la búsqueda es limitado, para evitar que cientos de personas inocentes queden atrapadas en la investigación. Y hay un comité de supervisión que puede intervenir y evitar la divulgación involuntaria de información sensible que pueda surgir, por ejemplo, que el padre de alguien no sea realmente su padre. «Eso es lo irónico de todo esto», dice Roth. «Si eres pariente de alguien en CODIS , tienes muchos más derechos a la privacidad genética que si eres pariente de alguien en GEDMatch». Con suficiente ADN, no importa si quieres que te encuentren o no. Optar por no hacerlo ya no es una opción.
Más grandes historias de WIRED
- Tantas pruebas genéticas, tan poca gente para explicártelas
- Cuando la tecnología te conoce mejor de lo que te conoces a ti mismo
- Estas gafas de sol mágicas bloquean todas las pantallas que te rodean
- Todo lo que necesitas saber sobre las teorías de la conspiración en la red
- Dentro del mundo Black Mirror de las revisiones laborales con polígrafo
- ¿Quieres más? Suscríbete a nuestro boletín diario y no te pierdas nunca nuestras últimas y mejores historias