El Proyecto 1000 Genomas es un consorcio internacional de investigación que se creó en 2007 con el objetivo de secuenciar los genomas de al menos 1.000 voluntarios de múltiples poblaciones de todo el mundo para mejorar nuestra comprensión de la contribución genética a la salud y la enfermedad humanas. El proyecto contó con el apoyo global de importantes instituciones, como el Instituto Wellcome Trust Sanger (Reino Unido), el Instituto de Genómica de Pekín (China) y el Instituto Nacional de Investigación del Genoma Humano de Estados Unidos. El objetivo del proyecto era elaborar un catálogo de la variación humana hasta las variantes que se producen con una frecuencia del 1% o menos en el genoma, con el fin de facilitar los estudios genéticos sobre las enfermedades humanas comunes (1).
Un importante artículo, publicado en el número del 1 de octubre de 2015 de la revista Nature, marca la finalización de la última fase del colosal proyecto: una base de datos completa y de libre acceso de la variación genética de 2.504 individuos de 26 poblaciones de todo el mundo (2). Los genotipos se obtuvieron mediante una combinación de secuenciación del genoma completo, secuenciación profunda del exoma y microarrays de polimorfismos de un solo nucleótido (SNP) de alta densidad. La caracterización de las variantes se basó en un conjunto de 24 herramientas de análisis de secuencias. En total, el proyecto descubrió y caracterizó más de 88 millones de variantes, incluidos 84,7 millones de SNP, 2,6 millones de inserciones/deleciones cortas (indels) y 60.000 variantes estructurales, que se integraron en un andamiaje de haplotipos de alta calidad.
Algunas conclusiones destacadas: En comparación con el genoma humano de referencia, un genoma típico difiere en ~ 4 a 5 millones de sitios, siendo el 99,9% de estas variantes SNPs e indels cortos. El número de sitios de variantes es mayor en los individuos de ascendencia africana, como se espera del modelo de expansión humana fuera de África. Los análisis de las variantes que más probablemente afectan a la función de los genes revelaron que un genoma típico contenía ~150 sitios con variantes de truncamiento de proteínas, ~10.000 sitios con variantes de alteración de la secuencia peptídica y ~ 500.000 sitios de variantes que se superponen a regiones reguladoras como promotores, potenciadores o sitios de unión a factores de transcripción. Cabe destacar que ~2.000 variantes por genoma se asociaron con rasgos complejos a través de estudios de asociación de todo el genoma (GWAS) y entre 24 y 30 variantes por genoma implicadas en enfermedades raras a través de ClinVar (una base de datos de las relaciones entre las variaciones humanas y los fenotipos). Otros análisis proporcionaron información sobre la historia de la población, la demografía de las poblaciones ancestrales y la resolución de los estudios de asociación genética (2).
Los resultados del Proyecto 1000 Genomas, que dan fe de los beneficios de la «ciencia basada en el consorcio», completan un conjunto de información genómica que ya se utiliza desde hace varios años. Esta información es especialmente útil para el diseño de matrices de genotipado, la genética de poblaciones (por ejemplo, la imputación de genotipos en los GWAS, la definición de variantes en regiones de interés, el filtrado de probables variantes neutras) y las investigaciones sobre la selección natural, la estructura de la población y la mezcla. Las principales ventajas del conjunto de datos del Proyecto 1000 Genomas incluyen la amplia representación de la variación genética humana (con una cobertura muy mejorada de las poblaciones sudasiáticas y africanas); el uso de múltiples estrategias de análisis, lo que aumenta la calidad del filtrado y la cartografía y permite la captura de tipos más diversos de variantes genéticas; y la amplia disponibilidad de muestras y datos resultantes del proyecto. En conjunto, estos elementos contribuirán a proporcionar más información sobre las bases genéticas de las enfermedades. Se utilizarán, por ejemplo, en los esfuerzos que se están llevando a cabo para descifrar las bases genéticas del transporte peritoneal y el resultado de la diálisis peritoneal.
«Ahora bien, esto no es el final… Pero es, quizás, el final del principio», como dijo Winston Churchill. Los proyectos de secuenciación a gran escala continuarán para más grupos regionales o étnicos, con el fin de ampliar la cobertura mundial. Gran parte de los esfuerzos se centrarán en una mejor comprensión de la relación entre la variación genética y los trastornos comunes. La traslación de esta información genética masiva a la salud humana se beneficiará del desarrollo de bases de datos complejas que reúnan datos genéticos, clínicos y biológicos, como los perfiles multiómicos, manteniendo al mismo tiempo la protección de la información personal potencialmente sensible (3). También se están realizando esfuerzos para aumentar la conciencia genética en el público y para educar a los profesionales de la salud (http://www.1000genomes.org/about).