Le projet 1000 génomes est un consortium de recherche international qui a été créé en 2007 dans le but de séquencer les génomes d’au moins 1000 volontaires issus de multiples populations dans le monde entier afin d’améliorer notre compréhension de la contribution génétique à la santé et aux maladies humaines. De grandes institutions ont apporté leur soutien au projet, notamment le Wellcome Trust Sanger Institute (Royaume-Uni), le Beijing Genomics Institute (Chine) et le National Human Genome Research Institute (États-Unis). L’objectif du projet était de produire un catalogue de la variation humaine jusqu’aux variantes présentes à une fréquence de 1 % ou moins sur le génome, afin de faciliter les études génétiques sur les maladies humaines courantes (1).
Un article majeur, publié dans l’édition du 1er octobre 2015 de Nature, marque l’achèvement de la phase finale de ce projet colossal : une base de données complète, en accès libre, de la variation génétique de 2 504 individus issus de 26 populations à travers le monde (2). Les génotypes ont été obtenus en combinant le séquençage du génome entier, le séquençage profond de l’exome et des microréseaux à haute densité de polymorphismes de nucléotides simples (SNP). La caractérisation des variants était basée sur un ensemble de 24 outils d’analyse de séquence. Dans l’ensemble, le projet a permis de découvrir et de caractériser plus de 88 millions de variants, dont 84,7 millions de SNP, 2,6 millions de courtes insertions/délétions (indels) et 60 000 variants structurels, qui ont été intégrés dans un échafaudage d’haplotype de haute qualité.
Quelques résultats saillants : Par rapport au génome humain de référence, un génome typique diffère sur ~ 4 à 5 millions de sites, 99,9% de ces variants étant des SNP et des indels courts. Le nombre de sites variants est le plus élevé chez les individus d’ascendance africaine, comme prévu par le modèle d’expansion humaine hors d’Afrique. Les analyses des variants les plus susceptibles d’affecter la fonction des gènes ont révélé qu’un génome type contenait environ 150 sites avec des variants tronquant des protéines, environ 10 000 sites avec des variants modifiant la séquence peptidique et environ 500 000 sites de variants chevauchant des régions régulatrices telles que des promoteurs, des amplificateurs ou des sites de liaison de facteurs de transcription. Il est important de noter qu’environ 2 000 variants par génome ont été associés à des traits complexes par le biais d’études d’association pangénomique (GWAS) et que 24 à 30 variants par génome ont été impliqués dans des maladies rares par le biais de ClinVar (une base de données sur les relations entre les variations humaines et les phénotypes). D’autres analyses ont fourni des informations sur l’histoire de la population, la démographie des populations ancêtres et la résolution des études d’association génétique (2).
Les résultats du projet 1000 génomes, qui témoignent des avantages de la « science basée sur un consortium », complètent un ensemble d’informations génomiques déjà utilisées depuis plusieurs années. Ces informations sont particulièrement utiles pour la conception des réseaux de génotypage, la génétique des populations (par exemple, l’imputation des génotypes dans les études d’association pangénomiques, la définition des variants dans les régions d’intérêt, le filtrage des variants neutres probables) et les études sur la sélection naturelle, la structure des populations et le mélange. Les principaux avantages de l’ensemble de données du projet 1000 génomes comprennent la large représentation de la variation génétique humaine (avec une couverture nettement améliorée des populations d’Asie du Sud et d’Afrique) ; l’utilisation de stratégies d’analyse multiples, augmentant la qualité du filtrage et de la cartographie et permettant la capture de types plus divers de variants génétiques ; et la large disponibilité des échantillons et des données résultant du projet. Dans l’ensemble, ces éléments permettront de mieux comprendre la base génétique des maladies. Ils seront utilisés, par exemple, dans les efforts en cours pour déchiffrer la base génétique du transport péritonéal et le résultat de la dialyse péritonéale.
« Maintenant, ce n’est pas la fin… Mais c’est, peut-être, la fin du commencement » comme disait Winston Churchill. Les projets de séquençage à grande échelle se poursuivront pour d’autres groupes régionaux ou ethniques, afin d’étendre la couverture mondiale. De nombreux efforts seront consacrés à une meilleure compréhension de la relation entre les variations génétiques et les troubles courants. L’application de ces informations génétiques massives à la santé humaine bénéficiera du développement de bases de données complexes rassemblant des données génétiques, cliniques et biologiques, telles que les profils multi-omiques, tout en maintenant la protection des informations personnelles potentiellement sensibles (3). Des efforts sont également en cours pour sensibiliser le public à la génétique et éduquer les professionnels de la santé (http://www.1000genomes.org/about).