Les technologies de séquençage à haut débit, notamment celles d’Illumina, Roche Diagnostics (454) et Life Technologies (SOLiD), permettent le séquençage du génome entier à une échelle sans précédent et à des coûts considérablement réduits par rapport à la technologie du gel capillaire utilisée dans le projet du génome humain. Ces technologies ont été au cœur de la décision prise en 2007 de lancer le projet 1000 génomes, un effort visant à caractériser de manière exhaustive les variations humaines dans de multiples populations. Dans la phase pilote du projet, les données ont contribué à créer une vue étendue de la variation génétique humaine à l’échelle de la population1.
Les volumes de données plus importants et les longueurs de lecture plus courtes des technologies de séquençage à haut débit ont créé de nouvelles exigences substantielles pour les méthodes de bioinformatique, d’analyse et de distribution des données. Le plan initial du projet 1000 génomes consistait à collecter une couverture 2× du génome entier pour 1 000 individus, ce qui représente ∼6 giga-paires de base de séquence par individu et ∼6 tera-paires de base (Tbp) de séquence au total. L’augmentation de la capacité de séquençage a entraîné des révisions répétées de ces plans jusqu’à l’échelle actuelle du projet, qui consiste à collecter une séquence à faible couverture, ∼4× le génome entier et ∼20× l’exome entier pour ∼2 500 individus, plus une séquence à forte couverture, ∼40× le génome entier pour 500 individus au total (∼25 fois plus de séquences générées par rapport aux estimations initiales). En fait, le projet pilote 1000 génomes a recueilli 5 Tbp de données de séquences, ce qui a donné lieu à 38 000 fichiers et à plus de 12 téraoctets de données mis à la disposition de la communauté1. En mars 2012, les ressources du projet, toujours en croissance, comprennent plus de 260 téraoctets de données dans plus de 250 000 fichiers accessibles au public.
Comme dans les efforts précédents2,3,4, les membres du projet 1000 génomes ont reconnu que la coordination des données serait essentielle pour avancer de manière productive et pour s’assurer que les données soient disponibles pour la communauté dans un délai raisonnable. Par conséquent, le Centre de coordination des données (DCC) a été mis en place conjointement entre l’Institut européen de bioinformatique (EBI) et le Centre national de biotechnologie (NCBI) pour gérer le flux de données spécifiques au projet, pour assurer le dépôt des données de séquence archivées et pour gérer l’accès de la communauté par le biais du site FTP et du navigateur de génome.
Nous décrivons ici les méthodes utilisées par les membres du projet 1000 génomes pour fournir des ressources de données à la communauté, des données de séquence brutes aux résultats du projet qui peuvent être parcourus. Nous fournissons des exemples tirés des méthodes de traitement des données du projet pour démontrer les composants clés des flux de travail complexes.
Flux de données
Gérer le flux de données dans le projet 1000 génomes de sorte que les données soient disponibles au sein du projet et pour la communauté plus large est le défi bioinformatique fondamental pour le CDC (figure 1 et tableau supplémentaire 1). Avec neuf centres de séquençage différents et plus de deux douzaines de groupes d’analyse majeurs1, les défis initiaux les plus importants sont (i) de rassembler toutes les données de séquençage de manière centralisée pour le contrôle de qualité et la normalisation nécessaires ; (ii) d’échanger les données entre les institutions participantes ; (iii) d’assurer la disponibilité rapide à la fois des données de séquençage et des résultats d’analyse intermédiaires aux groupes d’analyse ; (iv) de maintenir un accès facile aux fichiers de séquences, d’alignement et de variantes et à leurs métadonnées associées ; et (v) de fournir ces ressources à la communauté.
Ces dernières années, les vitesses de transfert des données à l’aide de protocoles basés sur TCP/IP tels que FTP n’ont pas été adaptées à l’augmentation de la capacité de production de séquences. En réponse, certains groupes ont eu recours à l’envoi de disques durs physiques avec des données de séquence5, bien que la manipulation des données de cette manière soit très laborieuse. En même temps, les exigences en matière de transfert de données pour les données de séquences restent bien inférieures à celles rencontrées en physique et en astronomie, de sorte que la construction d’une infrastructure de réseau dédiée n’était pas justifiée. Au lieu de cela, les membres du projet ont choisi de s’appuyer sur une solution de transfert Internet de la société Aspera, une méthode basée sur le protocole UDP qui permet d’atteindre des taux de transfert de données 20 à 30 fois plus rapides que le protocole FTP dans une utilisation typique. Grâce à Aspera, la capacité de soumission combinée de l’EBI et du NCBI approche actuellement les 30 téraoctets par jour, les deux sites étant prêts à se développer au fur et à mesure que la capacité de séquençage mondiale augmente.
Le projet 1000 Génomes a été responsable des premières soumissions de bases de données multiples aux deux archives de lecture de séquences (SRA) : la SRA de l’EBI, fournie en tant que service de l’European Nucleotide Archive (ENA), et la SRA du NCBI6. Au cours du projet, les principaux centres de séquençage ont développé des méthodes automatisées de soumission des données à l’EBI ou au NCBI, tandis que les deux bases de données SRA ont développé des méthodes généralisées de recherche et d’accès aux données archivées. Les formats de données acceptés et distribués à la fois par les archives et le projet ont également évolué, passant des fichiers de format de lecture de séquence (SRF) volumineux aux formats plus compacts BAM (Binary Alignment/Map)7 et FASTQ (tableau 1). Ce changement de format a été rendu possible par une meilleure compréhension des besoins du groupe d’analyse du projet, ce qui a conduit à la décision de cesser d’archiver les mesures d’intensité brutes des données de lecture pour se concentrer exclusivement sur les appels de base et les scores de qualité.
En tant que » projet de ressources communautaires « 8, le projet 1000 génomes publie publiquement les données de prépublication telles que décrites ci-dessous aussi rapidement que possible. Le projet dispose de sites de téléchargement en miroir à l’EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) et au NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) qui permettent un accès simultané au projet et à la communauté et augmentent efficacement la capacité globale de téléchargement. La copie principale est directement mise à jour par le DCC à l’EBI, et la copie du NCBI est généralement mise en miroir dans les 24 heures via un processus automatique nocturne d’Aspera. En général, les utilisateurs des Amériques accéderont plus rapidement aux données à partir du miroir du NCBI, tandis que les utilisateurs d’Europe et d’ailleurs dans le monde téléchargeront plus rapidement à partir de la copie maîtresse de l’EBI.
Les données de séquence brutes, sous forme de fichiers FASTQ, apparaissent sur le site FTP de 1000 Génomes dans les 48 à 72 h après que le SRA de l’EBI les a traitées. Ce traitement exige que les données soumises à l’origine au SRA du NCBI soient d’abord reproduites à l’EBI. Les données du projet sont gérées par des gels de données périodiques associés à un fichier sequence.index daté (note supplémentaire). Ces fichiers ont été produits environ tous les deux mois pendant la phase pilote, et pour le projet complet, la fréquence de publication varie en fonction de la production des centres de production et des exigences du groupe d’analyse.
Les alignements basés sur un fichier sequence.index spécifique sont produits au sein du projet et distribués via le site FTP au format BAM, et les résultats d’analyse sont distribués au format variant call (VCF)9. Les fichiers d’index créés par le logiciel Tabix10 sont également fournis pour les fichiers BAM et VCF.
Toutes les données sur le site FTP ont été soumises à un processus de contrôle de qualité étendu. Pour les données de séquence, cela comprend la vérification de la syntaxe et de la qualité des données de séquence brutes et la confirmation de l’identité de l’échantillon. Pour les données d’alignement, le contrôle de qualité comprend la vérification de l’intégrité des fichiers et de la cohérence des métadonnées (note supplémentaire).
Accès aux données
L’ensemble des données du projet 1000 génomes est disponible, et l’approche la plus logique pour l’obtenir est de mettre en miroir le contenu du site FTP, qui représente, en mars 2012, plus de 260 téraoctets. D’après notre expérience, la plupart des utilisateurs sont plus intéressés par les résultats d’analyse et les données brutes ciblées ou les tranches d’alignement de régions spécifiques du génome plutôt que par l’ensemble des données. En effet, les fichiers d’analyse sont distribués via le site FTP dans des répertoires nommés en fonction de la date de gel de la séquence.index sur laquelle ils sont basés (note supplémentaire). Cependant, avec des centaines de milliers de fichiers disponibles, la localisation et l’accès à des données de projet spécifiques en parcourant la structure des répertoires FTP peuvent être extrêmement difficiles.
Un fichier appelé current.tree est fourni à la racine du site FTP pour faciliter la recherche sur le site. Ce fichier a été conçu pour permettre la mise en miroir du site FTP et contient une liste complète de tous les fichiers et répertoires, y compris l’heure de la dernière mise à jour et les informations sur l’intégrité des fichiers. Nous avons développé une interface web (http://www.1000genomes.org/ftpsearch/) pour fournir un accès direct au fichier current.tree en utilisant n’importe quel(s) identifiant(s) d’échantillon spécifié(s) par l’utilisateur ou d’autres informations trouvées dans nos noms de fichiers de données, qui suivent une convention stricte pour faciliter la recherche. La recherche renvoie les chemins de fichier complets vers le site FTP de l’EBI ou du NCBI et prend en charge les filtres pour exclure les types de fichiers susceptibles de produire un grand nombre de résultats, tels que les fichiers FASTQ ou BAM (note supplémentaire).
Pour les utilisateurs souhaitant découvrir des variants ou des alignements de régions génomiques spécifiques sans télécharger les fichiers complets, ils peuvent obtenir des sous-sections de fichiers BAM et VCF soit directement avec Tabix, soit via un outil de découpage de données basé sur le Web (note supplémentaire). Les fichiers VCF peuvent également être divisés par nom d’échantillon ou par population à l’aide de l’outil de découpage des données.
On peut visualiser les données de 1000 Génomes dans le contexte d’une annotation étendue du génome, comme les gènes codant pour les protéines et les informations de régulation du génome entier par le biais du navigateur dédié de 1000 Génomes basé sur l’infrastructure Ensembl11 (http://browser.1000genomes.org/). Le navigateur affiche les variantes du projet avant qu’elles ne soient traitées par dbSNP ou qu’elles n’apparaissent dans des ressources génomiques telles qu’Ensembl ou le navigateur génomique de l’Université de Californie Santa Cruz (UCSC). Le navigateur 1000 Genomes fournit également les outils de variation d’Ensembl, y compris le Variant Effect Predictor (VEP)12 ainsi que les prédictions SIFT13 et PolyPhen14 pour tous les variants non synonymes (note supplémentaire). Le navigateur permet de visualiser les fichiers BAM et VCF indexés du projet 1000 Genomes et d’autres fichiers accessibles sur le Web dans un contexte génomique (Fig. 2). Une version d’archivage stable du navigateur 1000 Génomes basée sur la version 60 du code Ensembl et contenant les données du projet pilote est disponible à l’adresse http://pilotbrowser.1000genomes.org/.
Les bases de données MySQL sous-jacentes qui soutiennent le navigateur de projet sont également disponibles publiquement et celles-ci peuvent être directement interrogées ou accessibles par programme en utilisant la version appropriée de l’interface de programmation d’application (API) d’Ensembl (note supplémentaire).
Les utilisateurs peuvent également explorer et télécharger les données du projet en utilisant le navigateur de données du NCBI à http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Le navigateur affiche à la fois les lectures de séquence et les génotypes individuels pour n’importe quelle région du génome. La séquence des individus sélectionnés couvrant la région affichée peut être téléchargée au format BAM, SAM, FASTQ ou FASTA. Les génotypes peuvent également être téléchargés au format VCF (note supplémentaire).
Le projet soumet tous les variants appelés aux dépôts appropriés en utilisant l’identifiant « 1000GENOMES ». Les polymorphismes mononucléotidiques et les petits indels du projet pilote ont été soumis à dbSNP15, et les données de variation structurelle ont été soumises à l’archive Database of Genomic Variants (DGVa)16. Les variantes complètes du projet seront soumises de manière similaire.
Pour les utilisateurs d’Amazon Web Services, tous les fichiers BAM et VCF du projet actuellement disponibles sont disponibles en tant qu’ensemble de données publiques via http://1000genomes.s3.amazonaws.com/ (note supplémentaire).
Discussion
Les méthodes de soumission et d’accès aux données développées pour soutenir le projet 1000 génomes offrent des avantages à tous les projets de séquençage à grande échelle et à la communauté au sens large. Le processus d’archivage rationalisé tire parti des deux copies synchronisées de l’ARS, qui répartissent la tâche de traitement des soumissions, très gourmande en ressources. En outre, la proximité du DCC avec le SRA garantit que toutes les données de 1000 Génomes sont mises à la disposition de la communauté le plus rapidement possible et a permis aux archives de bénéficier des leçons apprises par le DCC.
Les projets de génération et d’analyse de données à grande échelle peuvent bénéficier d’une activité de gestion des données organisée et centralisée2,3,4. Les objectifs de telles activités sont de fournir le soutien et l’infrastructure nécessaires au projet tout en veillant à ce que les données soient mises à disposition aussi rapidement et largement que possible. Pour soutenir l’analyse du projet 1000 Génome, le flux de données étendu établi comprend de multiples tests pour garantir l’intégrité et la qualité des données (Fig. 1). Dans le cadre de ce processus, les données sont mises à la disposition des membres du consortium et du public simultanément à des points spécifiques du flux de données, notamment lors de la collecte des données de séquence et de l’achèvement des alignements.
Au delà du soutien direct des besoins du projet, la gestion centralisée des données garantit la création de ressources destinées aux utilisateurs en dehors du groupe d’analyse du consortium. Il s’agit notamment du 1000 Genomes Browser (http://browser.1000genomes.org/), de la soumission des ensembles de données de variantes préliminaires et finales à dbSNP et à dbVar/DGVa, de l’approvisionnement des fichiers d’alignement et de variantes dans le nuage Amazon Web Services, et des services centralisés d’annotation des variations.
Les expériences de gestion des données utilisées pour ce projet reflètent en partie la difficulté d’adopter les systèmes bioinformatiques existants à de nouvelles technologies et en partie le défi des volumes de données beaucoup plus importants que ceux rencontrés précédemment. L’évolution rapide des méthodes d’analyse et de traitement est révélatrice de l’effort de la communauté pour fournir des outils efficaces de compréhension des données.