Le tecnologie di sequenziamento ad alta velocità, comprese quelle di Illumina, Roche Diagnostics (454) e Life Technologies (SOLiD), consentono il sequenziamento dell’intero genoma su una scala senza precedenti e a costi drasticamente ridotti rispetto alla tecnologia capillare del gel utilizzata nel progetto del genoma umano. Queste tecnologie sono state al centro della decisione nel 2007 di lanciare il Progetto 1000 Genomi, uno sforzo per caratterizzare in modo completo la variazione umana in più popolazioni. Nella fase pilota del progetto, i dati hanno contribuito a creare una visione estesa su scala di popolazione della variazione genetica umana1.
I grandi volumi di dati e le lunghezze di lettura più corte delle tecnologie di sequenziamento ad alta velocità hanno creato nuovi requisiti sostanziali per i metodi di bioinformatica, analisi e distribuzione dei dati. Il piano iniziale per il Progetto 1000 Genomi era quello di raccogliere una copertura 2× del genoma intero per 1.000 individui, che rappresentava ∼6 giga coppie di basi di sequenza per individuo e ∼6 tera coppie di basi (Tbp) di sequenza in totale. L’aumento della capacità di sequenziamento ha portato a ripetute revisioni di questi piani fino all’attuale scala del progetto di raccolta di sequenze a bassa copertura, ∼4× whole-genome e ∼20× whole-exome per ∼2.500 individui più un’alta copertura, ∼40× whole-genome per 500 individui in totale (∼25 volte maggiore nella generazione di sequenza rispetto alle stime originali). Infatti, il Progetto Pilota 1000 Genomi ha raccolto 5 Tbp di dati di sequenza, con il risultato di 38.000 file e oltre 12 terabyte di dati a disposizione della comunità1. Nel marzo 2012 le risorse del progetto, ancora in crescita, includono più di 260 terabyte di dati in più di 250.000 file accessibili al pubblico.
Come negli sforzi precedenti2,3,4, i membri del Progetto 1000 Genomi hanno riconosciuto che il coordinamento dei dati sarebbe stato fondamentale per andare avanti in modo produttivo e per garantire che i dati fossero disponibili alla comunità in tempi ragionevoli. Pertanto, il Data Coordination Center (DCC) è stato istituito congiuntamente tra l’European Bioinformatics Institute (EBI) e il National Center for Biotechnology (NCBI) per gestire il flusso di dati specifici del progetto, per garantire il deposito dei dati di sequenza archiviati e per gestire l’accesso della comunità attraverso il sito FTP e il browser del genoma.
Si descrivono qui i metodi utilizzati dai membri del Progetto 1000 Genomi per fornire risorse di dati alla comunità, dai dati di sequenza grezzi ai risultati del progetto che possono essere consultati. Forniamo esempi tratti dai metodi di elaborazione dei dati del progetto per dimostrare i componenti chiave di flussi di lavoro complessi.
Flusso di dati
Gestire il flusso di dati nel Progetto 1000 Genomi in modo che i dati siano disponibili all’interno del progetto e alla comunità più ampia è la sfida bioinformatica fondamentale per il DCC (Fig. 1 e Tabella 1 supplementare). Con nove diversi centri di sequenziamento e più di due dozzine di importanti gruppi di analisi1, le sfide iniziali più importanti sono (i) la raccolta di tutti i dati di sequenziamento a livello centrale per il necessario controllo di qualità e la standardizzazione; (ii) lo scambio di dati tra le istituzioni partecipanti; (iii) la rapida disponibilità sia dei dati di sequenziamento che dei risultati intermedi di analisi ai gruppi di analisi; (iv) il mantenimento di un facile accesso ai file di sequenza, allineamento e varianti e ai loro metadati associati; e (v) la fornitura di queste risorse alla comunità.
![](http://media.springernature.com/lw685/springer-static/image/art%3A10.1038%2Fnmeth.1974/MediaObjects/41592_2012_Article_BFnmeth1974_Fig1_HTML.jpg)
I centri di sequenziamento presentano i loro dati grezzi a uno dei due database SRA (freccia 1), che scambiano i dati. Il DCC recupera i file FASTQ dall’SRA (freccia 2) ed esegue le fasi di controllo qualità sui dati. Il gruppo di analisi accede ai dati dal DCC (freccia 3), allinea i dati di sequenza al genoma e usa gli allineamenti per chiamare le varianti. Sia i file di allineamento che i file delle varianti sono forniti al DCC (freccia 4). Tutti i dati vengono rilasciati pubblicamente appena possibile. BCM, Baylor College of Medicine; BI, Broad Institute; WU, Washington University; 454, Roche; AB, Life Technologies; MPI, Max Planck Institute for Molecular Genetics; SC, Wellcome Trust Sanger Institute; IL, Illumina. In risposta, alcuni gruppi hanno fatto ricorso all’invio di dischi rigidi fisici con i dati delle sequenze5, anche se la gestione dei dati in questo modo richiede molto lavoro. Allo stesso tempo, i requisiti di trasferimento dei dati per le sequenze rimangono ben al di sotto di quelli che si incontrano in fisica e astronomia, quindi la costruzione di un’infrastruttura di rete dedicata non era giustificata. Invece, i membri del progetto hanno scelto di affidarsi a una soluzione di trasferimento internet della società Aspera, un metodo basato su UDP che raggiunge velocità di trasferimento dati 20-30 volte più veloci di FTP nell’uso tipico. Usando Aspera, la capacità di invio combinato dell’EBI e dell’NCBI si avvicina attualmente a 30 terabyte al giorno, con entrambi i siti pronti a crescere man mano che la capacità di sequenziamento globale aumenta.
Il Progetto 1000 Genomi è stato responsabile dei primi invii multi-terabase ai due archivi di sequenze di lettura (SRA): l’SRA all’EBI, fornito come servizio dell’Archivio Europeo dei Nucleotidi (ENA), e l’SRA6 dell’NCBI. Nel corso del progetto, i principali centri di sequenziamento hanno sviluppato metodi automatizzati di presentazione dei dati all’EBI o all’NCBI, mentre entrambi i database SRA hanno sviluppato metodi generalizzati per cercare e accedere ai dati archiviati. Anche i formati di dati accettati e distribuiti sia dagli archivi che dal progetto si sono evoluti dai file espansivi del formato di lettura della sequenza (SRF) ai formati più compatti Binary Alignment/Map (BAM)7 e FASTQ (Tabella 1). Questo cambiamento di formato è stato reso possibile da una migliore comprensione delle esigenze del gruppo di analisi del progetto, che ha portato alla decisione di non archiviare più le misure di intensità grezze dai dati di lettura per concentrarsi esclusivamente sulle chiamate di base e sui punteggi di qualità.
Come un “progetto di risorse comunitarie “8, il Progetto 1000 Genomi rilascia pubblicamente i dati di prepubblicazione come descritto di seguito il più rapidamente possibile. Il progetto ha siti di download speculari all’EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) e all’NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) che forniscono l’accesso al progetto e alla comunità simultaneamente e aumentano in modo efficiente la capacità complessiva di download. La copia principale è aggiornata direttamente dal DCC all’EBI, e la copia dell’NCBI è di solito rispecchiata entro 24 ore tramite un processo automatico notturno di Aspera. Generalmente gli utenti nelle Americhe accederanno ai dati più rapidamente dal mirror dell’NCBI, mentre gli utenti in Europa e in altre parti del mondo scaricheranno più velocemente dal master dell’EBI.
I dati di sequenza grezzi, come file FASTQ, appaiono sul sito 1000 Genomes FTP entro 48-72 ore dopo che il SRA dell’EBI li ha elaborati. Questa elaborazione richiede che i dati originariamente inviati all’NCBI SRA debbano prima essere replicati all’EBI. I dati del progetto sono gestiti tramite congelamenti periodici associati a un file sequence.index datato (nota supplementare). Questi file sono stati prodotti circa ogni due mesi durante la fase pilota, e per il progetto completo la frequenza di rilascio varia a seconda della produzione dei centri di produzione e le esigenze del gruppo di analisi.
Allineamenti basati su un file sequence.index specifico sono prodotti all’interno del progetto e distribuiti tramite il sito FTP in formato BAM, e i risultati di analisi sono distribuiti in formato variant call (VCF) formato9. I file indice creati dal software Tabix10 sono anche forniti per entrambi i file BAM e VCF.
Tutti i dati sul sito FTP sono stati attraverso un ampio processo di controllo di qualità. Per i dati di sequenza, questo include il controllo della sintassi e della qualità dei dati di sequenza grezzi e la conferma dell’identità del campione. Per i dati di allineamento, il controllo di qualità include l’integrità del file e la verifica della coerenza dei metadati (Nota supplementare).
Accesso ai dati
L’intero set di dati del Progetto 1000 Genomi è disponibile, e l’approccio più logico per ottenerlo è il mirroring del contenuto del sito FTP, che è, a marzo 2012, più di 260 terabyte. La nostra esperienza è che la maggior parte degli utenti sono più interessati ai risultati delle analisi e ai dati grezzi mirati o alle fette di allineamento da regioni specifiche del genoma piuttosto che all’intero set di dati. Infatti, i file di analisi sono distribuiti tramite il sito FTP in directory denominate per la data di congelamento sequence.index su cui sono basati (Nota supplementare). Tuttavia, con centinaia di migliaia di file disponibili, individuare e accedere ai dati specifici del progetto navigando nella struttura di directory FTP può essere estremamente difficile.
Un file chiamato current.tree è fornito alla radice del sito FTP per assistere nella ricerca del sito. Questo file è stato progettato per consentire il mirroring del sito FTP e contiene una lista completa di tutti i file e le directory, compreso il tempo dell’ultimo aggiornamento e le informazioni sull’integrità dei file. Abbiamo sviluppato un’interfaccia web (http://www.1000genomes.org/ftpsearch/) per fornire un accesso diretto al file current.tree utilizzando qualsiasi identificatore di campione specificato dall’utente o altre informazioni trovate nei nomi dei nostri file di dati, che seguono una convenzione rigorosa per facilitare la ricerca. La ricerca restituisce i percorsi completi dei file all’EBI o al sito FTP NCBI e supporta i filtri per escludere i tipi di file che potrebbero produrre un gran numero di risultati, come i file FASTQ o BAM (Nota supplementare).
Per gli utenti che desiderano scoprire varianti o allineamenti da regioni genomiche specifiche senza scaricare i file completi, possono ottenere sottosezioni di file BAM e VCF direttamente con Tabix o tramite uno strumento di data-slicing basato sul web (Nota supplementare). I file VCF possono anche essere divisi per nome del campione o per popolazione usando il data slicer.
Si possono visualizzare i dati di 1000 Genomi nel contesto dell’ampia annotazione del genoma, come i geni codificanti le proteine e le informazioni di regolazione dell’intero genoma attraverso il browser dedicato 1000 Genomi basato sull’infrastruttura Ensembl11 (http://browser.1000genomes.org/). Il browser visualizza le varianti del progetto prima che siano elaborati da dbSNP o appaiono in risorse del genoma come Ensembl o il browser genoma dell’Università della California Santa Cruz (UCSC). Il browser 1000 Genomi fornisce anche strumenti di variazione Ensembl tra cui il Variant Effect Predictor (VEP)12 così come ‘ordinamento tollerante da intollerante’ (SIFT)13 e PolyPhen14 previsioni per tutte le varianti non sinonimi (Nota supplementare). Il browser supporta la visualizzazione di entrambi 1000 Genomes Project e altri web-accessibile indicizzato BAM e VCF file nel contesto genomico (Fig. 2). Una versione stabile di archivio del browser 1000 Genomes basata sulla release 60 del codice Ensembl e contenente i dati del progetto pilota è disponibile all’indirizzo http://pilotbrowser.1000genomes.org/.
![](http://media.springernature.com/lw685/springer-static/image/art%3A10.1038%2Fnmeth.1974/MediaObjects/41592_2012_Article_BFnmeth1974_Fig2_HTML.jpg)
Il 1000 Genomes Browser consente l’allegato di file remoti per consentire ai file BAM e VCF accessibili di essere visualizzati in vista ‘Location’. Le tracce nell’immagine dal nostro browser ottobre 2011 basato su Ensembl versione 63 sono un file BAM NA12878 dal sito FTP EBI con la sequenza di consenso notato dalla freccia superiore e sequenza legge dalla freccia inferiore (i); varianti da 20110521 rilascio file VCF mostrato come una traccia con due varianti in giallo (ii); varianti dal database 20101123 rilascio mostrato come una traccia con una variante in giallo (iii); e annotazione del gene da Ensembl che mostra il contesto genomico (iv). La possibilità per gli utenti di visualizzare i dati dai file permette un rapido accesso ai nuovi dati prima che il database possa essere aggiornato.
I database MySQL sottostanti che supportano il browser del progetto sono anche disponibili pubblicamente e questi possono essere interrogati direttamente o acceduti programmaticamente usando la versione appropriata dell’Ensembl Application Programming Interface (API) (Nota supplementare).
Gli utenti possono anche esplorare e scaricare i dati del progetto usando il browser dati NCBI a http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Il browser visualizza sia le letture di sequenza che i genotipi individuali per qualsiasi regione del genoma. La sequenza per gli individui selezionati che coprono la regione visualizzata può essere scaricata in formato BAM, SAM, FASTQ o FASTA. Anche i genotipi possono essere scaricati in formato VCF (Nota supplementare).
Il progetto invia tutte le varianti chiamate ai repository appropriati usando l’handle “1000GENOMES”. I polimorfismi a singolo nucleotide del progetto pilota e i piccoli indel sono stati inviati a dbSNP15, e i dati sulle variazioni strutturali sono stati inviati all’archivio Database of Genomic Variants (DGVa)16. Per gli utenti di Amazon Web Services, tutti i file BAM e VCF del progetto attualmente disponibili sono disponibili come set di dati pubblici tramite http://1000genomes.s3.amazonaws.com/ (Nota supplementare).
Discussione
I metodi di presentazione e accesso ai dati sviluppati per sostenere il Progetto 1000 Genomi offrono vantaggi a tutti i progetti di sequenziamento su larga scala e alla comunità in generale. Il processo di archiviazione semplificato trae vantaggio dalle due copie sincronizzate dell’SRA, che distribuiscono il compito ad alta intensità di risorse dell’elaborazione della presentazione. Inoltre, la vicinanza del DCC all’SRA assicura che tutti i dati di 1000 Genomi siano resi disponibili alla comunità il più rapidamente possibile e ha permesso agli archivi di beneficiare delle lezioni apprese dal DCC.
I progetti di generazione e analisi dei dati su larga scala possono beneficiare di un’attività di gestione dei dati organizzata e centralizzata2,3,4. Gli obiettivi di tali attività sono quelli di fornire il supporto e le infrastrutture necessarie al progetto, garantendo al contempo che i dati siano resi disponibili il più rapidamente e ampiamente possibile. Nel supportare l’analisi del 1000 Genome Project, il flusso di dati esteso stabilito include molteplici test per garantire l’integrità e la qualità dei dati (Fig. 1). Come parte di questo processo, i dati sono resi disponibili ai membri del consorzio e al pubblico simultaneamente in punti specifici del flusso di dati, compresa la raccolta dei dati di sequenza e il completamento degli allineamenti.
Oltre a supportare direttamente le esigenze del progetto, la gestione centralizzata dei dati assicura la creazione di risorse destinate agli utenti al di fuori del gruppo di analisi del consorzio. Queste includono il 1000 Genomes Browser (http://browser.1000genomes.org/), l’invio di set di dati di varianti sia preliminari che finali a dbSNP e a dbVar/DGVa, la fornitura di file di allineamento e di varianti nel cloud Amazon Web Services, e servizi centralizzati di annotazione delle variazioni.
Le esperienze di gestione dei dati utilizzate per questo progetto riflettono in parte la difficoltà di adottare sistemi bioinformatici esistenti a nuove tecnologie e in parte la sfida di volumi di dati molto più grandi di quelli precedentemente incontrati. La rapida evoluzione dei metodi di analisi ed elaborazione è indicativa dello sforzo della comunità di fornire strumenti efficaci per la comprensione dei dati.
.