Le tecnologie di sequenziamento ad alta velocità, comprese quelle di Illumina, Roche Diagnostics (454) e Life Technologies (SOLiD), consentono il sequenziamento dell’intero genoma su una scala senza precedenti e a costi drasticamente ridotti rispetto alla tecnologia capillare del gel utilizzata nel progetto del genoma umano. Queste tecnologie sono state al centro della decisione nel 2007 di lanciare il Progetto 1000 Genomi, uno sforzo per caratterizzare in modo completo la variazione umana in più popolazioni. Nella fase pilota del progetto, i dati hanno contribuito a creare una visione estesa su scala di popolazione della variazione genetica umana1.
I grandi volumi di dati e le lunghezze di lettura più corte delle tecnologie di sequenziamento ad alta velocità hanno creato nuovi requisiti sostanziali per i metodi di bioinformatica, analisi e distribuzione dei dati. Il piano iniziale per il Progetto 1000 Genomi era quello di raccogliere una copertura 2× del genoma intero per 1.000 individui, che rappresentava ∼6 giga coppie di basi di sequenza per individuo e ∼6 tera coppie di basi (Tbp) di sequenza in totale. L’aumento della capacità di sequenziamento ha portato a ripetute revisioni di questi piani fino all’attuale scala del progetto di raccolta di sequenze a bassa copertura, ∼4× whole-genome e ∼20× whole-exome per ∼2.500 individui più un’alta copertura, ∼40× whole-genome per 500 individui in totale (∼25 volte maggiore nella generazione di sequenza rispetto alle stime originali). Infatti, il Progetto Pilota 1000 Genomi ha raccolto 5 Tbp di dati di sequenza, con il risultato di 38.000 file e oltre 12 terabyte di dati a disposizione della comunità1. Nel marzo 2012 le risorse del progetto, ancora in crescita, includono più di 260 terabyte di dati in più di 250.000 file accessibili al pubblico.
Come negli sforzi precedenti2,3,4, i membri del Progetto 1000 Genomi hanno riconosciuto che il coordinamento dei dati sarebbe stato fondamentale per andare avanti in modo produttivo e per garantire che i dati fossero disponibili alla comunità in tempi ragionevoli. Pertanto, il Data Coordination Center (DCC) è stato istituito congiuntamente tra l’European Bioinformatics Institute (EBI) e il National Center for Biotechnology (NCBI) per gestire il flusso di dati specifici del progetto, per garantire il deposito dei dati di sequenza archiviati e per gestire l’accesso della comunità attraverso il sito FTP e il browser del genoma.
Si descrivono qui i metodi utilizzati dai membri del Progetto 1000 Genomi per fornire risorse di dati alla comunità, dai dati di sequenza grezzi ai risultati del progetto che possono essere consultati. Forniamo esempi tratti dai metodi di elaborazione dei dati del progetto per dimostrare i componenti chiave di flussi di lavoro complessi.
Flusso di dati
Gestire il flusso di dati nel Progetto 1000 Genomi in modo che i dati siano disponibili all’interno del progetto e alla comunità più ampia è la sfida bioinformatica fondamentale per il DCC (Fig. 1 e Tabella 1 supplementare). Con nove diversi centri di sequenziamento e più di due dozzine di importanti gruppi di analisi1, le sfide iniziali più importanti sono (i) la raccolta di tutti i dati di sequenziamento a livello centrale per il necessario controllo di qualità e la standardizzazione; (ii) lo scambio di dati tra le istituzioni partecipanti; (iii) la rapida disponibilità sia dei dati di sequenziamento che dei risultati intermedi di analisi ai gruppi di analisi; (iv) il mantenimento di un facile accesso ai file di sequenza, allineamento e varianti e ai loro metadati associati; e (v) la fornitura di queste risorse alla comunità.