Sekvenseringsteknik med högt genomflöde, bland annat från Illumina, Roche Diagnostics (454) och Life Technologies (SOLiD), gör det möjligt att sekvensera hela arvsmassan i en aldrig tidigare skådad skala och till dramatiskt sänkta kostnader jämfört med den gelkapillärteknik som användes i det humana genomprojektet. Denna teknik låg till grund för beslutet 2007 att inleda 1000 genomprojektet, ett försök att på ett omfattande sätt karakterisera den mänskliga variationen i flera populationer. I projektets pilotfas bidrog uppgifterna till att skapa en omfattande bild av mänsklig genetisk variation i befolkningsskala1.
De större datavolymerna och de kortare avläsningslängderna för sekvenseringstekniker med hög genomströmning skapade betydande nya krav på bioinformatik, analys och metoder för datafördelning. Den ursprungliga planen för 1000 Genomes-projektet var att samla in 2× helgenomtäckning för 1 000 individer, vilket motsvarar ∼6 giga-baspar sekvenser per individ och ∼6 tera-baspar (Tbp) sekvenser totalt. Den ökande sekvenseringskapaciteten ledde till upprepade revideringar av dessa planer till den nuvarande projektskalan med insamling av låg täckning, ∼4× helgenom- och ∼20× helexomsekvenser för ∼2 500 individer plus hög täckning, ∼40× helgenomsekvenser för totalt 500 individer (∼25-faldig ökning av sekvensgenereringen jämfört med de ursprungliga uppskattningarna). Faktum är att 1000 Genomes Pilot Project samlade in 5 Tbp sekvensdata, vilket resulterade i 38 000 filer och över 12 terabyte data som var tillgängliga för samhället1. I mars 2012 omfattade de fortfarande växande projektresurserna mer än 260 terabyte data i mer än 250 000 offentligt tillgängliga filer.
Som i tidigare insatser2,3,4 insåg medlemmarna i 1000 Genomes-projektet att samordning av data skulle vara avgörande för att gå framåt på ett produktivt sätt och för att se till att data var tillgängliga för samhället inom en rimlig tidsram. Därför inrättades Data Coordination Center (DCC) gemensamt mellan European Bioinformatics Institute (EBI) och National Center for Biotechnology (NCBI) för att hantera projektspecifika dataflöden, se till att arkiverade sekvensdata deponeras och för att hantera gemenskapens åtkomst via FTP-webbplatsen och genombläddraren.
Här beskriver vi de metoder som medlemmarna i 1000-genomprojektet har använt för att tillhandahålla dataresurser till gemenskapen, från obearbetade sekvensdata till projektresultat som kan bläddras. Vi ger exempel från projektets databehandlingsmetoder för att visa de viktigaste komponenterna i komplexa arbetsflöden.
Dataflöde
Hanteringen av dataflödet i 1000 Genomes-projektet så att data är tillgängliga inom projektet och för det bredare samhället är den grundläggande bioinformatikutmaningen för DCC (fig. 1 och kompletterande tabell 1). Med nio olika sekvenseringscentra och mer än två dussin större analysgrupper1 är de viktigaste initiala utmaningarna i) att sammanställa alla sekvenseringsdata centralt för nödvändig kvalitetskontroll och standardisering, ii) att utbyta data mellan de deltagande institutionerna, iii) att se till att analysgrupperna snabbt får tillgång till både sekvenseringsdata och mellanliggande analysresultat, iv) att upprätthålla enkel åtkomst till sekvenser, anpassningar och varianter och deras tillhörande metadata och v) att tillhandahålla dessa resurser till samhället.
Under de senaste åren har dataöverföringshastigheterna med hjälp av TCP/IP-baserade protokoll, t.ex. FTP, inte kunnat anpassas till den ökade kapaciteten för sekvensproduktion. Vissa grupper har därför börjat skicka fysiska hårddiskar med sekvensdata5 , även om hanteringen av data på detta sätt är mycket arbetskrävande. Samtidigt ligger kraven på dataöverföring för sekvensdata långt under de krav som ställs inom fysik och astronomi, så det var inte motiverat att bygga upp en särskild nätverksinfrastruktur. I stället valde projektmedlemmarna att förlita sig på en internetöverföringslösning från företaget Aspera, en UDP-baserad metod som uppnår dataöverföringshastigheter som är 20-30 gånger snabbare än FTP vid typisk användning. Med hjälp av Aspera närmar sig den kombinerade överföringskapaciteten för EBI och NCBI för närvarande 30 terabyte per dag, och båda platserna är redo att växa i takt med att den globala sekvenseringskapaciteten ökar.
1000-genomprojektet var ansvarigt för de första överföringarna av flera databaser till de två sekvensläsningsarkiven (SRA): SRA vid EBI, som tillhandahålls som en tjänst av European Nucleotide Archive (ENA), och NCBI:s SRA6. Under projektets gång utvecklade de stora sekvenseringscentren automatiserade metoder för inlämning av data till antingen EBI eller NCBI, medan båda SRA-databaserna utvecklade generaliserade metoder för att söka i och få tillgång till de arkiverade uppgifterna. De dataformat som accepteras och distribueras av både arkiven och projektet har också utvecklats från de expansiva SRF-filerna (sequence read format) till de mer kompakta BAM-formatet (Binary Alignment/Map)7 och FASTQ-formatet (tabell 1). Detta formatskifte möjliggjordes av en bättre förståelse för behoven hos projektets analysgrupp, vilket ledde till ett beslut att sluta arkivera råa intensitetsmätningar från avlästa data för att uteslutande fokusera på base calls och kvalitetspoäng.
I egenskap av ”community resource project ”8 släpper 1000 Genomes Project så snabbt som möjligt förpubliceringsdata enligt beskrivningen nedan. Projektet har speglade nedladdningsställen vid EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) och NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) som ger projekt- och gemenskapstillgång samtidigt och ökar den totala nedladdningskapaciteten på ett effektivt sätt. Huvudkopian uppdateras direkt av DCC vid EBI, och NCBI-kopian speglas vanligtvis inom 24 timmar via en automatisk Aspera-process varje natt. Generellt sett kommer användare i Nord- och Sydamerika att få tillgång till data snabbast från NCBI:s spegelkopia, medan användare i Europa och andra delar av världen laddar ner snabbare från EBI:s huvudkopia.
Råsekvensdata i form av FASTQ-filer visas på 1000 Genomes FTP-webbplatsen inom 48-72 timmar efter det att EBI:s SRA har bearbetat dem. Denna behandling kräver att data som ursprungligen lämnats in till NCBI SRA först måste speglas vid EBI. Projektdata hanteras genom periodiska datafrysningar i samband med en daterad sequence.index-fil (kompletterande anmärkning). Dessa filer producerades ungefär varannan månad under pilotfasen, och för hela projektet varierar utgivningsfrekvensen beroende på produktionscentralernas resultat och analysgruppens krav.
Alligeringar baserade på en specifik sequence.index-fil produceras inom projektet och distribueras via FTP-sajten i BAM-format, och analysresultaten distribueras i VCF-format (variant call format)9. Indexfiler som skapats av programvaran Tabix10 tillhandahålls också för både BAM- och VCF-filer.
Alla data på FTP-webbplatsen har genomgått en omfattande kvalitetskontroll. För sekvensdata omfattar detta kontroll av syntaxen och kvaliteten på de råa sekvensdata och bekräftelse av provets identitet. För anpassningsdata omfattar kvalitetskontrollen kontroll av filintegritet och metadatakonsistens (Supplementary Note).
Dataåtkomst
Hela datamängden från 1000 Genomes Project är tillgänglig, och det mest logiska sättet att få tillgång till den är att spegla innehållet på FTP-webbplatsen, som i mars 2012 var mer än 260 terabyte. Vår erfarenhet är att de flesta användare är mer intresserade av analysresultat och målinriktade rådata eller anpassningsskivor från specifika regioner av genomet än av hela datamängden. Analysfilerna distribueras faktiskt via FTP-webbplatsen i kataloger som är namngivna efter det datum för frysning av sequence.index som de är baserade på (kompletterande anmärkning). Med hundratusentals tillgängliga filer kan det dock vara extremt svårt att hitta och få tillgång till specifika projektdata genom att bläddra i FTP-katalogstrukturen.
En fil som kallas current.tree finns vid roten av FTP-webbplatsen för att underlätta sökningen på webbplatsen. Denna fil har utformats för att möjliggöra spegling av FTP-platsen och innehåller en fullständig lista över alla filer och kataloger, inklusive tid för senaste uppdatering och information om filintegritet. Vi har utvecklat ett webbgränssnitt (http://www.1000genomes.org/ftpsearch/) för att ge direkt åtkomst till filen current.tree med hjälp av användardefinierade providentifierare eller annan information som finns i våra datafilnamn, som följer en strikt konvention för att underlätta sökning. Sökningen returnerar fullständiga filvägar till antingen EBI eller NCBI:s FTP-webbplats och stöder filter för att utesluta filtyper som sannolikt ger ett stort antal resultat, t.ex. FASTQ- eller BAM-filer (kompletterande anmärkning).
För användare som vill ha upptäckta varianter eller anpassningar från specifika genomiska regioner utan att ladda ner de kompletta filerna kan de erhålla underavdelningar av BAM- och VCF-filer antingen direkt med Tabix eller via ett webbaserat dataskärningsverktyg (kompletterande anmärkning). VCF-filer kan också delas upp efter provnamn eller population med hjälp av dataskivaren.
Man kan se 1000 Genomes-data i samband med omfattande genomannotationer, t.ex. proteinkodande gener och information om reglering av hela genomet genom den särskilda 1000 Genomes-webbläsaren som bygger på Ensembl-infrastrukturen11 (http://browser.1000genomes.org/). Webbläsaren visar projektvarianter innan de behandlas av dbSNP eller visas i genomresurser som Ensembl eller University of California Santa Cruz (UCSC) genome browser. I 1000 Genomes-webbläsaren finns också Ensembl-variationsverktyg, inklusive Variant Effect Predictor (VEP)12 samt ”sorting tolerant from intolerant” (SIFT)13 och PolyPhen14 förutsägelser för alla icke-synonyma varianter (kompletterande anmärkning). Webbläsaren stöder visning av både 1000 Genomes Project och andra webbtillgängliga indexerade BAM- och VCF-filer i genomiska sammanhang (fig. 2). En stabil arkivversion av 1000 Genomes-webbläsaren baserad på Ensembl code release 60 och som innehåller data från pilotprojektet finns tillgänglig på http://pilotbrowser.1000genomes.org/.
De underliggande MySQL-databaserna som stöder projektbläddraren är också allmänt tillgängliga och dessa kan direkt frågas ut eller nås programmatiskt med hjälp av lämplig version av Ensembl Application Programming Interface (API) (Supplementary Note).
Användare kan också utforska och ladda ner projektdata med hjälp av NCBI:s databrowser på http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Webbläsaren visar både sekvensläsningar och individuella genotyper för vilken region som helst av genomet. Sekvenser för utvalda individer som täcker den visade regionen kan laddas ner i BAM-, SAM-, FASTQ- eller FASTA-format. Genotyper kan också laddas ner i VCF-format (kompletterande anmärkning).
Projektet skickar alla kallade varianter till lämpliga arkiv med hjälp av handtaget ”1000GENOMES”. Pilotprojektets singelnukleotidpolymorfismer och små indels har lämnats in till dbSNP15 , och data om strukturella variationer har lämnats in till arkivet Database of Genomic Variants (DGVa)16 . Varianter för hela projektet kommer att lämnas in på liknande sätt.
För användare av Amazon Web Services finns alla för närvarande tillgängliga BAM- och VCF-filer från projektet tillgängliga som en offentlig datamängd via http://1000genomes.s3.amazonaws.com/ (kompletterande anmärkning).
Diskussion
Metoderna för inlämning av och tillgång till data som utvecklats till stöd för 1000-genomprojektet erbjuder fördelar för alla storskaliga sekvenseringsprojekt och för det bredare samhället. Den strömlinjeformade arkivprocessen drar nytta av de två synkroniserade kopiorna av SRA, som fördelar den resurskrävande uppgiften att behandla inlämningen. Dessutom säkerställer DCC:s närhet till SRA att alla 1000 Genomes-data görs tillgängliga för samhället så snabbt som möjligt och gjorde det möjligt för arkiven att dra nytta av de lärdomar som DCC har dragit.
Storskaliga projekt för generering och analys av data kan dra nytta av en organiserad och centraliserad datahanteringsverksamhet2,3,4. Målen för en sådan verksamhet är att tillhandahålla nödvändigt stöd och infrastruktur till projektet samtidigt som man ser till att data görs tillgängliga så snabbt och brett som möjligt. För att stödja analysen av 1000 Genome Project omfattar det etablerade omfattande dataflödet flera tester för att säkerställa dataintegritet och datakvalitet (fig. 1). Som en del av denna process görs data tillgängliga för medlemmar av konsortiet och allmänheten samtidigt vid specifika punkter i dataflödet, bland annat vid insamling av sekvensdata och färdigställande av anpassningar.
Ovanför det direkta stödet till projektets behov säkerställer den centraliserade datahanteringen att det skapas resurser som är riktade till användare utanför konsortiets analysgrupp. Dessa inkluderar 1000 Genomes Browser (http://browser.1000genomes.org/), inlämning av både preliminära och slutliga varianterdatamängder till dbSNP och dbVar/DGVa, tillhandahållande av anpassnings- och variantfiler i Amazon Web Services moln och centraliserade annotationstjänster för variationer.
Den erfarenhet av datahantering som används för detta projekt återspeglar dels svårigheten att anpassa befintliga bioinformatiksystem till ny teknik, dels utmaningen med datamängder som är mycket större än vad som tidigare har förekommit. Den snabba utvecklingen av analys- och bearbetningsmetoder är ett tecken på gemenskapens ansträngningar för att tillhandahålla effektiva verktyg för att förstå data.