High-throughput sequencing technologieën, waaronder die van Illumina, Roche Diagnostics (454) en Life Technologies (SOLiD), maken whole-genome sequencing mogelijk op een ongekende schaal en tegen sterk gereduceerde kosten ten opzichte van de gel capillary technologie die in het humane genoom project is gebruikt. Deze technologieën lagen aan de basis van de beslissing in 2007 om het 1000-genoomproject te starten, een poging om de menselijke variatie in meerdere populaties uitvoerig te karakteriseren. In de proeffase van het project hebben de gegevens bijgedragen tot een uitgebreid overzicht op bevolkingsschaal van de menselijke genetische variatie1.
De grotere gegevensvolumes en kortere leeslengtes van sequencingtechnologieën met hoge doorvoer creëerden substantiële nieuwe eisen voor bio-informatica, analyse- en gegevensdistributiemethoden. Het oorspronkelijke plan voor het 1000-genoomproject was om 2× volledige genoomdekking te verzamelen voor 1.000 individuen, wat neerkomt op ∼6 giga-baseparen sequentie per individu en ∼6 tera-baseparen (Tbp) sequentie in totaal. Toenemende sequentiecapaciteit leidde tot herhaalde herzieningen van deze plannen tot de huidige projectschaal van het verzamelen van sequentie met lage dekking, ∼4× genoombreed en ∼20× genoombreed voor ∼2.500 individuen plus sequentie met hoge dekking, ∼40× genoombreed voor in totaal 500 individuen (∼25-voudige toename van het genereren van sequentie ten opzichte van de oorspronkelijke ramingen). In feite heeft het 1000 Genomes Pilot Project 5 Tbp aan sequentiegegevens verzameld, waardoor 38.000 bestanden en meer dan 12 terabytes aan gegevens beschikbaar zijn gekomen voor de gemeenschap1. In maart 2012 omvatten de nog steeds groeiende projectbronnen meer dan 260 terabytes aan gegevens in meer dan 250.000 voor het publiek toegankelijke bestanden.
Net als bij eerdere inspanningen2,3,4 erkenden de leden van het 1000-genoomproject dat gegevenscoördinatie van cruciaal belang zou zijn om productief verder te gaan en ervoor te zorgen dat de gegevens binnen een redelijk tijdsbestek voor de gemeenschap beschikbaar waren. Daarom is het Data Coordination Center (DCC) opgezet, een gezamenlijk initiatief van het European Bioinformatics Institute (EBI) en het National Center for Biotechnology (NCBI), om de projectspecifieke gegevensstroom te beheren, te zorgen voor de archivering van sequentiegegevens en de toegang voor de gemeenschap te beheren via de FTP-site en de genoombrowser.
Hier beschrijven wij de methoden die door de leden van het 1000-genomsproject zijn gebruikt om de gemeenschap gegevensbronnen aan te bieden, van ruwe sequentiegegevens tot projectresultaten die kunnen worden doorzocht. We geven voorbeelden uit de gegevensverwerkingsmethoden van het project om de belangrijkste componenten van complexe workflows te demonstreren.
Gegevensstroom
Het beheren van de gegevensstroom in het 1000-genomenproject, zodat de gegevens beschikbaar zijn binnen het project en voor de bredere gemeenschap, is de fundamentele bioinformatica-uitdaging voor het DCC (Fig. 1 en aanvullende tabel 1). Met negen verschillende sequentiecentra en meer dan twee dozijn grote analysegroepen1 zijn de belangrijkste initiële uitdagingen (i) het centraal verzamelen van alle sequentiegegevens voor de nodige kwaliteitscontrole en standaardisatie; (ii) het uitwisselen van de gegevens tussen de deelnemende instellingen; (iii) het snel beschikbaar stellen van zowel sequentiegegevens als tussentijdse analyseresultaten aan de analysegroepen; (iv) het gemakkelijk toegankelijk houden van sequentie-, alignment- en variantbestanden en hun bijbehorende metadata; en (v) het beschikbaar stellen van deze bronnen aan de gemeenschap.
In de afgelopen jaren is de snelheid van de gegevensoverdracht met protocollen op basis van TCP/IP, zoals FTP, niet evenredig toegenomen met de productiecapaciteit voor sequenties. Daarom hebben sommige groepen hun toevlucht genomen tot het verzenden van fysieke harde schijven met sequentiegegevens5 , hoewel de verwerking van gegevens op deze manier zeer arbeidsintensief is. Tegelijk blijven de vereisten voor sequentiegegevens ver beneden die in de fysica en de astronomie, zodat de bouw van een specifieke netwerkinfrastructuur niet gerechtvaardigd was. In plaats daarvan hebben de projectleden ervoor gekozen gebruik te maken van een internetoverdrachtsoplossing van het bedrijf Aspera, een op UDP gebaseerde methode die een 20-30 maal snellere gegevensoverdracht mogelijk maakt dan FTP bij normaal gebruik. Met Aspera benadert de gecombineerde indieningscapaciteit van het EBI en het NCBI momenteel 30 terabyte per dag, en beide sites zijn klaar om te groeien naarmate de mondiale sequencingcapaciteit toeneemt.
Het 1000-genoomproject was verantwoordelijk voor de eerste multi-terabase indieningen bij de twee sequence-read archieven (SRA’s): het SRA bij het EBI, geleverd als een dienst van het European Nucleotide Archive (ENA), en het NCBI SRA6. In de loop van het project ontwikkelden de belangrijkste sequentiecentra geautomatiseerde methoden voor het indienen van gegevens bij het EBI of het NCBI, terwijl beide SRA-databanken gegeneraliseerde methoden ontwikkelden voor het zoeken in en de toegang tot de gearchiveerde gegevens. De dataformaten die zowel door de archieven als door het project worden aanvaard en verspreid, zijn ook geëvolueerd van de uitgebreide sequence read format (SRF)-bestanden naar de meer compacte Binary Alignment/Map (BAM)7 en FASTQ-formaten (tabel 1). Deze formaatverschuiving werd mogelijk gemaakt door een beter begrip van de behoeften van de project-analysegroep, wat heeft geleid tot een besluit om de archivering van ruwe intensiteitsmetingen van gelezen gegevens stop te zetten en zich uitsluitend te richten op base calls en kwaliteitsscores.
Als een ‘community resource project’8 geeft het 1000-genomes Project zo snel mogelijk voorpublicatiegegevens vrij zoals hieronder beschreven. Het project heeft gespiegelde downloadsites bij het EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) en het NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) die gelijktijdig toegang bieden tot het project en de gemeenschap en die de totale downloadcapaciteit efficiënt vergroten. De hoofdkopie wordt rechtstreeks bijgewerkt door de DCC bij het EBI, en de NCBI-kopie wordt gewoonlijk binnen 24 uur gespiegeld via een nachtelijk automatisch Aspera-proces. Over het algemeen zullen gebruikers in Noord- en Zuid-Amerika het snelst toegang hebben tot de gegevens van de NCBI-mirror, terwijl gebruikers in Europa en elders in de wereld sneller zullen downloaden van de EBI-master.
De ruwe sequentiegegevens verschijnen, als FASTQ-bestanden, op de 1000 Genomes FTP-site binnen 48-72 uur nadat de EBI SRA ze heeft verwerkt. Deze verwerking vereist dat de oorspronkelijk bij de NCBI SRA ingediende gegevens eerst bij het EBI worden gespiegeld. De projectgegevens worden beheerd door middel van periodieke bevriezing van de gegevens, gekoppeld aan een gedateerd sequentie.index-bestand (aanvullende noot). Deze bestanden werden tijdens de proeffase ongeveer om de twee maanden geproduceerd, en voor het volledige project varieert de releasefrequentie afhankelijk van de output van de productiecentra en de vereisten van de analysegroep.
Alignementen op basis van een specifiek sequentie.index-bestand worden binnen het project geproduceerd en via de FTP-site verspreid in BAM-formaat, en analyseresultaten worden verspreid in variant call format (VCF)-formaat9. Indexbestanden gemaakt door de Tabix software10 worden ook geleverd voor zowel BAM als VCF bestanden.
Alle gegevens op de FTP site zijn door een uitgebreid kwaliteitscontroleproces gegaan. Voor sequentiegegevens omvat dit een controle van de syntaxis en de kwaliteit van de ruwe sequentiegegevens en een bevestiging van de identiteit van het monster. Voor alignmentgegevens omvat de kwaliteitscontrole een controle van de bestandsintegriteit en de consistentie van de metadata (aanvullende noot).
Toegang tot de gegevens
De volledige dataset van het 1000-genoomproject is beschikbaar, en de meest logische benadering om die te verkrijgen is de inhoud van de FTP-site te spiegelen, die in maart 2012 meer dan 260 terabyte groot was. Onze ervaring is dat de meeste gebruikers meer geïnteresseerd zijn in analyseresultaten en gerichte ruwe gegevens of alignment slices van specifieke regio’s van het genoom dan in de volledige dataset. De analysebestanden worden inderdaad via de FTP-site verspreid in mappen die de naam dragen van de sequence.index freeze date waarop ze gebaseerd zijn (Supplementary Note). Echter, met honderdduizenden beschikbare bestanden, lokaliseren en toegang tot specifieke project gegevens door te bladeren door de FTP-map structuur kan uiterst moeilijk zijn.
Een bestand genaamd current.tree is voorzien in de root van de FTP-site om te helpen bij het zoeken van de site. Dit bestand is ontworpen om het spiegelen van de FTP site mogelijk te maken en bevat een complete lijst van alle bestanden en directories inclusief tijd van laatste update en file integriteit informatie. Wij hebben een webinterface ontwikkeld (http://www.1000genomes.org/ftpsearch/) om rechtstreeks toegang te verschaffen tot het current.tree bestand met gebruikmaking van door de gebruiker gespecificeerde monsteridentificatie(s) of andere informatie die wordt gevonden in de namen van onze gegevensbestanden, die een strikte conventie volgen om het zoeken te vergemakkelijken. Het zoeken geeft volledige bestandspaden naar ofwel de EBI of de NCBI FTP-site en ondersteunt filters om bestandstypen waarschijnlijk een groot aantal resultaten, zoals FASTQ of BAM-bestanden te produceren uit te sluiten (Supplementary Note).
Voor gebruikers die willen ontdekt varianten of alignments van specifieke genomische regio’s zonder het downloaden van de volledige bestanden, kunnen zij subsecties van BAM en VCF-bestanden te verkrijgen, hetzij rechtstreeks met Tabix of via een web-based data-slicing tool (Supplementary Note). VCF-bestanden kunnen ook worden gesplitst op monsternaam of populatie met behulp van de data slicer.
Men kan 1000 Genomes-gegevens bekijken in de context van uitgebreide genoomannotatie, zoals eiwit-coderende genen en regelgevende informatie over het gehele genoom via de speciale 1000 Genomes-browser op basis van de Ensembl-infrastructuur11 (http://browser.1000genomes.org/). De browser geeft projectvarianten weer voordat ze door dbSNP zijn verwerkt of in genoombronnen zoals Ensembl of de genoombrowser van de University of California Santa Cruz (UCSC) zijn opgenomen. De 1000 Genomes browser biedt ook Ensembl variatie tools, waaronder de Variant Effect Predictor (VEP)12 evenals ‘sorteren tolerant van intolerant’ (SIFT)13 en PolyPhen14 voorspellingen voor alle nonsynonieme varianten (Supplementary Note). De browser ondersteunt het bekijken van zowel 1000 Genomes Project en andere web-toegankelijke geïndexeerde BAM-en VCF-bestanden in genomische context (Fig. 2). Een stabiele archiefversie van de 1000 Genomes browser op basis van Ensembl code release 60 en met de pilot-project gegevens is beschikbaar op http://pilotbrowser.1000genomes.org/.
De onderliggende MySQL-databases die de projectbrowser ondersteunen, zijn ook openbaar beschikbaar en deze kunnen direct worden bevraagd of programmatisch worden benaderd met behulp van de juiste versie van de Ensembl Application Programming Interface (API) (aanvullende noot).
Gebruikers kunnen projectgegevens ook verkennen en downloaden met behulp van de NCBI-gegevensbrowser op http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. De browser toont zowel sequentie gelezen en individuele genotypes voor elk gebied van het genoom. Sequenties voor geselecteerde individuen die de weergegeven regio bestrijken, kunnen worden gedownload in BAM-, SAM-, FASTQ- of FASTA-formaat. Genotypes kunnen ook worden gedownload in VCF-formaat (Supplementary Note).
Het project dient alle opgeroepen varianten op de juiste repositories met behulp van de handgreep “1000GENOMES”. Proefproject single-nucleotide polymorfismen en kleine indels zijn ingediend bij dbSNP15, en structurele variatie gegevens zijn ingediend bij de Database of Genomic Variants archief (DGVa)16. Volledige projectvarianten zullen op soortgelijke wijze worden ingediend.
Voor gebruikers van Amazon Web Services zijn alle momenteel beschikbare project BAM- en VCF-bestanden beschikbaar als een openbare dataset via http://1000genomes.s3.amazonaws.com/ (aanvullende noot).
Discussie
Methoden voor het indienen van gegevens en toegang die zijn ontwikkeld ter ondersteuning van het 1000-genoomproject bieden voordelen voor alle grootschalige sequencingprojecten en de bredere gemeenschap. Het gestroomlijnde archiveringsproces maakt gebruik van de twee gesynchroniseerde kopieën van de SRA, waardoor de resource-intensieve taak van de verwerking van de indiening wordt verdeeld. Bovendien zorgt de nabijheid van het DCC bij de SRA ervoor dat alle 1000-genomendata zo snel mogelijk ter beschikking van de gemeenschap worden gesteld en konden de archieven profiteren van de lessen die het DCC heeft geleerd.
Grootschalige datageneratie- en analyseprojecten kunnen baat hebben bij een georganiseerde en gecentraliseerde databeheeractiviteit2,3,4. Het doel van dergelijke activiteiten is de nodige ondersteuning en infrastructuur voor het project te bieden en er tegelijkertijd voor te zorgen dat de gegevens zo snel en zo ruim mogelijk beschikbaar komen. Ter ondersteuning van de analyse van het 1000-genoomproject omvat de opgezette uitgebreide gegevensstroom meerdere tests om de integriteit en de kwaliteit van de gegevens te waarborgen (Fig. 1). Als onderdeel van dit proces worden de gegevens gelijktijdig beschikbaar gesteld aan leden van het consortium en het publiek op specifieke punten in de gegevensstroom, waaronder bij de verzameling van sequentiegegevens en de voltooiing van alignments.
Naast de directe ondersteuning van de behoeften van het project, zorgt gecentraliseerd gegevensbeheer ervoor dat middelen worden gecreëerd die zijn gericht op gebruikers buiten de consortiumanalysegroep. Deze omvatten de 1000 Genomes Browser (http://browser.1000genomes.org/), indiening van zowel voorlopige als definitieve variante datasets bij dbSNP en bij dbVar/DGVa, levering van alignment- en variantebestanden in de Amazon Web Services-cloud, en gecentraliseerde variante-annotatiediensten.
De ervaringen met gegevensbeheer die voor dit project zijn gebruikt, weerspiegelen deels de moeilijkheid om bestaande bioinformaticasystemen aan te passen aan nieuwe technologieën en deels de uitdaging van datavolumes die veel groter zijn dan eerder werd aangetroffen. De snelle evolutie van de analyse- en verwerkingsmethoden is tekenend voor de inspanningen van de gemeenschap om doeltreffende instrumenten te verschaffen om de gegevens te begrijpen.