High-throughput sekventeringsteknologier, herunder dem fra Illumina, Roche Diagnostics (454) og Life Technologies (SOLiD), muliggør sekventering af hele genomer i en hidtil uset skala og til dramatisk lavere omkostninger end den gelkapillærteknologi, der blev anvendt i det menneskelige genomprojekt. Disse teknologier var kernen i beslutningen i 2007 om at iværksætte 1000-genomprojektet, som er et forsøg på at foretage en omfattende karakterisering af den menneskelige variation i flere populationer. I projektets pilotfase bidrog dataene til at skabe et omfattende overblik over den menneskelige genetiske variation på befolkningsskala1.
De større datamængder og kortere læselængder ved højhastigheds-sekventeringsteknologier har skabt betydelige nye krav til bioinformatik, analyse- og datadistributionsmetoder. Den oprindelige plan for 1000-genomprojektet var at indsamle 2× helgenomdækning for 1 000 individer, hvilket svarer til ∼6 giga-basepar sekvenser pr. individ og ∼6 tera-basepar (Tbp) sekvenser i alt. Stigende sekventeringskapacitet førte til gentagne revisioner af disse planer til den nuværende projektskala med indsamling af lavdækkende ∼4× helgenom- og ∼20× helgenom-sekvenser for ∼2 500 individer plus højdækkende ∼40× helgenom-sekvenser for 500 individer i alt (∼25-dobbelt stigning i sekvensgenerering i forhold til de oprindelige skøn). Faktisk indsamlede 1000 Genomes Pilot Project 5 Tbp sekvensdata, hvilket resulterede i 38 000 filer og over 12 terabyte data, der var tilgængelige for samfundet1. I marts 2012 omfattede de stadig voksende projektressourcer mere end 260 terabyte data i mere end 250 000 offentligt tilgængelige filer.
Som i tidligere bestræbelser2,3,4 erkendte medlemmerne af 1000 Genomes-projektet, at datakoordinering ville være afgørende for at komme produktivt videre og for at sikre, at dataene var tilgængelige for samfundet inden for en rimelig tidsramme. Derfor blev datakoordinationscentret (DCC) oprettet i fællesskab mellem European Bioinformatics Institute (EBI) og National Center for Biotechnology (NCBI) for at forvalte projektspecifikke datastrømme, sikre deponering af arkiverede sekvensdata og forvalte adgangen til fællesskabet via FTP-webstedet og genom-browseren.
Her beskrives de metoder, som medlemmerne af 1000 Genomes Project har anvendt til at stille dataressourcer til rådighed for fællesskabet fra rå sekvensdata til projektresultater, der kan gennemses. Vi giver eksempler hentet fra projektets databehandlingsmetoder for at demonstrere de vigtigste komponenter i komplekse arbejdsgange.
Datastrøm
Den grundlæggende bioinformatiske udfordring for DCC er at styre datastrømmen i 1000 Genomes-projektet på en sådan måde, at dataene er tilgængelige inden for projektet og for det bredere samfund (fig. 1 og supplerende tabel 1). Med ni forskellige sekventeringscentre og mere end to dusin større analysegrupper1 er de vigtigste indledende udfordringer (i) at samle alle sekventeringsdata centralt med henblik på den nødvendige kvalitetskontrol og standardisering, (ii) at udveksle data mellem de deltagende institutioner, (iii) at sikre hurtig adgang til både sekventeringsdata og mellemliggende analyseresultater for analysegrupperne, (iv) at opretholde nem adgang til sekvens-, alignment- og variantfiler og deres tilhørende metadata og (v) at stille disse ressourcer til rådighed for samfundet.
I de seneste år er dataoverførselshastighederne ved hjælp af TCP/IP-baserede protokoller som f.eks. FTP ikke vokset i takt med den øgede sekvensproduktionskapacitet. Som reaktion herpå har nogle grupper tyet til at sende fysiske harddiske med sekvensdata5 , selv om håndtering af data på denne måde er meget arbejdskrævende. Samtidig er kravene til dataoverførsel af sekvensdata fortsat langt under dem, der gælder inden for fysik og astronomi, så det var ikke berettiget at opbygge en særlig netværksinfrastruktur. I stedet valgte projektmedlemmerne at satse på en internetoverførselsløsning fra firmaet Aspera, en UDP-baseret metode, der opnår dataoverførselshastigheder, der er 20-30 gange hurtigere end FTP ved typisk brug. Ved hjælp af Aspera nærmer EBI’s og NCBI’s kombinerede indsendelseskapacitet sig i øjeblikket 30 terabyte pr. dag, og begge steder er klar til at vokse i takt med, at den globale sekventeringskapacitet øges.
1000-genomprojektet var ansvarlig for de første multiterabaseindberetninger til de to sekvenslæste arkiver (SRA’er): SRA’et ved EBI, der leveres som en tjeneste af European Nucleotide Archive (ENA), og NCBI’s SRA6. I løbet af projektet udviklede de store sekventeringscentre automatiserede metoder til indsendelse af data til enten EBI eller NCBI, mens begge SRA-databaser udviklede generaliserede metoder til søgning i og adgang til de arkiverede data. De dataformater, der accepteres og distribueres af både arkiverne og projektet, har også udviklet sig fra de ekspansive SRF-filer (sequence read format) til de mere kompakte BAM-formater (Binary Alignment/Map)7 og FASTQ-formater (tabel 1). Dette formatskifte blev muliggjort af en bedre forståelse af projektets analysegruppes behov, hvilket førte til en beslutning om ikke længere at arkivere rå intensitetsmålinger fra read-data, men udelukkende at fokusere på base calls og kvalitetsscorer.
Som et “community resource project “8 offentliggør 1000 Genomes Project så hurtigt som muligt præpublikationsdata som beskrevet nedenfor. Projektet har spejlede downloadsteder på EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) og NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/), som giver projekt- og fællesskabsadgang samtidig og øger den samlede downloadkapacitet effektivt. Hovedkopien opdateres direkte af DCC på EBI, og NCBI-kopien spejles normalt inden for 24 timer via en automatisk Aspera-proces hver nat. Generelt vil brugere i Nord- og Sydamerika få hurtigst adgang til dataene fra NCBI-spejlet, mens brugere i Europa og andre steder i verden vil downloade hurtigere fra EBI’s masterkopi.
De rå sekvensdata, som FASTQ-filer, vises på 1000 Genomes FTP-site inden for 48-72 timer efter, at EBI SRA har behandlet dem. Denne behandling kræver, at data, der oprindeligt er indsendt til NCBI SRA, først skal spejles hos EBI. Projektdata forvaltes ved hjælp af periodiske datafrysninger, der er forbundet med en dateret sequence.index-fil (supplerende note). Disse filer blev produceret ca. hver anden måned i pilotfasen, og for det fulde projekt varierer frigivelsesfrekvensen afhængigt af produktionscentrenes output og analysegruppens krav.
Alignments baseret på en specifik sequence.index-fil produceres inden for projektet og distribueres via FTP-stedet i BAM-format, og analyseresultater distribueres i variant call format (VCF)-format9. Indeksfiler oprettet af Tabix-softwaren10 leveres også for både BAM- og VCF-filer.
Alle data på FTP-stedet har været igennem en omfattende kvalitetskontrolproces. For sekvensdata omfatter dette kontrol af syntaks og kvalitet af de rå sekvensdata og bekræftelse af prøvens identitet. For alignmentdata omfatter kvalitetskontrollen kontrol af filintegritet og konsistenskontrol af metadata (Supplerende note).
Dataadgang
Hele 1000 Genomes Project-datasættet er tilgængeligt, og den mest logiske metode til at opnå det er at spejle indholdet af FTP-stedet, som pr. marts 2012 er mere end 260 terabyte. Vores erfaring er, at de fleste brugere er mere interesserede i analyseresultater og målrettede rådata eller alignment-slices fra specifikke regioner af genomet end i hele datasættet. Faktisk distribueres analysefilerne via FTP-stedet i mapper, der er opkaldt efter den sequence.index-frysedato, de er baseret på (Supplerende bemærkning). Med hundredtusindvis af tilgængelige filer kan det imidlertid være yderst vanskeligt at finde og få adgang til specifikke projektdata ved at gennemse FTP-mappestrukturen.
En fil kaldet current.tree findes ved roden af FTP-stedet for at hjælpe med at søge på stedet. Denne fil er designet til at muliggøre spejling af FTP-stedet og indeholder en komplet liste over alle filer og mapper, herunder tidspunktet for sidste opdatering og oplysninger om filintegritet. Vi udviklede en webgrænseflade (http://www.1000genomes.org/ftpsearch/) for at give direkte adgang til filen current.tree ved hjælp af enhver brugerspecificeret prøveidentifikator(er) eller andre oplysninger, der findes i vores datafilnavne, som følger en streng konvention for at lette søgningen. Søgningen returnerer fulde filstier til enten EBI eller NCBI FTP-stedet og understøtter filtre til at udelukke filtyper, der sandsynligvis vil give et stort antal resultater, f.eks. FASTQ- eller BAM-filer (Supplerende note).
For brugere, der ønsker opdagede varianter eller tilpasninger fra specifikke genomiske regioner uden at downloade de komplette filer, kan de få underafsnit af BAM- og VCF-filer enten direkte med Tabix eller via et webbaseret data-slicing-værktøj (Supplerende note). VCF-filer kan også opdeles efter prøvenavn eller population ved hjælp af data sliceren.
Man kan se 1000 Genomes-data i forbindelse med omfattende genomannotation, f.eks. protein-kodende gener og regulatoriske oplysninger om hele genomet via den dedikerede 1000 Genomes-browser baseret på Ensembl-infrastrukturen11 (http://browser.1000genomes.org/). Browseren viser projektvarianter, før de er behandlet af dbSNP eller vises i genomressourcer som Ensembl eller University of California Santa Cruz (UCSC) genombrowser. 1000 Genomes-browseren giver også Ensembl-variationsværktøjer, herunder Variant Effect Predictor (VEP)12 samt “sortering af tolerante fra intolerante” (SIFT)13 og PolyPhen14 -forudsigelser for alle nonsynonyme varianter (Supplerende note). Browseren understøtter visning af både 1000 Genomes Project og andre webtilgængelige indekserede BAM- og VCF-filer i genomisk kontekst (fig. 2). En stabil arkivversion af 1000 Genomes-browseren baseret på Ensembl-kodeversion 60 og indeholdende pilotprojektets data er tilgængelig på http://pilotbrowser.1000genomes.org/.
De underliggende MySQL-databaser, der understøtter projektbrowseren, er også offentligt tilgængelige, og disse kan forespørges direkte eller tilgås programmatisk ved hjælp af den relevante version af Ensembl Application Programming Interface (API) (Supplementary Note).
Brugere kan også udforske og downloade projektdata ved hjælp af NCBI’s databrowser på http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Browseren viser både sekvenslæsninger og individuelle genotyper for enhver region af genomet. Sekvenser for udvalgte individer, der dækker den viste region, kan downloades i BAM-, SAM-, FASTQ- eller FASTA-format. Genotyper kan ligeledes downloades i VCF-format (Supplerende note).
Projektet indsender alle kaldte varianter til de relevante repositories ved hjælp af håndtaget “1000GENOMES”. Pilotprojektets enkeltnukleotidpolymorfismer og små indels er blevet indsendt til dbSNP15 , og strukturelle variationsdata er blevet indsendt til databasen Database of Genomic Variants archive (DGVa)16 . Varianter fra det fulde projekt vil blive indsendt på samme måde.
For brugere af Amazon Web Services er alle de i øjeblikket tilgængelige BAM- og VCF-filer fra projektet tilgængelige som et offentligt datasæt via http://1000genomes.s3.amazonaws.com/ (supplerende note).
Diskussion
De metoder til indsendelse af data og adgang til data, der er udviklet til støtte for 1000 Genomes-projektet, giver fordele for alle sekventeringsprojekter i stor skala og for det bredere samfund. Den strømlinede arkiveringsproces drager fordel af de to synkroniserede kopier af SRA, som fordeler den ressourcekrævende opgave med behandling af indsendelse. Desuden sikrer DCC’s nærhed til SRA, at alle 1000 Genomes-data stilles til rådighed for samfundet så hurtigt som muligt, og det har givet arkiverne mulighed for at drage fordel af DCC’s erfaringer.
Store datagenererings- og analyseprojekter kan drage fordel af en organiseret og centraliseret dataforvaltningsaktivitet2,3,4. Målene med sådanne aktiviteter er at yde den nødvendige støtte og infrastruktur til projektet og samtidig sikre, at dataene stilles til rådighed så hurtigt og bredt som muligt. Til støtte for analysen af 1000-genomprojektet omfatter den etablerede omfattende datastrøm flere test for at sikre dataintegritet og -kvalitet (fig. 1). Som en del af denne proces stilles data til rådighed for medlemmer af konsortiet og offentligheden samtidig på specifikke punkter i datastrømmen, herunder ved indsamling af sekvensdata og færdiggørelse af alignments.
Ud over den direkte støtte til projektets behov sikrer centraliseret dataforvaltning, at der oprettes ressourcer, der er målrettet brugere uden for konsortiets analysegruppe. Disse omfatter 1000 Genomes Browser (http://browser.1000genomes.org/), indsendelse af både foreløbige og endelige variantdatasæt til dbSNP og til dbVar/DGVa, tilvejebringelse af alignment- og variantfiler i Amazon Web Services-skyen og centraliserede annotationstjenester for variationer.
De erfaringer med dataforvaltning, der er anvendt til dette projekt, afspejler dels vanskelighederne ved at tilpasse eksisterende bioinformatiksystemer til nye teknologier og dels udfordringen med datamængder, der er meget større end tidligere. Den hurtige udvikling af analyse- og behandlingsmetoder er et tegn på den fælles indsats for at tilvejebringe effektive værktøjer til at forstå dataene.