Korkean läpimenon sekvensointitekniikat, mukaan lukien Illuminan, Roche Diagnosticsin (454) ja Life Technologiesin (SOLiD) tekniikat, mahdollistavat koko genomin sekvensoinnin ennennäkemättömän laajassa mittakaavassa ja huomattavasti alhaisemmilla kustannuksilla kuin ihmisen genomiprojektissa käytetty geelikapillaaritekniikka. Nämä teknologiat olivat keskeisessä asemassa, kun vuonna 2007 päätettiin käynnistää 1000 genomia -hanke, jolla pyritään kuvaamaan kattavasti ihmisen vaihtelua useissa populaatioissa. Hankkeen pilottivaiheessa saadut tiedot auttoivat luomaan kattavan populaatiomittakaavan näkemyksen ihmisen geneettisestä vaihtelusta.1
Suuret tietomäärät ja korkean läpimenon sekvensointitekniikoiden lyhyemmät lukupituudet loivat huomattavia uusia vaatimuksia bioinformatiikalle, analyyseille ja tietojen jakelumenetelmille. 1000 Genomia -hankkeen alkuperäisenä suunnitelmana oli kerätä 2 × koko genomin kattavuus 1000 yksilöltä, mikä vastaa ∼6 giga-emäsparia sekvenssiä yksilöä kohti ja ∼6 tera-emäsparia (Tbp) sekvenssiä yhteensä. Sekvensointikapasiteetin lisääntyminen johti näiden suunnitelmien toistuviin tarkistuksiin nykyiseen hankkeen mittakaavaan, jossa kerätään matalan kattavuuden ∼4× koko genomin ja ∼20× koko eksomin sekvenssi ∼2 500 yksilöä varten sekä korkean kattavuuden ∼40× koko genomin sekvenssi yhteensä 500 yksilöä varten (sekvenssien tuottaminen lisääntyy alkuperäisiin arvioihin verrattuna ∼25-kertaisesti). 1000 Genomes Pilot Project -hankkeessa kerättiin 5 Tbp:tä sekvenssidataa, minkä tuloksena yhteisö sai käyttöönsä 38 000 tiedostoa ja yli 12 teratavua dataa1. Maaliskuussa 2012 hankkeen yhä kasvaviin resursseihin sisältyi yli 260 teratavua dataa yli 250 000 julkisesti saatavilla olevassa tiedostossa.
Kuten aiemmissa hankkeissa2,3,4, 1000 Genomes -hankkeen jäsenet ymmärsivät, että datan koordinointi olisi ratkaisevan tärkeää, jotta voitaisiin edetä tuottavasti ja varmistaa, että data olisi yhteisön saatavilla kohtuullisessa ajassa. Siksi perustettiin Euroopan bioinformatiikan instituutin (European Bioinformatics Institute, EBI) ja kansallisen biotekniikan keskuksen (National Center for Biotechnology, NCBI) yhteinen datakoordinointikeskus (Data Coordination Center, DCC), jonka tehtävänä on hallinnoida hankekohtaista tietovirtaa, varmistaa sekvenssidatan arkistointi ja hallinnoida yhteisön pääsyä FTP-sivuston ja genomiselaimen välityksellä.
Kuvaamme tässä menetelmiä, joita 1000 Genomes -hankkeen jäsenet käyttivät tarjotakseen yhteisölle tietoresursseja raa’asta sekvenssidatasta projektin tuloksiin, joita voi selata. Esitämme esimerkkejä, jotka on poimittu hankkeen tietojenkäsittelymenetelmistä, jotta voimme havainnollistaa monimutkaisten työnkulkujen keskeiset osatekijät.
Datavirta
Datavirran hallinta 1000 Genomia -hankkeessa siten, että tiedot ovat saatavilla sekä hankkeen sisällä että laajemmalle yhteisölle, on DCC:n perustavanlaatuinen bioinformatiikkaan liittyvä haaste (kuva 1 ja täydentävä taulukko 1). Yhdeksän eri sekvensointikeskusta ja yli kaksi tusinaa suurta analyysiryhmää1 , joten tärkeimpiä alkuvaiheen haasteita ovat i) kaikkien sekvensointidatan kokoaminen keskitetysti tarvittavaa laadunvalvontaa ja standardointia varten, ii) datan vaihto osallistuvien laitosten välillä, iii) sekä sekvensointidatan että analyysitulosten nopean saatavuuden varmistaminen analyysiryhmille, iv) sekvenssi-, tasaus- ja varianssitiedostojen ja niihin liittyvien metatietojen helpon saatavuuden ylläpito ja v) näiden resurssien tarjoaminen yhteisölle.
Viime vuosina TCP/IP-pohjaisten protokollien, kuten FTP:n, käyttämät tiedonsiirtonopeudet eivät ole skaalautuneet sekvenssien tuotantokapasiteetin lisääntymisen myötä. Tämän vuoksi jotkin ryhmät ovat siirtyneet lähettämään sekvenssitietoja fyysisille kiintolevyille5 , vaikka tietojen käsittely tällä tavoin on hyvin työlästä. Samaan aikaan sekvenssidatan tiedonsiirtovaatimukset ovat huomattavasti alhaisemmat kuin fysiikassa ja tähtitieteessä, joten erityisen verkkoinfrastruktuurin rakentaminen ei ollut perusteltua. Sen sijaan hankkeen jäsenet päättivät käyttää Aspera-yhtiön Internet-siirtoratkaisua, UDP-pohjaista menetelmää, jolla saavutetaan 20-30 kertaa nopeampi tiedonsiirtonopeus kuin FTP:llä tyypillisessä käytössä. Asperan avulla EBI:n ja NCBI:n yhteenlaskettu tiedonsiirtokapasiteetti lähestyy tällä hetkellä 30 teratavua päivässä, ja molemmat sivustot ovat valmiita kasvamaan maailmanlaajuisen sekvensointikapasiteetin kasvaessa.
1000 genomia -hanke vastasi ensimmäisistä monitietokantojen tiedonsiirroista kahteen sekvenssilukuarkistoon (SRA): EBI:n SRA:han, joka on Euroopan nukleotidiarkiston (ENA) palvelu, ja NCBI:n SRA:han6. Hankkeen aikana suurimmat sekvensointikeskukset kehittivät automatisoituja tiedonsiirtomenetelmiä joko EBI:hen tai NCBI:hen, kun taas molemmissa SRA-tietokannoissa kehitettiin yleistettyjä menetelmiä arkistoidun datan etsimistä ja käyttöä varten. Sekä arkistojen että hankkeen hyväksymät ja jakamat tietomuodot ovat myös kehittyneet laajoista SRF-tiedostoista (sequence read format) tiiviimpiin BAM- (Binary Alignment/Map)7 ja FASTQ-muotoihin (taulukko 1). Tämän formaattimuutoksen mahdollisti hankkeen analyysiryhmän tarpeiden parempi ymmärtäminen, mikä johti päätökseen lopettaa lukudatan raa’an intensiteettimittauksen arkistointi ja keskittyä yksinomaan emäskutsuihin ja laatupistemääriin.
”Yhteisöllisenä resurssihankkeena” (community resource project)8 1000 Genomia -hanke julkaisee julkisuuteen esijulkaisua edeltävän datan jäljempänä kuvatulla tavalla mahdollisimman nopeasti. Hankkeella on EBI:ssä (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) ja NCBI:ssä (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) peilattuja lataussivustoja, jotka mahdollistavat hankkeen ja yhteisön pääsyn samanaikaisesti ja lisäävät tehokkaasti kokonaislatauskapasiteettia. DCC päivittää suoraan EBI:n master-kopion, ja NCBI:n kopio peilataan yleensä 24 tunnin kuluessa yöllisen automaattisen Aspera-prosessin avulla. Yleensä amerikkalaiset käyttäjät saavat tiedot nopeimmin käyttöönsä NCBI:n peilistä, kun taas eurooppalaiset ja muualla maailmassa asuvat käyttäjät lataavat ne nopeammin EBI:n master-kopiosta.
Raakasekvenssidata FASTQ-tiedostoina ilmestyy 1000 Genomes FTP-sivustolle 48-72 tunnin kuluessa siitä, kun EBI:n SRA on käsitellyt ne. Tämä käsittely edellyttää, että alun perin NCBI SRA:lle toimitetut tiedot on ensin peilattava EBI:ssä. Hankkeen tietoja hallinnoidaan ajoittaisilla tietojen jäädytyksillä, jotka liittyvät päivättyyn sequence.index-tiedostoon (täydentävä huomautus). Näitä tiedostoja tuotettiin pilottivaiheessa noin kahden kuukauden välein, ja koko hankkeessa julkaisutiheys vaihtelee tuotantokeskusten tuotoksen ja analyysiryhmän vaatimusten mukaan.
Kohtaiseen sequence.index-tiedostoon perustuvat kohdistukset tuotetaan hankkeessa ja jaetaan FTP-sivuston kautta BAM-muodossa, ja analyysitulokset jaetaan VCF-muodossa (variant call format)9. Tabix-ohjelmistolla10 luodut indeksitiedostot toimitetaan myös sekä BAM- että VCF-tiedostoille.
Kaikki FTP-sivustolla olevat tiedot ovat käyneet läpi laajan laadunvalvontaprosessin. Sekvenssidatan osalta tähän sisältyy raa’an sekvenssidatan syntaksin ja laadun tarkistaminen sekä näytteen identiteetin varmistaminen. Kohdistusdatan osalta laadunvalvontaan kuuluu tiedostojen eheyden ja metatietojen yhdenmukaisuuden tarkistaminen (Supplementary Note).
Datan saatavuus
Koko 1000 Genomes Project -datakokonaisuus on saatavilla, ja loogisin tapa saada se on peilata FTP-sivuston sisältöä, joka maaliskuussa 2012 oli yli 260 teratavua. Kokemuksemme mukaan useimmat käyttäjät ovat enemmän kiinnostuneita analyysituloksista ja kohdennetusta raakadatasta tai linjausviipaleista tietyiltä genomin alueilta kuin koko datasarjasta. Analyysitiedostot jaetaankin FTP-sivuston kautta hakemistoissa, jotka on nimetty niiden perustana olevan sequence.index freeze -päivämäärän mukaan (täydentävä huomautus). Koska käytettävissä on kuitenkin satojatuhansia tiedostoja, tiettyjen projektidatojen paikantaminen ja käyttäminen FTP-hakemistorakennetta selaamalla voi olla erittäin vaikeaa.
FTP-sivuston juuressa on tiedosto nimeltä current.tree, joka auttaa sivuston etsimisessä. Tämä tiedosto on suunniteltu mahdollistamaan FTP-sivuston peilaaminen, ja se sisältää täydellisen luettelon kaikista tiedostoista ja hakemistoista, mukaan lukien viimeisimmän päivityksen ajankohta ja tiedostojen eheystiedot. Kehitimme web-käyttöliittymän (http://www.1000genomes.org/ftpsearch/), joka mahdollistaa suoran pääsyn current.tree-tiedostoon käyttämällä mitä tahansa käyttäjän määrittelemiä näytetunnisteita tai muita tietoja, jotka löytyvät datatiedostojemme nimistä, jotka noudattavat tiukkaa konventiota hakujen helpottamiseksi. Haku palauttaa täydelliset tiedostopolut joko EBI:n tai NCBI:n FTP-sivustolle ja tukee suodattimia, joilla voidaan sulkea pois tiedostotyypit, jotka todennäköisesti tuottavat suuren määrän tuloksia, kuten FASTQ- tai BAM-tiedostot (Supplementary Note).
Käyttäjät, jotka haluavat löydettyjä variantteja tai linjauksia tietyiltä genomialueilta lataamatta kokonaisia tiedostoja, voivat hankkia BAM- ja VCF-tiedostojen osa-alueita joko suoraan Tabix-ohjelmalla tai verkkopohjaisen datan leikkaustyökalun avulla (Supplementary Note). VCF-tiedostot voidaan myös jakaa näytteen nimen tai populaation mukaan datan viipalointityökalun avulla.
1000 Genomes -tietoja voi tarkastella laajan genomiannotaation, kuten proteiineja koodaavien geenien ja koko genomin säätelytiedon, yhteydessä Ensembl-infrastruktuuriin11 perustuvan erityisen 1000 Genomes -selaimen avulla (http://browser.1000genomes.org/). Selaimessa näkyvät hankkeen variantit ennen kuin dbSNP käsittelee niitä tai ne näkyvät genomiresursseissa, kuten Ensemblissä tai Kalifornian yliopiston Santa Cruzin (UCSC) genomiselaimessa. 1000 Genomes -selain tarjoaa myös Ensemblin variaatiotyökaluja, kuten Variant Effect Predictor (VEP)12 sekä ”sorting tolerant from intolerant” (SIFT)13 ja PolyPhen14 -ennusteet kaikille ei-synonyymisille varianteille (Supplementary Note). Selain tukee sekä 1000 Genomes Project -projektin että muiden verkkoon saatavilla olevien indeksoitujen BAM- ja VCF-tiedostojen tarkastelua genomikontekstissa (kuva 2). 1000 Genomes -selaimen vakaa arkistoversio, joka perustuu Ensembl-koodin julkaisuun 60 ja sisältää pilottihankkeen tiedot, on saatavilla osoitteessa http://pilotbrowser.1000genomes.org/.
Hankeselaimen taustalla olevat MySQL-tietokannat, jotka tukevat hankeselainta, ovat niin ikään julkisesti saatavilla, ja niitä voidaan kysyä suoraan tai niitä voidaan käyttää ohjelmallisesti käyttäen asianmukaista versiota Ensembl-sovellusohjelmointirajapinnasta (Ensembl Application Programming Interface (API)) (lisähuomautus).
Käyttäjät voivat myös tutustua hanketietoihin NCBI:n tietokoneselaimella osoitteessa http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/, ja ne voidaan ladata. Selain näyttää sekä sekvenssilukemat että yksittäiset genotyypit miltä tahansa genomin alueelta. Näytetyn alueen kattavien valittujen yksilöiden sekvenssit voidaan ladata BAM-, SAM-, FASTQ- tai FASTA-muodossa. Genotyypit voidaan niin ikään ladata VCF-muodossa (Supplementary Note).
Hanke toimittaa kaikki kutsutut variantit asianmukaisiin arkistoihin käyttäen tunnusta ”1000GENOMES”. Pilottihankkeen yksittäisnukleotidipolymorfismit ja pienet indelit on toimitettu dbSNP:hen15 , ja rakennevariaatiotiedot on toimitettu Database of Genomic Variants -arkistoon (DGVa)16. Koko hankkeen variantit tullaan toimittamaan vastaavalla tavalla.
Amazon Web Services -palvelun käyttäjille kaikki tällä hetkellä saatavilla olevat hankkeen BAM- ja VCF-tiedostot ovat saatavilla julkisena tietokokonaisuutena osoitteessa http://1000genomes.s3.amazonaws.com/ (täydentävä huomautus).
Keskustelu
1000 Genomia -hankkeen tueksi kehitetyistä tietojen toimittamisen ja saatavuuden menetelmistä on etua kaikille laajamittaisille sekvensointihankkeille ja laajemmalle yhteisölle. Virtaviivaistetussa arkistointiprosessissa hyödynnetään SRA:n kahta synkronoitua kopiota, jotka jakavat resurssi-intensiivisen toimituskäsittelyn. Lisäksi DCC:n ja SRA:n läheisyys varmistaa, että kaikki 1000 Genomes -tiedot saatetaan yhteisön saataville mahdollisimman nopeasti, ja sen ansiosta arkistot voivat hyötyä DCC:ssä saaduista kokemuksista.
Suuren mittakaavan datan tuottamiseen ja analysointiin tähtäävät hankkeet voivat hyötyä organisoidusta ja keskitetystä datanhallinnasta2,3,4. Tällaisen toiminnan tavoitteena on tarjota hankkeelle tarvittava tuki ja infrastruktuuri ja varmistaa samalla, että tiedot ovat saatavilla mahdollisimman nopeasti ja laajasti. 1000 Genome Project -analyysin tukemiseksi perustettu laaja tietovirta sisältää useita testejä, joilla varmistetaan tietojen eheys ja laatu (kuva 1). Osana tätä prosessia tiedot asetetaan konsortion jäsenten ja yleisön saataville samanaikaisesti tietovirran tietyissä kohdissa, kuten sekvenssidatan keräämisen ja kohdistusten valmistumisen yhteydessä.
Hankkeen tarpeiden suoran tukemisen lisäksi keskitetyllä tiedonhallinnalla varmistetaan, että luodaan resursseja, jotka on suunnattu konsortion analyysiryhmän ulkopuolisille käyttäjille. Näitä ovat 1000 Genomes Browser (http://browser.1000genomes.org/), sekä alustavien että lopullisten variaatiotietoaineistojen toimittaminen dbSNP:hen ja dbVar/DGVa:han, linjaus- ja variaatiotiedostojen tarjoaminen Amazon Web Services -pilvipalvelussa ja keskitetyt variaatioiden annotaatiopalvelut.
Tässä hankkeessa käytetyt kokemukset tiedonhallinnasta heijastavat osittain vaikeutta omaksua olemassa olevia bioinformatiikkajärjestelmiä uusiin teknologioihin ja osittain haasteita, jotka liittyvät paljon aiempaa suurempiin tietomääriin. Analysointi- ja käsittelymenetelmien nopea kehitys on osoitus yhteisön pyrkimyksistä tarjota tehokkaita välineitä tietojen ymmärtämiseen.