A nagy áteresztőképességű szekvenálási technológiák, beleértve az Illumina, a Roche Diagnostics (454) és a Life Technologies (SOLiD) technológiáit, soha nem látott mértékű és a humán genomprojektben használt gélkapilláris technológiához képest drámaian alacsonyabb költségek mellett teszik lehetővé a teljes genom szekvenálását. Ezek a technológiák álltak a középpontjában annak a 2007-es döntésnek, hogy elindítsák az 1000 Genom projektet, amely az emberi variáció átfogó jellemzésére törekszik több populációban. A projekt kísérleti szakaszában az adatok segítségével átfogó populációs szintű képet kaphattunk az emberi genetikai variációról1.
A nagy áteresztőképességű szekvenálási technológiák nagyobb adatmennyisége és rövidebb olvasási hossza jelentős új követelményeket támasztott a bioinformatikai, elemzési és adatelosztási módszerekkel szemben. Az 1000 Genom projekt eredeti terve az volt, hogy 1000 egyedre vonatkozóan 2× teljes genom lefedettséget gyűjtenek, ami egyénenként ∼6 giga-bázispár szekvenciát és összesen ∼6 tera-bázispár (Tbp) szekvenciát jelent. A szekvenálási kapacitás növekedése e tervek többszöri felülvizsgálatát eredményezte a projekt jelenlegi léptékéhez, amely szerint alacsony lefedettségű, ∼4× teljes genom és ∼20× teljes exom szekvenciát gyűjtenek ∼2 500 egyedre, valamint magas lefedettségű, ∼40× teljes genom szekvenciát összesen 500 egyedre (∼25-szörös növekedés a szekvencia előállításában az eredeti becslésekhez képest). Az 1000 Genomes Pilot Project keretében 5 Tbp szekvenciaadatot gyűjtöttek össze, aminek eredményeképpen 38 000 fájl és több mint 12 terabájtnyi adat állt a közösség rendelkezésére1. 2012 márciusában a projekt még mindig növekvő erőforrásai több mint 260 terabájtnyi adatot tartalmaznak több mint 250 000 nyilvánosan hozzáférhető fájlban.
A korábbi erőfeszítésekhez hasonlóan2,3,4 az 1000 Genomes Project tagjai felismerték, hogy az adatok koordinálása kulcsfontosságú lesz a produktív előrelépéshez és annak biztosításához, hogy az adatok ésszerű időn belül a közösség rendelkezésére álljanak. Ezért az Európai Bioinformatikai Intézet (EBI) és a Nemzeti Biotechnológiai Központ (NCBI) közösen létrehozta az Adatkoordinációs Központot (DCC), amelynek feladata a projektspecifikus adatáramlás kezelése, az archivált szekvenciaadatok elhelyezésének biztosítása, valamint a közösség FTP-oldalon és genomböngészőn keresztüli hozzáférésének kezelése.
Az 1000 Genomos Projekt tagjai által alkalmazott módszereket ismertetjük, amelyekkel a közösség számára adatforrásokat biztosítanak a nyers szekvenciaadatoktól a böngészhető projekteredményekig. A projekt adatfeldolgozási módszereiből vett példákkal mutatjuk be az összetett munkafolyamatok kulcsfontosságú összetevőit.
Adatáramlás
Az 1000 Genomos Projekt adatáramlásának olyan irányítása, hogy az adatok a projekten belül és a szélesebb közösség számára is elérhetőek legyenek, a DCC alapvető bioinformatikai kihívása (1. ábra és 1. kiegészítő táblázat). Kilenc különböző szekvenáló központ és több mint két tucat fő elemzőcsoport1 mellett a legfontosabb kezdeti kihívások a következők: (i) az összes szekvenálási adat központi összegyűjtése a szükséges minőségellenőrzés és szabványosítás érdekében; (ii) az adatok cseréje a résztvevő intézmények között; (iii) a szekvenálási adatok és a közbenső elemzési eredmények gyors hozzáférhetőségének biztosítása az elemzőcsoportok számára; (iv) a szekvencia-, illesztési és variánsfájlokhoz, valamint a hozzájuk tartozó metaadatokhoz való könnyű hozzáférés fenntartása; és (v) ezen erőforrások biztosítása a közösség számára.
Az elmúlt években a TCP/IP-alapú protokollok, például az FTP segítségével történő adatátvitel sebessége nem növekedett a szekvencia-előállítási kapacitás növekedésével. Erre válaszul egyes csoportok a szekvenciaadatokat tartalmazó fizikai merevlemezek5 elküldéséhez folyamodtak, bár az adatok ilyen módon történő kezelése nagyon munkaigényes. Ugyanakkor a szekvenciaadatok adatátviteli követelményei jóval a fizikában és a csillagászatban tapasztaltak alatt maradnak, ezért nem volt indokolt egy külön hálózati infrastruktúra kiépítése. Ehelyett a projekt tagjai úgy döntöttek, hogy az Aspera cég internetes adatátviteli megoldására támaszkodnak, egy UDP-alapú módszerre, amely tipikus használat esetén 20-30-szor gyorsabb adatátviteli sebességet ér el, mint az FTP. Az Aspera használatával az EBI és az NCBI együttes adatszolgáltatási kapacitása jelenleg megközelíti a napi 30 terabájtot, és mindkét helyszín a globális szekvenálási kapacitás növekedésével növekedni fog.
Az 1000 Genom projekt volt felelős az első több adatbázisból álló adatszolgáltatásokért a két szekvenciaolvasási archívumba (SRA): az EBI SRA-jába, amelyet az Európai Nukleotid Archívum (ENA) szolgáltatásaként nyújtanak, és az NCBI SRA6-ba. A projekt során a főbb szekvenáló központok automatizált adatszolgáltatási módszereket dolgoztak ki az EBI-hez vagy az NCBI-hez, míg mindkét SRA-adatbázisban általánosított módszereket dolgoztak ki az archivált adatok keresésére és az azokhoz való hozzáférésre. Az archívumok és a projekt által elfogadott és terjesztett adatformátumok is fejlődtek a terjedelmes SRF (sequence read format) fájlokból a kompaktabb BAM (Binary Alignment/Map)7 és FASTQ formátumokra (1. táblázat). Ezt a formátumváltást a projekt-elemző csoport igényeinek jobb megértése tette lehetővé, ami ahhoz a döntéshez vezetett, hogy felhagynak a leolvasási adatok nyers intenzitásméréseinek archiválásával, és kizárólag a bázishívásokra és minőségi pontszámokra összpontosítanak.
Az 1000 Genom projekt mint “közösségi erőforrás projekt “8 a lehető leggyorsabban nyilvánosságra hozza a publikáció előtti adatokat az alábbiakban ismertetett módon. A projekt tükrözött letöltési oldalakkal rendelkezik az EBI-nél (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) és az NCBI-nél (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/), amelyek egyszerre biztosítják a projekt és a közösség hozzáférését, és hatékonyan növelik a teljes letöltési kapacitást. A mesterpéldányt közvetlenül a DCC frissíti az EBI-nél, az NCBI másolatát pedig általában 24 órán belül tükrözik egy éjszakai automatikus Aspera-folyamat révén. Általában az amerikai kontinensen élő felhasználók az NCBI tükörmásolatáról férnek hozzá a leggyorsabban az adatokhoz, míg az európai és a világ más részein élő felhasználók az EBI mesterpéldányáról töltenek le gyorsabban.
A nyers szekvenciaadatok FASTQ fájlokként 48-72 órával az EBI SRA feldolgozását követően megjelennek az 1000 Genomes FTP-oldalán. Ez a feldolgozás megköveteli, hogy az eredetileg az NCBI SRA-hoz benyújtott adatokat először tükrözni kell az EBI-nél. A projektadatok kezelése a dátumozott sequence.index fájlhoz kapcsolódó időszakos adatbefagyasztások révén történik (Kiegészítő megjegyzés). Ezeket a fájlokat a kísérleti fázisban körülbelül kéthavonta állították elő, és a teljes projekt esetében a kiadási gyakoriság a termelőközpontok teljesítményétől és az elemzőcsoport igényeitől függően változik.
Az adott sequence.index fájlon alapuló illesztéseket a projekten belül állítják elő és az FTP oldalon keresztül BAM formátumban terjesztik, az elemzési eredményeket pedig variánshívás formátumban (VCF) terjesztik9. A Tabix szoftver10 által létrehozott indexfájlok szintén rendelkezésre állnak mind a BAM-, mind a VCF-fájlokhoz.
Az FTP-oldalon található összes adat kiterjedt minőségellenőrzési folyamaton ment keresztül. A szekvenciaadatok esetében ez magában foglalja a nyers szekvenciaadatok szintaxisának és minőségének ellenőrzését, valamint a minta azonosságának megerősítését. Az illesztési adatok esetében a minőségellenőrzés magában foglalja a fájlok integritásának és a metaadatok konzisztenciájának ellenőrzését (kiegészítő megjegyzés).
Adathozzáférés
A teljes 1000 Genomes Project adathalmaz elérhető, és a leglogikusabb megközelítés a hozzáféréshez az FTP-oldal tartalmának tükrözése, amely 2012 márciusában több mint 260 terabájtot tesz ki. Tapasztalataink szerint a legtöbb felhasználót inkább az elemzési eredmények és a célzott nyers adatok vagy a genom bizonyos régióiból származó illesztési szeletek érdeklik, mint a teljes adathalmaz. Az analízisfájlok valóban az FTP-oldalon keresztül kerülnek terjesztésre a szekvencia.index fagyasztási dátumáról elnevezett könyvtárakban, amelyeken alapulnak (Kiegészítő megjegyzés). A több százezer elérhető fájl miatt azonban az FTP könyvtárszerkezetében való böngészéssel rendkívül nehéz lehet megtalálni és elérni a konkrét projektadatokat.
A honlap gyökerénél található egy current.tree nevű fájl, amely segíti a keresést. Ezt a fájlt úgy tervezték, hogy lehetővé tegye az FTP-oldal tükrözését, és tartalmazza az összes fájl és könyvtár teljes listáját, beleértve az utolsó frissítés időpontját és a fájlintegritási információkat. Kifejlesztettünk egy webes felületet (http://www.1000genomes.org/ftpsearch/), amely közvetlen hozzáférést biztosít az current.tree fájlhoz a felhasználó által megadott mintaazonosító(k) vagy az adatfájljaink neveiben található egyéb információk segítségével, amelyek szigorú konvenciót követnek a keresés megkönnyítése érdekében. A keresés visszaadja a teljes fájlútvonalakat az EBI vagy az NCBI FTP-oldalára, és támogatja a szűrőket a nagyszámú eredményt valószínűsítő fájltípusok, például a FASTQ- vagy BAM-fájlok kizárására (Kiegészítő megjegyzés).
A felhasználók számára, akik a teljes fájlok letöltése nélkül szeretnének felfedezett variánsokat vagy illesztéseket bizonyos genomi régiókból, a BAM- és VCF-fájlok alrészleteit közvetlenül a Tabix segítségével vagy egy webalapú adatszeletelő eszközzel (Kiegészítő megjegyzés) szerezhetik be. A VCF-fájlok mintanév vagy populáció szerint is feloszthatók az adatszeletelő segítségével.
Az 1000 Genomes-adatokat az Ensembl infrastruktúrán11 (http://browser.1000genomes.org/) alapuló dedikált 1000 Genomes-böngészőn keresztül a kiterjedt genom-annotáció, például a fehérjekódoló gének és a teljes genomra vonatkozó szabályozási információk összefüggésében is megtekinthetjük. A böngésző megjeleníti a projektváltozatokat, mielőtt azokat a dbSNP feldolgozná, illetve mielőtt azok megjelennének az olyan genomforrásokban, mint az Ensembl vagy a Kaliforniai Egyetem Santa Cruz-i (UCSC) genomböngészője. Az 1000 Genomes böngésző az Ensembl variációs eszközeit is biztosítja, beleértve a Variant Effect Predictor (VEP)12 , valamint a “sorting tolerant from intolerant” (SIFT)13 és PolyPhen14 előrejelzéseket minden nem szinonim variánsra vonatkozóan (kiegészítő megjegyzés). A böngésző támogatja mind az 1000 Genomes Project, mind más, interneten elérhető indexált BAM- és VCF-fájlok megtekintését genomi kontextusban (2. ábra). Az 1000 Genomes böngésző stabil archivált változata, amely az Ensembl kód 60-as kiadásán alapul, és tartalmazza a kísérleti projekt adatait, elérhető a http://pilotbrowser.1000genomes.org/.
A projektböngészőt támogató mögöttes MySQL-adatbázisok szintén nyilvánosan elérhetők, és ezek közvetlenül lekérdezhetők vagy programozottan elérhetők az Ensembl alkalmazásprogramozási felület (API) megfelelő verziójának használatával (kiegészítő megjegyzés).
A felhasználók az NCBI adatböngészőjének http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/ segítségével is felfedezhetik és letölthetik a projektadatokat. A böngésző mind a szekvenciaolvasásokat, mind az egyéni genotípusokat megjeleníti a genom bármely régiójára vonatkozóan. A megjelenített régiót lefedő kiválasztott egyedek szekvenciája letölthető BAM, SAM, FASTQ vagy FASTA formátumban. A genotípusok hasonlóképpen letölthetők VCF formátumban (Kiegészítő megjegyzés).
A projekt minden megnevezett variánst benyújt a megfelelő tárolókba az “1000GENOMES” azonosító használatával. A kísérleti projekt egynukleotid-polimorfizmusait és a kis indeleket a dbSNP15, a strukturális variációs adatokat pedig a Database of Genomic Variants archívumba (DGVa)16 nyújtották be. A teljes projekt variánsait hasonlóképpen fogják benyújtani.
Az Amazon Web Services felhasználói számára az összes jelenleg rendelkezésre álló projekt BAM- és VCF-fájl nyilvános adatkészletként elérhető a http://1000genomes.s3.amazonaws.com/ (kiegészítő megjegyzés) címen.
Diszkusszió
Az 1000 Genom projekt támogatására kifejlesztett adatszolgáltatási és hozzáférési módszerek minden nagy szekvenálási projekt és a szélesebb közösség számára előnyösek. Az egyszerűsített archiválási folyamat kihasználja az SRA két szinkronizált példányának előnyeit, amelyek elosztják a benyújtás feldolgozásának erőforrás-igényes feladatát. Ezen túlmenően a DCC és az SRA közelsége biztosítja, hogy az összes 1000 Genomes adat a lehető leggyorsabban elérhetővé válik a közösség számára, és lehetővé tette, hogy az archívumok hasznosíthassák a DCC által levont tanulságokat.
A nagyszabású adatgenerálási és -elemzési projektek számára előnyös lehet egy szervezett és központosított adatkezelési tevékenység2,3,4. Az ilyen tevékenységek célja, hogy a szükséges támogatást és infrastruktúrát biztosítsák a projekt számára, miközben biztosítják, hogy az adatok a lehető leggyorsabban és legszélesebb körben rendelkezésre álljanak. Az 1000 Genom Projekt elemzésének támogatása során a létrehozott kiterjedt adatáramlás többféle vizsgálatot is tartalmaz az adatok integritásának és minőségének biztosítása érdekében (1. ábra). Ennek a folyamatnak a részeként az adatokat az adatáramlás meghatározott pontjain, többek között a szekvenciaadatok gyűjtésekor és az illesztések befejezésekor egyszerre bocsátják a konzorcium tagjai és a nyilvánosság rendelkezésére.
A projekt igényeinek közvetlen támogatásán túl a központosított adatkezelés biztosítja, hogy a konzorciumi elemzőcsoporton kívüli felhasználóknak szánt erőforrások is létrejöjjenek. Ezek közé tartozik az 1000 Genomes Browser (http://browser.1000genomes.org/), mind az előzetes, mind a végleges variánsadatkészletek benyújtása a dbSNP-hez és a dbVar/DGVa-hoz, az összehangolási és variánsfájlok biztosítása az Amazon Web Services felhőben, valamint központosított variációs annotációs szolgáltatások.
A projekt során alkalmazott adatkezelési tapasztalatok részben a meglévő bioinformatikai rendszerek új technológiákhoz való adaptálásának nehézségeit, részben pedig a korábban tapasztaltnál jóval nagyobb adatmennyiségek jelentette kihívást tükrözik. Az elemzési és feldolgozási módszerek gyors fejlődése jelzi a közösség azon törekvését, hogy hatékony eszközöket biztosítson az adatok megértéséhez.