Vysokokapacitní sekvenační technologie, včetně těch od společností Illumina, Roche Diagnostics (454) a Life Technologies (SOLiD), umožňují sekvenování celých genomů v nebývalém rozsahu a při dramaticky snížených nákladech oproti technologii gelových kapilár použité v projektu lidského genomu. Tyto technologie stály v roce 2007 u zrodu rozhodnutí zahájit projekt 1000 genomů, jehož cílem je komplexně charakterizovat lidské variace v mnoha populacích. V pilotní fázi projektu pomohla data vytvořit rozsáhlý pohled na genetickou variabilitu člověka v populačním měřítku1.
Větší objemy dat a kratší délky čtení vysoce výkonných sekvenačních technologií vytvořily podstatné nové požadavky na bioinformatiku, analýzu a metody distribuce dat. Původním plánem projektu 1000 genomů bylo shromáždit 2× pokrytí celého genomu pro 1 000 jedinců, což představuje ∼6 párů giga-bází sekvence na jedince a ∼6 párů tera-bází (Tbp) sekvence celkem. Zvyšující se kapacita sekvenování vedla k opakovaným revizím těchto plánů až k současnému rozsahu projektu, který spočívá ve sběru sekvencí s nízkým pokrytím, ∼4× celogenomové a ∼20× celogenomové sekvence pro ∼2 500 jedinců plus sekvencí s vysokým pokrytím, ∼40× celogenomové sekvence pro celkem 500 jedinců (∼25násobné zvýšení tvorby sekvencí oproti původním odhadům). Pilotní projekt 1000 genomů ve skutečnosti shromáždil 5 Tbp sekvenčních dat, což vedlo k tomu, že komunita měla k dispozici 38 000 souborů a více než 12 terabajtů dat1. V březnu 2012 stále rostoucí zdroje projektu zahrnují více než 260 terabajtů dat ve více než 250 000 veřejně přístupných souborech.
Stejně jako v předchozích snahách2,3,4 si členové projektu 1000 genomů uvědomovali, že koordinace dat bude rozhodující pro produktivní postup a zajištění dostupnosti dat pro komunitu v rozumném časovém rámci. Proto bylo společně Evropským bioinformatickým institutem (EBI) a Národním biotechnologickým centrem (NCBI) zřízeno Centrum pro koordinaci dat (DCC), které řídí tok dat specifických pro projekt, zajišťuje archivní ukládání sekvenčních dat a spravuje přístup komunity prostřednictvím stránek FTP a prohlížeče genomu.
Popisujeme zde metody, které členové projektu 1000 genomů používají k poskytování datových zdrojů komunitě, od surových sekvenčních dat až po výsledky projektu, které lze prohlížet. Uvádíme příklady čerpané z metod zpracování dat projektu, abychom demonstrovali klíčové součásti komplexních pracovních postupů.
Průtok dat
Řízení toku dat v projektu 1000 genomů tak, aby byla data dostupná v rámci projektu i širší komunitě, je základní bioinformatickou výzvou pro DCC (obr. 1 a doplňková tabulka 1). Vzhledem k devíti různým sekvenačním centrům a více než dvěma desítkám hlavních analytických skupin1 jsou nejdůležitějšími počátečními výzvami (i) centrální shromažďování všech sekvenačních dat pro nezbytnou kontrolu kvality a standardizaci; (ii) výměna dat mezi zúčastněnými institucemi; (iii) zajištění rychlé dostupnosti sekvenačních dat i průběžných výsledků analýz pro analytické skupiny; (iv) udržování snadného přístupu k souborům sekvencí, zarovnání a variant a k souvisejícím metadatům; a (v) poskytování těchto zdrojů komunitě.
V posledních letech se rychlost přenosu dat pomocí protokolů založených na TCP/IP, jako je FTP, nezvyšovala s rostoucí kapacitou produkce sekvencí. V reakci na to se některé skupiny uchýlily k zasílání fyzických pevných disků se sekvenčními daty5 , ačkoli manipulace s daty tímto způsobem je velmi pracná. Současně požadavky na přenos dat pro sekvenční data zůstávají mnohem nižší než požadavky vyskytující se ve fyzice a astronomii, takže budování specializované síťové infrastruktury nebylo opodstatněné. Místo toho se členové projektu rozhodli spolehnout na internetové řešení přenosu dat od společnosti Aspera, metodu založenou na protokolu UDP, která při typickém použití dosahuje 20-30krát rychlejšího přenosu dat než FTP. Při použití systému Aspera se kombinovaná kapacita pro předávání dat v EBI a NCBI v současné době blíží 30 terabajtům denně, přičemž obě pracoviště jsou připravena na růst s tím, jak se bude zvyšovat globální kapacita sekvenování.
Projekt 1000 genomů byl zodpovědný za první předávání dat z více databází do dvou archivů sekvenčních čtení (SRA): SRA v EBI, poskytovaného jako služba Evropského nukleotidového archivu (ENA), a SRA NCBI6. V průběhu projektu vyvinula hlavní sekvenační centra automatizované metody předkládání dat buď do EBI, nebo do NCBI, zatímco obě databáze SRA vyvinuly obecné metody vyhledávání a přístupu k archivovaným datům. Formáty dat přijímané a distribuované archivy i projektem se také vyvíjely od rozsáhlých souborů ve formátu sekvenčních čtení (SRF) ke kompaktnějším formátům Binary Alignment/Map (BAM)7 a FASTQ (tabulka 1). Tento posun formátu byl umožněn lepším pochopením potřeb projektové analytické skupiny, což vedlo k rozhodnutí přestat archivovat surová měření intenzity z dat čtení a zaměřit se výhradně na volání bází a skóre kvality.
Jako „projekt komunitních zdrojů „8 projekt 1000 genomů veřejně zveřejňuje data před publikací, jak je popsáno níže, a to co nejrychleji. Projekt má zrcadlové stránky pro stahování v EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) a NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/), které poskytují přístup k projektu a komunitě současně a efektivně zvyšují celkovou kapacitu stahování. Hlavní kopie je aktualizována přímo DCC v EBI a kopie NCBI je obvykle zrcadlena do 24 hodin prostřednictvím nočního automatického procesu Aspera. Obecně platí, že uživatelé v Americe budou mít nejrychlejší přístup k údajům ze zrcadla NCBI, zatímco uživatelé v Evropě a jinde ve světě budou stahovat rychleji z hlavní kopie EBI.
Zpracované sekvenční údaje se ve formě souborů FASTQ objeví na stránkách 1000 Genomes FTP do 48-72 h po jejich zpracování v EBI SRA. Toto zpracování vyžaduje, aby data původně zaslaná do NCBI SRA byla nejprve zrcadlena v EBI. Data projektu jsou spravována prostřednictvím pravidelných zmrazení dat spojených s datovaným souborem sequence.index (doplňková poznámka). Tyto soubory byly v pilotní fázi vytvářeny přibližně každé dva měsíce a pro celý projekt se frekvence uvolňování liší v závislosti na výstupech produkčních center a požadavcích analytické skupiny.
Srovnání založená na konkrétním souboru sequence.index jsou vytvářena v rámci projektu a distribuována prostřednictvím stránek FTP ve formátu BAM a výsledky analýzy jsou distribuovány ve formátu VCF (variant call format)9 . Pro soubory BAM i VCF jsou rovněž k dispozici indexové soubory vytvořené softwarem Tabix10.
Všechna data na stránkách FTP prošla rozsáhlým procesem kontroly kvality. U sekvenčních dat to zahrnuje kontrolu syntaxe a kvality surových sekvenčních dat a potvrzení identity vzorku. U dat o zarovnání zahrnuje kontrola kvality kontrolu integrity souborů a konzistence metadat (doplňková poznámka).
Přístup k datům
K dispozici je celý soubor dat projektu 1000 genomů a nejlogičtějším přístupem k jeho získání je zrcadlení obsahu stránky FTP, který má k březnu 2012 více než 260 terabytů. Podle našich zkušeností se většina uživatelů zajímá spíše o výsledky analýz a cílená nezpracovaná data nebo řezy zarovnání z určitých oblastí genomu než o celý soubor dat. Soubory analýzy jsou skutečně distribuovány prostřednictvím stránek FTP v adresářích pojmenovaných podle data zamrznutí sekvence.indexu, na kterém jsou založeny (doplňková poznámka). Vzhledem ke stovkám tisíc dostupných souborů však může být vyhledávání a přístup ke konkrétním datům projektu procházením adresářové struktury FTP velmi obtížné.
V kořeni webu FTP je k dispozici soubor nazvaný current.tree, který pomáhá při vyhledávání na webu. Tento soubor byl navržen tak, aby umožnil zrcadlení webu FTP, a obsahuje úplný seznam všech souborů a adresářů včetně času poslední aktualizace a informací o integritě souborů. Vyvinuli jsme webové rozhraní (http://www.1000genomes.org/ftpsearch/), které umožňuje přímý přístup k souboru current.tree pomocí libovolného identifikátoru (identifikátorů) vzorku zadaného uživatelem nebo jiných informací nalezených v názvech našich datových souborů, které se řídí přísnou konvencí usnadňující vyhledávání. Vyhledávání vrací úplné cesty k souborům buď na stránkách EBI, nebo NCBI FTP a podporuje filtry pro vyloučení typů souborů, které by mohly poskytnout velké množství výsledků, jako jsou soubory FASTQ nebo BAM (Doplňková poznámka).
Pro uživatele, kteří chtějí objevené varianty nebo zarovnání z konkrétních genomických oblastí, aniž by museli stahovat kompletní soubory, mohou získat dílčí části souborů BAM a VCF buď přímo pomocí aplikace Tabix, nebo prostřednictvím webového nástroje pro krájení dat (Doplňková poznámka). Soubory VCF lze také rozdělit podle názvu vzorku nebo populace pomocí nástroje pro krájení dat.
Pomocí specializovaného prohlížeče 1000 Genomes založeného na infrastruktuře Ensembl11 (http://browser.1000genomes.org/) lze zobrazit data 1000 Genomes v kontextu rozsáhlé anotace genomu, jako jsou geny kódující proteiny a informace o regulaci celého genomu. Prohlížeč zobrazuje varianty projektu předtím, než jsou zpracovány pomocí dbSNP nebo se objeví ve zdrojích genomu, jako je Ensembl nebo prohlížeč genomu Kalifornské univerzity v Santa Cruz (UCSC). Prohlížeč 1000 genomů také poskytuje nástroje Ensembl pro předpovídání variant, včetně nástroje Variant Effect Predictor (VEP)12 , jakož i předpovědi „třídění tolerantních od netolerantních“ (SIFT)13 a PolyPhen14 pro všechny nesynonymní varianty (doplňková poznámka). Prohlížeč podporuje prohlížení indexovaných souborů BAM a VCF projektu 1000 Genomes i jiných webově přístupných souborů v genomickém kontextu (obr. 2). Stabilní archivní verze prohlížeče 1000 Genomes založená na verzi kódu Ensembl 60 a obsahující data pilotního projektu je k dispozici na adrese http://pilotbrowser.1000genomes.org/.
Podkladové databáze MySQL, které podporují prohlížeč projektů, jsou také veřejně dostupné a lze se na ně přímo dotazovat nebo k nim přistupovat programově pomocí příslušné verze aplikačního programového rozhraní (API) Ensembl (doplňková poznámka).
Uživatelé mohou také zkoumat a stahovat data projektů pomocí prohlížeče dat NCBI na adrese http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Prohlížeč zobrazuje jak sekvenční čtení, tak jednotlivé genotypy pro libovolnou oblast genomu. Sekvence pro vybrané jedince pokrývající zobrazenou oblast lze stáhnout ve formátu BAM, SAM, FASTQ nebo FASTA. Stejně tak lze genotypy stáhnout ve formátu VCF (doplňková poznámka).
Projekt odesílá všechny vyvolané varianty do příslušných úložišť s použitím handle „1000GENOMES“. Jednonukleotidové polymorfismy a malé indely pilotního projektu byly předány do dbSNP15 a údaje o strukturních variantách byly předány do archivu Database of Genomic Variants (DGVa)16 . Podobně budou předkládány i varianty celého projektu.
Pro uživatele webových služeb Amazon jsou všechny aktuálně dostupné soubory BAM a VCF projektu k dispozici jako veřejný soubor dat prostřednictvím http://1000genomes.s3.amazonaws.com/ (doplňková poznámka).
Diskuse
Metody předkládání dat a přístupu k nim vyvinuté na podporu projektu 1000 genomů nabízejí výhody všem rozsáhlým sekvenačním projektům i širší komunitě. Zjednodušený proces archivace využívá výhod dvou synchronizovaných kopií SRA, které rozdělují úkol zpracování předkládání dat náročný na zdroje. Kromě toho blízkost DCC k SRA zajišťuje, že všechna data projektu 1000 genomů jsou komunitě zpřístupněna co nejrychleji, a umožnila archivům těžit ze zkušeností získaných DCC.
Projekty generování a analýzy dat velkého rozsahu mohou těžit z organizované a centralizované činnosti správy dat2,3,4 . Cílem těchto činností je poskytnout projektu nezbytnou podporu a infrastrukturu a zároveň zajistit, aby byla data zpřístupněna co nejrychleji a v co nejširším rozsahu. Při podpoře analýzy v rámci projektu 1000 genomů zahrnuje zavedený rozsáhlý tok dat řadu testů, které zajišťují integritu a kvalitu dat (obr. 1). V rámci tohoto procesu jsou data zpřístupňována členům konsorcia a veřejnosti současně v určitých bodech toku dat, včetně sběru sekvenčních dat a dokončení zarovnání.
Kromě přímé podpory potřeb projektu zajišťuje centralizovaná správa dat vytvoření zdrojů určených uživatelům mimo analytickou skupinu konsorcia. Patří mezi ně prohlížeč 1000 genomů (http://browser.1000genomes.org/), zasílání předběžných i konečných souborů variantních dat do dbSNP a do dbVar/DGVa, poskytování zarovnání a variantních souborů v cloudu Amazon Web Services a centralizované služby pro anotaci variant.
Zkušenosti se správou dat použité pro tento projekt částečně odrážejí obtížnost adaptace stávajících bioinformatických systémů na nové technologie a částečně výzvu v podobě objemů dat mnohem větších, než s jakými jsme se dříve setkávali. Rychlý vývoj metod analýzy a zpracování svědčí o snaze komunity poskytnout účinné nástroje pro pochopení dat.