Tehnologiile de secvențiere de mare capacitate, inclusiv cele de la Illumina, Roche Diagnostics (454) și Life Technologies (SOLiD), permit secvențierea genomului întreg la o scară fără precedent și la costuri dramatic reduse față de tehnologia capilară pe gel utilizată în proiectul genomului uman. Aceste tehnologii au stat la baza deciziei din 2007 de a lansa proiectul 1000 de genomuri, un efort de caracterizare cuprinzătoare a variației umane în mai multe populații. În faza pilot a proiectului, datele au contribuit la crearea unei viziuni extinse la scară populațională a variației genetice umane1.
Volumele mai mari de date și lungimile de citire mai scurte ale tehnologiilor de secvențiere de mare capacitate au creat noi cerințe substanțiale pentru bioinformatică, analiză și metode de distribuire a datelor. Planul inițial pentru Proiectul 1000 Genomes a fost de a colecta o acoperire de 2× a întregului genom pentru 1 000 de indivizi, reprezentând ∼6 giga-perechi de bază de secvență per individ și ∼6 tera-perechi de bază (Tbp) de secvență în total. Creșterea capacității de secvențiere a dus la revizuiri repetate ale acestor planuri până la scara actuală a proiectului, care constă în colectarea unei secvențe cu acoperire redusă, ∼4× a întregului genom și ∼20× a întregului exom pentru ∼2 500 de indivizi, plus o secvență cu acoperire ridicată, ∼40× a întregului genom pentru 500 de indivizi în total (o creștere de ∼25 de ori a generării de secvențe față de estimările inițiale). De fapt, proiectul pilot 1000 Genomes a colectat 5 Tbp de date de secvență, ceea ce a dus la punerea la dispoziția comunității a 38 000 de fișiere și a peste 12 terabytes de date1. În martie 2012, resursele încă în creștere ale proiectului includeau peste 260 de terabytes de date în peste 250 000 de fișiere accesibile publicului.
Ca și în cazul eforturilor anterioare2,3,4, membrii Proiectului 1000 Genomes au recunoscut că coordonarea datelor va fi esențială pentru a avansa în mod productiv și pentru a se asigura că datele sunt disponibile pentru comunitate într-un interval de timp rezonabil. Prin urmare, Centrul de Coordonare a Datelor (DCC) a fost înființat în comun de către Institutul European de Bioinformatică (EBI) și Centrul Național de Biotehnologie (NCBI) pentru a gestiona fluxul de date specifice proiectului, pentru a asigura depunerea datelor de secvență arhivate și pentru a gestiona accesul comunității prin intermediul site-ului FTP și al browserului de genom.
Descris aici metodele utilizate de membrii Proiectului 1000 Genomes pentru a furniza resurse de date comunității, de la datele de secvență brute la rezultatele proiectului care pot fi răsfoite. Oferim exemple extrase din metodele de procesare a datelor din cadrul proiectului pentru a demonstra componentele cheie ale fluxurilor de lucru complexe.
Fluxul de date
Gestionarea fluxului de date în cadrul Proiectului 1000 Genomes, astfel încât datele să fie disponibile în cadrul proiectului și pentru comunitatea mai largă, reprezintă provocarea bioinformatică fundamentală pentru DCC (Fig. 1 și Tabelul suplimentar 1). Cu nouă centre de secvențiere diferite și peste două duzini de grupuri de analiză majore1, cele mai importante provocări inițiale sunt (i) colectarea centralizată a tuturor datelor de secvențiere pentru controlul calității și standardizarea necesare; (ii) schimbul de date între instituțiile participante; (iii) asigurarea unei disponibilități rapide atât a datelor de secvențiere, cât și a rezultatelor intermediare ale analizelor pentru grupurile de analiză; (iv) menținerea unui acces ușor la fișierele de secvențe, de aliniere și de variante și la metadatele asociate acestora; și (v) punerea la dispoziția comunității a acestor resurse.
În ultimii ani, vitezele de transfer de date care utilizează protocoale bazate pe TCP/IP, cum ar fi FTP, nu au evoluat odată cu creșterea capacității de producție a secvențelor. Ca răspuns, unele grupuri au recurs la trimiterea de hard disk-uri fizice cu date de secvență5, deși manipularea datelor în acest mod necesită foarte multă muncă. În același timp, cerințele de transfer de date pentru datele de secvență rămân cu mult sub cele întâlnite în fizică și astronomie, astfel încât nu s-a justificat construirea unei infrastructuri de rețea dedicate. În schimb, membrii proiectului au ales să se bazeze pe o soluție de transfer prin internet de la compania Aspera, o metodă bazată pe UDP care atinge rate de transfer de date de 20-30 de ori mai rapide decât FTP în cazul unei utilizări obișnuite. Utilizând Aspera, capacitatea combinată de transmitere a EBI și NCBI se apropie în prezent de 30 de terabytes pe zi, ambele site-uri fiind pregătite să crească pe măsură ce crește capacitatea globală de secvențiere.
Proiectul 1000 Genomes a fost responsabil pentru primele transmisiuni multi-terase către cele două arhive de citire a secvențelor (SRA): SRA de la EBI, furnizată ca un serviciu al Arhivei Europene de Nucleotide (ENA), și SRA6 de la NCBI. Pe parcursul proiectului, principalele centre de secvențiere au dezvoltat metode automatizate de transmitere a datelor fie la EBI, fie la NCBI, în timp ce ambele baze de date SRA au dezvoltat metode generalizate de căutare și accesare a datelor arhivate. Formatele de date acceptate și distribuite atât de arhive, cât și de proiect au evoluat, de asemenea, de la fișierele expansive de tip sequence read format (SRF) la formatele mai compacte Binary Alignment/Map (BAM)7 și FASTQ (tabelul 1). Această schimbare de format a fost posibilă datorită unei mai bune înțelegeri a nevoilor grupului de analiză a proiectului, ceea ce a condus la decizia de a nu mai arhiva măsurătorile brute de intensitate din datele de citire pentru a se concentra exclusiv pe apelurile de baze și scorurile de calitate.
În calitate de „proiect de resurse comunitare „8, Proiectul 1000 Genomes face publice datele de prepublicare, astfel cum sunt descrise mai jos, în cel mai scurt timp posibil. Proiectul dispune de site-uri de descărcare în oglindă la EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) și NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) care oferă acces simultan la proiect și la comunitate și măresc în mod eficient capacitatea generală de descărcare. Copia principală este actualizată direct de către DCC la EBI, iar copia NCBI este, de obicei, oglindită în termen de 24 de ore prin intermediul unui proces Aspera automat de noapte. În general, utilizatorii din cele două Americi vor avea acces cel mai rapid la date din oglinda NCBI, în timp ce utilizatorii din Europa și din alte părți ale lumii vor descărca mai repede din copia principală a EBI.
Datele secvenței brute, sub formă de fișiere FASTQ, apar pe site-ul FTP 1000 Genomes în termen de 48-72 h după ce SRA al EBI le-a procesat. Această procesare necesită ca datele trimise inițial la NCBI SRA să fie mai întâi oglindite la EBI. Datele proiectului sunt gestionate prin înghețarea periodică a datelor asociate cu un fișier sequence.index datat (Notă suplimentară). Aceste fișiere au fost produse aproximativ o dată la două luni în timpul fazei pilot, iar pentru proiectul complet, frecvența de eliberare variază în funcție de rezultatele obținute de centrele de producție și de cerințele grupului de analiză.
Alinierile bazate pe un anumit fișier sequence.index sunt produse în cadrul proiectului și distribuite prin intermediul site-ului FTP în format BAM, iar rezultatele analizei sunt distribuite în format variant call format (VCF)9 . Fișierele de indexare create de software-ul Tabix10 sunt, de asemenea, furnizate atât pentru fișierele BAM, cât și pentru fișierele VCF.
Toate datele de pe site-ul FTP au fost supuse unui proces extins de control al calității. Pentru datele de secvență, acesta include verificarea sintaxei și a calității datelor de secvență brute și confirmarea identității eșantionului. Pentru datele de aliniere, controlul calității include verificarea integrității fișierelor și a consistenței metadatelor (Notă suplimentară).
Accesul la date
Întregul set de date al Proiectului 1000 Genomes este disponibil, iar cea mai logică abordare pentru a-l obține este de a oglindi conținutul site-ului FTP, care este, din martie 2012, de peste 260 terabytes. Experiența noastră este că majoritatea utilizatorilor sunt mai degrabă interesați de rezultatele analizelor și de datele brute vizate sau de felii de aliniere din anumite regiuni ale genomului decât de întregul set de date. Într-adevăr, fișierele de analiză sunt distribuite prin intermediul site-ului FTP în directoare denumite după data de înghețare a secvenței.index freeze pe care se bazează (Notă suplimentară). Cu toate acestea, cu sute de mii de fișiere disponibile, localizarea și accesarea datelor specifice proiectului prin parcurgerea structurii directoarelor FTP poate fi extrem de dificilă.
Un fișier numit current.tree este furnizat la rădăcina site-ului FTP pentru a ajuta la căutarea pe site. Acest fișier a fost conceput pentru a permite oglindirea site-ului FTP și conține o listă completă a tuturor fișierelor și directoarelor, inclusiv ora ultimei actualizări și informații privind integritatea fișierelor. Am dezvoltat o interfață web (http://www.1000genomes.org/ftpsearch/) pentru a oferi acces direct la fișierul current.tree folosind orice identificator (identificatori) de eșantion specificat(i) de utilizator sau alte informații găsite în numele fișierelor noastre de date, care urmează o convenție strictă pentru a facilita căutarea. Căutarea returnează traseele complete ale fișierelor fie către site-ul FTP al EBI, fie către site-ul FTP al NCBI și acceptă filtre pentru a exclude tipurile de fișiere susceptibile de a produce un număr mare de rezultate, cum ar fi fișierele FASTQ sau BAM (Notă suplimentară).
Pentru utilizatorii care doresc variante descoperite sau alinieri din regiuni genomice specifice fără a descărca fișierele complete, aceștia pot obține subsecțiuni ale fișierelor BAM și VCF fie direct cu Tabix, fie prin intermediul unui instrument de feliere a datelor bazat pe web (Notă suplimentară). Fișierele VCF pot fi, de asemenea, împărțite în funcție de numele eșantionului sau de populație cu ajutorul dispozitivului de feliere a datelor.
Se pot vizualiza datele 1000 Genomes în contextul unei adnotări extinse a genomului, cum ar fi genele care codifică proteine și informații de reglementare a întregului genom, prin intermediul browserului dedicat 1000 Genomes bazat pe infrastructura Ensembl11 (http://browser.1000genomes.org/). Browserul afișează variantele proiectului înainte ca acestea să fie procesate de dbSNP sau să apară în resursele genomului, cum ar fi Ensembl sau browserul genomului de la Universitatea California Santa Cruz (UCSC). Browserul 1000 Genomes oferă, de asemenea, instrumente de variație Ensembl, inclusiv Variant Effect Predictor (VEP)12 , precum și predicțiile „sorting tolerant from intolerant” (SIFT)13 și PolyPhen14 pentru toate variantele nesinonime (Notă suplimentară). Browserul acceptă vizualizarea atât a 1000 Genomes Project, cât și a altor fișiere BAM și VCF indexate accesibile pe internet în context genomic (Fig. 2). O versiune de arhivă stabilă a browserului 1000 Genomes bazată pe versiunea 60 a codului Ensembl și care conține datele proiectului pilot este disponibilă la adresa http://pilotbrowser.1000genomes.org/.
Bazele de date MySQL care stau la baza browserului de proiecte sunt, de asemenea, disponibile public și acestea pot fi interogate direct sau pot fi accesate prin programare utilizând versiunea corespunzătoare a interfeței de programare a aplicațiilor (API) Ensembl (Notă suplimentară).
Utilizatorii pot, de asemenea, să exploreze și să descarce datele proiectului utilizând browserul de date NCBI la http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. Browserul afișează atât secvențele citite, cât și genotipurile individuale pentru orice regiune a genomului. Secvența pentru indivizii selectați care acoperă regiunea afișată poate fi descărcată în format BAM, SAM, FASTQ sau FASTA. Genotipurile pot fi, de asemenea, descărcate în format VCF (Notă suplimentară).
Proiectul trimite toate variantele numite la depozitele corespunzătoare folosind handle-ul „1000GENOMES”. Polimorfismele cu un singur nucleotid și indelii mici din cadrul proiectului pilot au fost transmise la dbSNP15, iar datele privind variațiile structurale au fost transmise la arhiva Database of Genomic Variants (DGVa)16. Variantele proiectului complet vor fi transmise în mod similar.
Pentru utilizatorii Amazon Web Services, toate fișierele BAM și VCF ale proiectului disponibile în prezent sunt disponibile ca set de date publice prin intermediul http://1000genomes.s3.amazonaws.com/ (Notă suplimentară).
Discuție
Metodele de transmitere și acces la date dezvoltate pentru a sprijini Proiectul 1000 Genomes oferă beneficii tuturor proiectelor de secvențiere la scară largă și comunității mai largi. Procesul de arhivare raționalizat profită de cele două copii sincronizate ale SRA, care distribuie sarcina de procesare a depunerii, care necesită multe resurse. În plus, apropierea strânsă a DCC de SRA asigură faptul că toate datele 1000 Genomes sunt puse la dispoziția comunității cât mai repede posibil și a permis arhivelor să beneficieze de lecțiile învățate de DCC.
Proiectele de generare și analiză a datelor la scară largă pot beneficia de o activitate organizată și centralizată de gestionare a datelor2,3,4. Obiectivele unor astfel de activități sunt de a oferi sprijinul și infrastructura necesare proiectului, asigurându-se în același timp că datele sunt puse la dispoziție cât mai rapid și mai larg posibil. În sprijinul analizei Proiectului 1000 Genome, fluxul extins de date stabilit include mai multe teste pentru a asigura integritatea și calitatea datelor (Fig. 1). Ca parte a acestui proces, datele sunt puse la dispoziția membrilor consorțiului și a publicului simultan în anumite puncte specifice ale fluxului de date, inclusiv la colectarea datelor de secvență și la finalizarea alinierilor.
Pe lângă sprijinirea directă a nevoilor proiectului, gestionarea centralizată a datelor asigură crearea de resurse destinate utilizatorilor din afara grupului de analiză al consorțiului. Printre acestea se numără 1000 Genomes Browser (http://browser.1000genomes.org/), transmiterea seturilor de date de variante preliminare și finale către dbSNP și către dbVar/DGVa, furnizarea de fișiere de aliniere și de variante în cloud-ul Amazon Web Services și servicii centralizate de adnotare a variațiilor.
Experiențele de gestionare a datelor utilizate pentru acest proiect reflectă, în parte, dificultatea de a adopta sistemele bioinformatice existente la noile tehnologii și, în parte, provocarea reprezentată de volumele de date mult mai mari decât cele întâlnite anterior. Evoluția rapidă a metodelor de analiză și procesare este un indiciu al efortului comunității de a oferi instrumente eficiente pentru înțelegerea datelor.
.