Die Hochdurchsatz-Sequenzierungstechnologien, u. a. von Illumina, Roche Diagnostics (454) und Life Technologies (SOLiD), ermöglichen die Sequenzierung ganzer Genome in einem noch nie dagewesenen Umfang und zu drastisch geringeren Kosten als die im Humangenomprojekt verwendete Gel-Kapillar-Technologie. Diese Technologien standen im Mittelpunkt der 2007 getroffenen Entscheidung, das 1000-Genome-Projekt ins Leben zu rufen, mit dem die menschliche Variation in mehreren Populationen umfassend charakterisiert werden soll. In der Pilotphase des Projekts trugen die Daten dazu bei, ein umfassendes Bild der menschlichen genetischen Variation auf Bevölkerungsebene zu erstellen1.
Die größeren Datenmengen und kürzeren Leselängen der Hochdurchsatz-Sequenzierungstechnologien stellten erhebliche neue Anforderungen an die Bioinformatik, die Analyse und die Datenverteilungsmethoden. Der ursprüngliche Plan für das 1000-Genome-Projekt sah vor, eine zweifache Abdeckung des gesamten Genoms für 1.000 Individuen zu sammeln, was ∼6 Giga-Basenpaaren an Sequenz pro Individuum und ∼6 Tera-Basenpaaren (Tbp) an Sequenz insgesamt entspricht. Steigende Sequenzierkapazitäten führten zu wiederholten Überarbeitungen dieser Pläne bis hin zum aktuellen Projektumfang der Sammlung von ∼4× Ganzgenom- und ∼20× Ganz-Exom-Sequenzen mit geringer Abdeckung für ∼2.500 Individuen plus ∼40× Ganzgenom-Sequenzen mit hoher Abdeckung für insgesamt 500 Individuen (∼25-fache Steigerung der Sequenzerzeugung gegenüber den ursprünglichen Schätzungen). Tatsächlich wurden im Rahmen des 1000-Genome-Pilotprojekts 5 TBp an Sequenzdaten gesammelt, was dazu führte, dass der Gemeinschaft 38.000 Dateien und über 12 Terabyte an Daten zur Verfügung standen1. Im März 2012 umfassten die immer noch wachsenden Projektressourcen mehr als 260 Terabyte Daten in mehr als 250.000 öffentlich zugänglichen Dateien.
Wie bei früheren Projekten2,3,4 erkannten die Mitglieder des 1000 Genomes Project, dass die Datenkoordinierung entscheidend sein würde, um produktiv voranzukommen und sicherzustellen, dass die Daten der Gemeinschaft in einem angemessenen Zeitrahmen zur Verfügung stehen. Daher wurde das Data Coordination Center (DCC) gemeinsam vom European Bioinformatics Institute (EBI) und dem National Center for Biotechnology (NCBI) eingerichtet, um den projektspezifischen Datenfluss zu verwalten, die Archivierung der Sequenzdaten zu gewährleisten und den Zugang der Gemeinschaft über die FTP-Site und den Genom-Browser zu verwalten.
Im Folgenden werden die Methoden beschrieben, die von den Mitgliedern des 1000 Genomes Project angewandt wurden, um der Gemeinschaft Datenressourcen zur Verfügung zu stellen, von Rohsequenzdaten bis hin zu Projektergebnissen, die durchsucht werden können. Anhand von Beispielen aus den Datenverarbeitungsmethoden des Projekts werden die Schlüsselkomponenten komplexer Arbeitsabläufe veranschaulicht.
Datenfluss
Die grundlegende bioinformatische Herausforderung für das DCC besteht darin, den Datenfluss im 1000 Genomes Project so zu steuern, dass die Daten sowohl innerhalb des Projekts als auch für die breitere Gemeinschaft verfügbar sind (Abb. 1 und ergänzende Tabelle 1). Mit neun verschiedenen Sequenzierzentren und mehr als zwei Dutzend großen Analysegruppen1 bestehen die wichtigsten anfänglichen Herausforderungen darin, (i) alle Sequenzierdaten zentral für die notwendige Qualitätskontrolle und Standardisierung zusammenzustellen; (ii) die Daten zwischen den teilnehmenden Institutionen auszutauschen; (iii) eine schnelle Verfügbarkeit sowohl der Sequenzierdaten als auch der Zwischenanalyseergebnisse für die Analysegruppen zu gewährleisten; (iv) einen einfachen Zugang zu Sequenz-, Alignment- und Variantendateien und den dazugehörigen Metadaten zu gewährleisten; und (v) diese Ressourcen der Gemeinschaft zur Verfügung zu stellen.
In den letzten Jahren sind die Datenübertragungsgeschwindigkeiten mit Hilfe von TCP/IP-basierten Protokollen wie FTP nicht mit der gestiegenen Sequenzproduktionskapazität Schritt gehalten. Daher sind einige Gruppen dazu übergegangen, physische Festplatten mit Sequenzdaten zu versenden5, obwohl diese Art der Datenverarbeitung sehr arbeitsintensiv ist. Gleichzeitig liegen die Anforderungen an die Datenübertragung für Sequenzdaten weit unter denen in der Physik und Astronomie, so dass der Aufbau einer eigenen Netzwerkinfrastruktur nicht gerechtfertigt war. Stattdessen entschieden sich die Projektmitglieder für eine Internet-Übertragungslösung der Firma Aspera, eine UDP-basierte Methode, die bei typischer Nutzung 20-30 Mal schnellere Datenübertragungsraten als FTP erreicht. Mit Aspera nähert sich die kombinierte Übertragungskapazität des EBI und des NCBI derzeit 30 Terabyte pro Tag, und beide Standorte sind in der Lage, mit der Zunahme der weltweiten Sequenzierungskapazität zu wachsen.
Das 1000 Genomes Project war für die ersten Übertragungen von mehreren Datenbanken an die beiden Sequence-Read-Archive (SRAs) verantwortlich: das SRA am EBI, das als Dienst des European Nucleotide Archive (ENA) bereitgestellt wird, und das SRA des NCBI6. Im Laufe des Projekts entwickelten die großen Sequenzierzentren automatisierte Methoden zur Datenübermittlung an das EBI oder das NCBI, während beide SRA-Datenbanken allgemeine Methoden zur Suche und zum Zugriff auf die archivierten Daten entwickelten. Die Datenformate, die sowohl von den Archiven als auch vom Projekt akzeptiert und verteilt werden, haben sich ebenfalls von den umfangreichen Sequenzleseformatdateien (SRF) zu den kompakteren Formaten Binary Alignment/Map (BAM)7 und FASTQ entwickelt (Tabelle 1). Dieser Formatwechsel wurde durch ein besseres Verständnis der Bedürfnisse der Projektanalysegruppe ermöglicht, was zu der Entscheidung führte, die Archivierung von Rohintensitätsmessungen von Lesedaten einzustellen und sich ausschließlich auf Base Calls und Qualitätsbewertungen zu konzentrieren.
Als „Community Resource Project „8 veröffentlicht das 1000 Genomes Project so schnell wie möglich Daten zur Vorveröffentlichung wie unten beschrieben. Das Projekt verfügt über gespiegelte Download-Sites beim EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) und NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/), die den gleichzeitigen Zugriff auf das Projekt und die Gemeinschaft ermöglichen und die Gesamtkapazität der Downloads effizient erhöhen. Die Masterkopie wird direkt vom DCC am EBI aktualisiert, und die NCBI-Kopie wird in der Regel innerhalb von 24 Stunden über einen nächtlichen automatischen Aspera-Prozess gespiegelt. Im Allgemeinen können Nutzer in Amerika am schnellsten über den NCBI-Spiegel auf die Daten zugreifen, während Nutzer in Europa und anderen Teilen der Welt die Daten schneller vom EBI-Master herunterladen können.
Die Rohsequenzdaten erscheinen als FASTQ-Dateien innerhalb von 48-72 Stunden nach ihrer Verarbeitung durch die EBI SRA auf der 1000 Genomes FTP-Site. Diese Verarbeitung setzt voraus, dass die ursprünglich an das NCBI SRA übermittelten Daten zunächst an das EBI gespiegelt werden müssen. Die Projektdaten werden durch periodische Data Freezes verwaltet, die mit einer datierten sequence.index-Datei verbunden sind (Supplementary Note). Diese Dateien wurden während der Pilotphase etwa alle zwei Monate erstellt, und für das gesamte Projekt variiert die Häufigkeit der Freigabe in Abhängigkeit von der Leistung der Produktionszentren und den Anforderungen der Analysegruppe.
Ausrichtungen, die auf einer bestimmten sequence.index-Datei basieren, werden innerhalb des Projekts erstellt und über die FTP-Site im BAM-Format verteilt, und die Analyseergebnisse werden im VCF-Format9 verteilt. Indexdateien, die mit der Tabix-Software10 erstellt wurden, werden ebenfalls sowohl für BAM- als auch für VCF-Dateien bereitgestellt.
Alle Daten auf der FTP-Site haben einen umfassenden Qualitätskontrollprozess durchlaufen. Bei Sequenzdaten umfasst dies die Überprüfung der Syntax und der Qualität der Rohsequenzdaten sowie die Bestätigung der Probenidentität. Bei den Alignment-Daten umfasst die Qualitätskontrolle die Überprüfung der Dateiintegrität und der Konsistenz der Metadaten (ergänzende Anmerkung).
Datenzugriff
Der gesamte Datensatz des 1000 Genomes Project ist verfügbar, und der logischste Ansatz, um ihn zu erhalten, ist die Spiegelung des Inhalts der FTP-Site, die im März 2012 mehr als 260 Terabyte umfasste. Wir haben die Erfahrung gemacht, dass die meisten Nutzer eher an Analyseergebnissen und gezielten Rohdaten oder Alignment-Slices aus bestimmten Regionen des Genoms interessiert sind als an dem gesamten Datensatz. In der Tat werden die Analysedateien über die FTP-Site in Verzeichnissen verteilt, die nach dem Sequenzindex-Freeze-Datum benannt sind, auf dem sie basieren (ergänzende Anmerkung). Bei Hunderttausenden von verfügbaren Dateien kann es jedoch äußerst schwierig sein, bestimmte Projektdaten zu finden und auf sie zuzugreifen, indem man die FTP-Verzeichnisstruktur durchsucht.
Eine Datei namens current.tree wird im Stammverzeichnis der FTP-Site bereitgestellt, um die Suche auf der Site zu erleichtern. Diese Datei wurde entwickelt, um eine Spiegelung der FTP-Site zu ermöglichen, und enthält eine vollständige Liste aller Dateien und Verzeichnisse, einschließlich des Zeitpunkts der letzten Aktualisierung und Informationen zur Dateiintegrität. Wir haben eine Webschnittstelle (http://www.1000genomes.org/ftpsearch/) entwickelt, die einen direkten Zugriff auf die Datei current.tree ermöglicht, indem sie die vom Benutzer angegebene(n) Probenbezeichnung(en) oder andere Informationen aus den Dateinamen verwendet, die einer strengen Konvention folgen, um die Suche zu erleichtern. Die Suche gibt die vollständigen Dateipfade entweder zum EBI oder zur NCBI FTP-Site zurück und unterstützt Filter, um Dateitypen auszuschließen, die wahrscheinlich eine große Anzahl von Ergebnissen liefern, wie z. B. FASTQ- oder BAM-Dateien (Ergänzende Anmerkung).
Für Benutzer, die entdeckte Varianten oder Alignments aus bestimmten genomischen Regionen wünschen, ohne die vollständigen Dateien herunterzuladen, können sie Teilbereiche von BAM- und VCF-Dateien entweder direkt mit Tabix oder über ein webbasiertes Daten-Slicing-Tool erhalten (Ergänzende Anmerkung). VCF-Dateien können mit dem Data Slicer auch nach Probennamen oder Populationen unterteilt werden.
Mit dem speziellen 1000 Genomes-Browser, der auf der Ensembl-Infrastruktur11 (http://browser.1000genomes.org/) basiert, können 1000 Genomes-Daten im Kontext umfangreicher Genom-Annotation, wie z. B. proteinkodierende Gene und regulatorische Informationen über das gesamte Genom, betrachtet werden. Der Browser zeigt Projektvarianten an, bevor sie von dbSNP verarbeitet werden oder in Genomressourcen wie Ensembl oder dem Genombrowser der University of California Santa Cruz (UCSC) erscheinen. Der 1000 Genomes-Browser bietet auch Ensembl-Varianten-Tools, darunter den Variant Effect Predictor (VEP)12 sowie Vorhersagen für die Sortierung von toleranten und intoleranten Varianten (SIFT)13 und PolyPhen14 für alle nicht-synonymen Varianten (ergänzende Anmerkung). Der Browser unterstützt die Anzeige sowohl von 1000 Genomes Project als auch von anderen über das Internet zugänglichen indizierten BAM- und VCF-Dateien im genomischen Kontext (Abb. 2). Eine stabile Archivversion des 1000-Genomes-Browsers, die auf dem Ensembl-Code Release 60 basiert und die Daten des Pilotprojekts enthält, ist verfügbar unter http://pilotbrowser.1000genomes.org/.
Die zugrunde liegenden MySQL-Datenbanken, die den Projektbrowser unterstützen, sind ebenfalls öffentlich zugänglich und können direkt abgefragt werden oder es kann programmatisch auf sie zugegriffen werden, indem die entsprechende Version der Ensembl Application Programming Interface (API) verwendet wird (Supplementary Note).
Nutzer können Projektdaten auch mit dem NCBI-Datenbrowser unter http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/ untersuchen und herunterladen. Der Browser zeigt sowohl Sequenzlesungen als auch individuelle Genotypen für jede beliebige Region des Genoms an. Die Sequenz für ausgewählte Individuen, die die angezeigte Region abdecken, kann im BAM-, SAM-, FASTQ- oder FASTA-Format heruntergeladen werden. Genotypen können ebenfalls im VCF-Format heruntergeladen werden (Supplementary Note).
Das Projekt reicht alle aufgerufenen Varianten unter dem Handle „1000GENOMES“ bei den entsprechenden Repositories ein. Im Rahmen des Pilotprojekts wurden Einzelnukleotid-Polymorphismen und kleine Indels an dbSNP15 übermittelt, und strukturelle Variationsdaten wurden an das Database of Genomic Variants-Archiv (DGVa)16 übermittelt. Vollständige Projektvarianten werden in ähnlicher Weise eingereicht.
Für Nutzer von Amazon Web Services sind alle derzeit verfügbaren Projekt-BAM- und VCF-Dateien als öffentlicher Datensatz über http://1000genomes.s3.amazonaws.com/ verfügbar (ergänzende Anmerkung).
Diskussion
Die zur Unterstützung des 1000 Genomes Project entwickelten Methoden der Dateneinreichung und des Datenzugangs bieten Vorteile für alle großen Sequenzierungsprojekte und die breitere Gemeinschaft. Der gestraffte Archivierungsprozess nutzt die Vorteile der beiden synchronisierten Kopien des SRA, die die ressourcenintensive Aufgabe der Einreichungsverarbeitung aufteilen. Darüber hinaus gewährleistet die Nähe des DCC zum SRA, dass alle 1000-Genome-Daten der Gemeinschaft so schnell wie möglich zur Verfügung gestellt werden, und ermöglicht es den Archiven, von den Erfahrungen des DCC zu profitieren.
Groß angelegte Datenerzeugungs- und -analyseprojekte können von einer organisierten und zentralisierten Datenverwaltung profitieren2,3,4. Ziel solcher Aktivitäten ist es, die notwendige Unterstützung und Infrastruktur für das Projekt bereitzustellen und gleichzeitig zu gewährleisten, dass die Daten so schnell und umfassend wie möglich verfügbar gemacht werden. Zur Unterstützung der Analyse des 1000 Genome Project umfasst der etablierte umfangreiche Datenfluss mehrere Tests, um die Integrität und Qualität der Daten sicherzustellen (Abb. 1). Als Teil dieses Prozesses werden die Daten den Mitgliedern des Konsortiums und der Öffentlichkeit gleichzeitig an bestimmten Punkten des Datenflusses zur Verfügung gestellt, u. a. bei der Sammlung von Sequenzdaten und der Fertigstellung von Alignments.
Über die direkte Unterstützung der Bedürfnisse des Projekts hinaus stellt das zentralisierte Datenmanagement sicher, dass Ressourcen geschaffen werden, die sich an Nutzer außerhalb der Analysegruppe des Konsortiums richten. Dazu gehören der 1000 Genomes Browser (http://browser.1000genomes.org/), die Übermittlung sowohl vorläufiger als auch endgültiger Variantendatensätze an dbSNP und dbVar/DGVa, die Bereitstellung von Alignment- und Variantendateien in der Amazon Web Services-Cloud und zentralisierte Variationsannotationsdienste.
Die für dieses Projekt genutzten Erfahrungen mit dem Datenmanagement spiegeln zum Teil die Schwierigkeiten bei der Anpassung bestehender Bioinformatiksysteme an neue Technologien und zum Teil die Herausforderung von Datenmengen wider, die weitaus größer sind als zuvor. Die rasche Entwicklung von Analyse- und Verarbeitungsmethoden ist ein Zeichen für die Bemühungen der Gemeinschaft, wirksame Instrumente zum Verständnis der Daten bereitzustellen.