Las tecnologías de secuenciación de alto rendimiento, incluidas las de Illumina, Roche Diagnostics (454) y Life Technologies (SOLiD), permiten la secuenciación del genoma completo a una escala sin precedentes y con unos costes drásticamente reducidos con respecto a la tecnología de gel capilar utilizada en el proyecto del genoma humano. Estas tecnologías fueron la base de la decisión tomada en 2007 de poner en marcha el Proyecto 1000 Genomas, un esfuerzo por caracterizar exhaustivamente la variación humana en múltiples poblaciones. En la fase piloto del proyecto, los datos ayudaron a crear una amplia visión a escala poblacional de la variación genética humana1.
Los mayores volúmenes de datos y las menores longitudes de lectura de las tecnologías de secuenciación de alto rendimiento crearon nuevos requisitos sustanciales para los métodos de bioinformática, análisis y distribución de datos. El plan inicial del Proyecto 1000 Genomas era recoger una cobertura de 2× del genoma completo para 1.000 individuos, lo que representaba ∼6 gigapares de secuencia por individuo y ∼6 tera pares de bases (Tbp) de secuencia en total. El aumento de la capacidad de secuenciación hizo que se revisaran repetidamente estos planes hasta llegar a la escala actual del proyecto, que consiste en recopilar secuencias de baja cobertura, ∼4× del genoma completo y ∼20× del exoma completo para ∼2.500 individuos, además de secuencias de alta cobertura, ∼40× del genoma completo para 500 individuos en total (una generación de secuencias ∼25 veces superior a las estimaciones originales). De hecho, el Proyecto Piloto 1000 Genomas recopiló 5 Tbp de datos de secuencias, lo que dio como resultado 38.000 archivos y más de 12 terabytes de datos disponibles para la comunidad1. En marzo de 2012, los recursos del proyecto, que siguen creciendo, incluyen más de 260 terabytes de datos en más de 250.000 archivos de acceso público.
Al igual que en esfuerzos anteriores2,3,4, los miembros del Proyecto 1000 Genomas reconocieron que la coordinación de los datos sería fundamental para avanzar de forma productiva y para garantizar que los datos estuvieran disponibles para la comunidad en un plazo razonable. Por lo tanto, el Centro de Coordinación de Datos (DCC) fue creado conjuntamente entre el Instituto Europeo de Bioinformática (EBI) y el Centro Nacional de Biotecnología (NCBI) para gestionar el flujo de datos específicos del proyecto, para garantizar el depósito de datos de secuencias de archivo y para gestionar el acceso de la comunidad a través del sitio FTP y el navegador del genoma.
Aquí describimos los métodos utilizados por los miembros del Proyecto 1000 Genomas para proporcionar recursos de datos a la comunidad, desde los datos de secuencias en bruto hasta los resultados del proyecto que se pueden navegar. Proporcionamos ejemplos extraídos de los métodos de procesamiento de datos del proyecto para demostrar los componentes clave de los flujos de trabajo complejos.
Flujo de datos
La gestión del flujo de datos en el Proyecto 1000 Genomas de manera que los datos estén disponibles dentro del proyecto y para la comunidad en general es el reto bioinformático fundamental para el DCC (Fig. 1 y Tabla Suplementaria 1). Con nueve centros de secuenciación diferentes y más de dos docenas de grupos de análisis principales1, los retos iniciales más importantes son (i) cotejar todos los datos de secuenciación de forma centralizada para el control de calidad y la estandarización necesarios; (ii) intercambiar los datos entre las instituciones participantes; (iii) asegurar la rápida disponibilidad tanto de los datos de secuenciación como de los resultados de los análisis intermedios para los grupos de análisis; (iv) mantener un fácil acceso a los archivos de secuencias, alineaciones y variantes y sus metadatos asociados; y (v) proporcionar estos recursos a la comunidad.
En los últimos años, las velocidades de transferencia de datos mediante protocolos basados en TCP/IP, como el FTP, no se han adaptado al aumento de la capacidad de producción de secuencias. En respuesta, algunos grupos han recurrido al envío de discos duros físicos con los datos de las secuencias5, aunque el manejo de los datos de esta manera es muy laborioso. Al mismo tiempo, los requisitos de transferencia de datos de las secuencias siguen siendo muy inferiores a los de la física y la astronomía, por lo que no estaba justificada la creación de una infraestructura de red específica. En su lugar, los miembros del proyecto optaron por confiar en una solución de transferencia por Internet de la empresa Aspera, un método basado en UDP que logra tasas de transferencia de datos entre 20 y 30 veces más rápidas que el FTP en un uso típico. Utilizando Aspera, la capacidad de envío combinada del EBI y el NCBI se aproxima actualmente a los 30 terabytes por día, y ambos sitios están preparados para crecer a medida que aumente la capacidad de secuenciación global.
El Proyecto 1000 Genomas fue responsable de los primeros envíos de múltiples bases de datos a los dos archivos de lectura de secuencias (SRA): el SRA del EBI, proporcionado como un servicio del Archivo Europeo de Nucleótidos (ENA), y el SRA del NCBI6. A lo largo del proyecto, los principales centros de secuenciación desarrollaron métodos automatizados de envío de datos al EBI o al NCBI, mientras que ambas bases de datos SRA desarrollaron métodos generalizados para buscar y acceder a los datos archivados. Los formatos de datos aceptados y distribuidos tanto por los archivos como por el proyecto también han evolucionado, pasando de los extensos archivos de formato de lectura de secuencias (SRF) a los formatos más compactos Binary Alignment/Map (BAM)7 y FASTQ (Tabla 1). Este cambio de formato fue posible gracias a una mejor comprensión de las necesidades del grupo de análisis del proyecto, lo que llevó a la decisión de dejar de archivar las mediciones de intensidad brutas de los datos de lectura para centrarse exclusivamente en las llamadas de bases y las puntuaciones de calidad.
Como «proyecto de recursos de la comunidad «8, el Proyecto 1000 Genomas libera públicamente los datos de prepublicación tal y como se describe a continuación lo más rápidamente posible. El proyecto cuenta con sitios de descarga duplicados en el EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) y en el NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) que proporcionan acceso al proyecto y a la comunidad simultáneamente y aumentan eficientemente la capacidad general de descarga. La copia maestra se actualiza directamente por el DCC en el EBI, y la copia del NCBI suele reflejarse en un plazo de 24 horas mediante un proceso automático nocturno de Aspera. Por lo general, los usuarios de América accederán a los datos más rápidamente desde la réplica del NCBI, mientras que los usuarios de Europa y del resto del mundo descargarán más rápidamente desde la copia maestra del EBI.
Los datos de las secuencias en bruto, como archivos FASTQ, aparecen en el sitio FTP de 1000 Genomas en un plazo de 48 a 72 horas después de que la SRA del EBI los haya procesado. Este procesamiento requiere que los datos enviados originalmente a la SRA del NCBI se reflejen primero en el EBI. Los datos del proyecto se gestionan a través de congelaciones periódicas de datos asociadas a un archivo sequence.index fechado (Nota complementaria). Estos archivos se produjeron aproximadamente cada dos meses durante la fase piloto, y para el proyecto completo la frecuencia de publicación varía en función de los resultados de los centros de producción y de las necesidades del grupo de análisis.
Los alineamientos basados en un archivo sequence.index específico se producen dentro del proyecto y se distribuyen a través del sitio FTP en formato BAM, y los resultados del análisis se distribuyen en formato de llamada de variantes (VCF)9. Los archivos de índice creados por el software Tabix10 también se proporcionan para los archivos BAM y VCF.
Todos los datos del sitio FTP han sido sometidos a un extenso proceso de control de calidad. En el caso de los datos de la secuencia, esto incluye la comprobación de la sintaxis y la calidad de los datos de la secuencia en bruto y la confirmación de la identidad de la muestra. Para los datos de alineación, el control de calidad incluye la comprobación de la integridad de los archivos y la consistencia de los metadatos (Nota Suplementaria).
Acceso a los datos
Todo el conjunto de datos del Proyecto 1000 Genomas está disponible, y el enfoque más lógico para obtenerlo es reflejar el contenido del sitio FTP, que es, a partir de marzo de 2012, más de 260 terabytes. Nuestra experiencia es que la mayoría de los usuarios están más interesados en los resultados de los análisis y en los datos brutos específicos o en los cortes de alineación de regiones concretas del genoma que en todo el conjunto de datos. De hecho, los archivos de análisis se distribuyen a través del sitio FTP en directorios con el nombre de la fecha de congelación de la secuencia.índice en la que se basan (Nota complementaria). Sin embargo, con cientos de miles de archivos disponibles, localizar y acceder a datos específicos del proyecto navegando por la estructura de directorios del FTP puede ser extremadamente difícil.
En la raíz del sitio FTP se proporciona un archivo llamado current.tree para ayudar a buscar en el sitio. Este archivo fue diseñado para permitir la duplicación del sitio FTP y contiene una lista completa de todos los archivos y directorios, incluyendo la hora de la última actualización y la información sobre la integridad de los archivos. Desarrollamos una interfaz web (http://www.1000genomes.org/ftpsearch/) para proporcionar acceso directo al archivo current.tree utilizando cualquier identificador de muestra especificado por el usuario u otra información encontrada en los nombres de nuestros archivos de datos, que siguen una convención estricta para facilitar la búsqueda. La búsqueda devuelve las rutas completas de los archivos al EBI o al sitio FTP del NCBI y admite filtros para excluir los tipos de archivos que probablemente produzcan un gran número de resultados, como los archivos FASTQ o BAM (Nota complementaria).
Para los usuarios que deseen descubrir variantes o alineamientos de regiones genómicas específicas sin descargar los archivos completos, pueden obtener subsecciones de los archivos BAM y VCF directamente con Tabix o mediante una herramienta de corte de datos basada en la web (Nota complementaria). Los archivos VCF también pueden dividirse por nombre de muestra o población utilizando el cortador de datos.
Uno puede ver los datos de 1000 Genomes en el contexto de la extensa anotación del genoma, como los genes codificadores de proteínas y la información reguladora de todo el genoma a través del navegador dedicado de 1000 Genomes basado en la infraestructura de Ensembl11 (http://browser.1000genomes.org/). El navegador muestra las variantes del proyecto antes de que sean procesadas por dbSNP o aparezcan en recursos genómicos como Ensembl o el navegador del genoma de la Universidad de California Santa Cruz (UCSC). El navegador 1000 Genomes también proporciona herramientas de variación de Ensembl, incluyendo el Variant Effect Predictor (VEP)12 , así como las predicciones ‘sorting tolerant from intolerant’ (SIFT)13 y PolyPhen14 para todas las variantes no sinónimas (Nota Suplementaria). El navegador admite la visualización tanto del Proyecto 1000 Genomas como de otros archivos BAM y VCF indexados accesibles a través de la web en el contexto genómico (Fig. 2). Una versión de archivo estable del navegador de 1000 Genomas basada en la versión 60 del código de Ensembl y que contiene los datos del proyecto piloto está disponible en http://pilotbrowser.1000genomes.org/.
Las bases de datos MySQL subyacentes que soportan el navegador de proyectos también están disponibles públicamente y se puede consultarlas directamente o acceder a ellas mediante programación utilizando la versión adecuada de la interfaz de programación de aplicaciones (API) de Ensembl (Nota complementaria).
Los usuarios también pueden explorar y descargar los datos del proyecto utilizando el navegador de datos del NCBI en http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. El navegador muestra tanto las lecturas de la secuencia como los genotipos individuales para cualquier región del genoma. Las secuencias de los individuos seleccionados que cubren la región mostrada pueden descargarse en formato BAM, SAM, FASTQ o FASTA. Los genotipos también pueden descargarse en formato VCF (Nota Suplementaria).
El proyecto envía todas las variantes llamadas a los repositorios apropiados utilizando el nombre «1000GENOMES». Los polimorfismos de un solo nucleótido del proyecto piloto y los pequeños indels se han enviado a dbSNP15, y los datos de variaciones estructurales se han enviado al archivo de la Base de Datos de Variantes Genómicas (DGVa)16 . Las variantes completas del proyecto se presentarán de forma similar.
Para los usuarios de Amazon Web Services, todos los archivos BAM y VCF del proyecto actualmente disponibles están disponibles como un conjunto de datos públicos a través de http://1000genomes.s3.amazonaws.com/ (Nota Suplementaria).
Discusión
Los métodos de presentación y acceso de datos desarrollados para apoyar el Proyecto 1000 Genomas ofrecen beneficios a todos los proyectos de secuenciación a gran escala y a la comunidad en general. El proceso de archivo racionalizado aprovecha las dos copias sincronizadas de la SRA, que distribuyen la tarea de procesamiento de la presentación, que requiere muchos recursos. Además, la proximidad del DCC a la SRA garantiza que todos los datos de 1000 Genomas se pongan a disposición de la comunidad lo antes posible y permite que los archivos se beneficien de las lecciones aprendidas por el DCC.
Los proyectos de generación y análisis de datos a gran escala pueden beneficiarse de una actividad de gestión de datos organizada y centralizada2,3,4. Los objetivos de estas actividades son proporcionar el apoyo y la infraestructura necesarios para el proyecto, al tiempo que se garantiza que los datos estén disponibles de la forma más rápida y amplia posible. Para apoyar el análisis del Proyecto 1000 Genomas, el amplio flujo de datos establecido incluye múltiples pruebas para asegurar la integridad y la calidad de los datos (Fig. 1). Como parte de este proceso, los datos se ponen a disposición de los miembros del consorcio y del público simultáneamente en puntos específicos del flujo de datos, incluyendo la recopilación de datos de secuencias y la finalización de los alineamientos.
Más allá de apoyar directamente las necesidades del proyecto, la gestión centralizada de los datos asegura la creación de recursos dirigidos a usuarios fuera del grupo de análisis del consorcio. Estos incluyen el Navegador de 1000 Genomas (http://browser.1000genomes.org/), el envío de conjuntos de datos de variantes tanto preliminares como finales a dbSNP y a dbVar/DGVa, el aprovisionamiento de archivos de alineación y variantes en la nube de Amazon Web Services, y los servicios centralizados de anotación de variaciones.
Las experiencias de gestión de datos utilizadas para este proyecto reflejan en parte la dificultad de adoptar los sistemas bioinformáticos existentes a las nuevas tecnologías y en parte el desafío de los volúmenes de datos mucho más grandes que los encontrados anteriormente. La rápida evolución de los métodos de análisis y tratamiento es indicativa del esfuerzo de la comunidad por ofrecer herramientas eficaces para comprender los datos.