Highh-throughput sequencing technologies, including those from Illumina, Roche Diagnostics (454) and Life Technologies (SOLiD), enable whole-genome sequencing at a unprecedented scale and at dramatically reduced costs over the gel capillary technology used in the human genome project. Estas tecnologias estiveram no centro da decisão em 2007 de lançar o Projeto 1000 Genomas, um esforço para caracterizar de forma abrangente a variação humana em múltiplas populações. Na fase piloto do projeto, os dados ajudaram a criar uma extensa visão em escala populacional da variação genética humana1,
Os maiores volumes de dados e menores comprimentos de leitura das tecnologias de seqüenciamento de alto rendimento criaram novos requisitos substanciais para bioinformática, análise e métodos de distribuição de dados. O plano inicial para o Projeto 1000 Genomes era coletar 2× cobertura total do genoma para 1.000 indivíduos, representando ∼6 pares de seqüência giga-base por indivíduo e ∼6 pares tera-base (Tbp) de seqüência no total. O aumento da capacidade de sequenciamento levou a repetidas revisões desses planos para a escala atual do projeto de coleta de baixa cobertura, ∼4× sequência de genoma inteiro e ∼20× sequência de genoma inteiro para ∼2.500 indivíduos mais alta cobertura, ∼40× sequência de genoma inteiro para 500 indivíduos no total (∼25 – aumento na geração de sequência em relação às estimativas originais). De fato, o Projeto-piloto 1000 Genomes coletou 5 Tbp de dados de seqüência, resultando em 38.000 arquivos e mais de 12 terabytes de dados disponíveis para a comunidade1. Em março de 2012 os recursos ainda em crescimento do projeto incluem mais de 260 terabytes de dados em mais de 250.000 arquivos publicamente acessíveis.
Como em esforços anteriores2,3,4, os membros do Projeto 1000 Genomes reconheceram que a coordenação de dados seria crítica para avançar produtivamente e assegurar que os dados estivessem disponíveis para a comunidade em um período de tempo razoável. Portanto, o Centro de Coordenação de Dados (DCC) foi criado conjuntamente entre o Instituto Europeu de Bioinformática (EBI) e o Centro Nacional de Biotecnologia (NCBI) para gerenciar o fluxo de dados específicos do projeto, para assegurar a deposição de dados de seqüência de arquivo e para gerenciar o acesso da comunidade através do site FTP e do navegador do genoma.
Aqui descrevemos os métodos usados pelos membros do Projeto 1000 Genomes para fornecer recursos de dados para a comunidade, desde dados de seqüência bruta até resultados do projeto que podem ser navegados. Nós fornecemos exemplos extraídos dos métodos de processamento de dados do projeto para demonstrar os componentes chave de fluxos de trabalho complexos.
Fluxo de dados
Gerenciar o fluxo de dados no Projeto 1000 Genomes de forma que os dados estejam disponíveis dentro do projeto e para a comunidade em geral é o desafio fundamental da bioinformática para o DCC (Fig. 1 e Tabela Suplementar 1). Com nove centros de sequenciação diferentes e mais de duas dúzias de grandes grupos de análise1, os desafios iniciais mais importantes são (i) reunir centralmente todos os dados de sequenciação para o necessário controlo de qualidade e padronização; (ii) trocar os dados entre as instituições participantes; (iii) assegurar a rápida disponibilidade dos dados de sequenciação e dos resultados das análises intermédias para os grupos de análise; (iv) manter um acesso fácil aos ficheiros de sequenciação, alinhamento e variantes e aos seus metadados associados; e (v) fornecer estes recursos à comunidade.
Nos últimos anos, as velocidades de transferência de dados usando protocolos baseados em TCP/IP, como FTP, não foram escaladas com o aumento da capacidade de produção de sequências. Em resposta, alguns grupos têm recorrido ao envio de discos rígidos físicos com dados sequenciais5 , embora o manuseio dos dados desta forma seja muito trabalhoso. Ao mesmo tempo, os requisitos de transferência de dados para dados de seqüência permanecem bem abaixo daqueles encontrados na física e astronomia, portanto, a construção de uma infra-estrutura de rede dedicada não foi justificada. Ao invés disso, os membros do projeto optaram por confiar em uma solução de transferência pela Internet da empresa Aspera, um método baseado em UDP que atinge taxas de transferência de dados 20-30 vezes mais rápidas do que o FTP em uso típico. Usando o Aspera, a capacidade combinada de submissão da EBI e da NCBI aproxima-se atualmente de 30 terabytes por dia, com ambos os sites prestes a crescer à medida que a capacidade de sequenciamento global aumenta.
O Projeto 1000 Genomes foi responsável pelas primeiras submissões de múltiplos terabytes para os dois arquivos de leitura em seqüência (SRAs): o SRA na EBI, fornecido como um serviço do Arquivo Europeu de Núcleos (ENA), e o NCBI SRA6. Ao longo do projecto, os principais centros de sequenciação desenvolveram métodos de submissão automática de dados quer ao EBI quer ao NCBI, enquanto ambas as bases de dados SRA desenvolveram métodos generalizados de pesquisa e acesso aos dados arquivados. Os formatos de dados aceites e distribuídos tanto pelos arquivos como pelo projecto evoluíram também dos formatos expansivos de leitura de sequências (SRF) para os formatos mais compactos de Alinhamento Binário/Mapa (BAM)7 e FASTQ (Tabela 1). Esta mudança de formato foi possível por um melhor entendimento das necessidades do grupo de análise do projeto, levando a uma decisão de parar de arquivar medidas de intensidade bruta dos dados lidos para focar exclusivamente em chamadas de base e pontuações de qualidade.
As a ‘community resource project’8, the 1000 Genomes Project publicly releases prepublication data as described below as quickly as possible. O projeto espelhou sites de download no EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) e no NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) que fornecem acesso ao projeto e à comunidade simultaneamente e aumentam eficientemente a capacidade total de download. A cópia matriz é actualizada directamente pelo DCC no EBI, e a cópia do NCBI é normalmente espelhada dentro de 24 h através de um processo Aspera automático nocturno. Geralmente os usuários nas Américas terão acesso aos dados mais rapidamente a partir do espelho da NCBI, enquanto os usuários na Europa e em outras partes do mundo farão o download mais rápido a partir do EBI master.
Os dados da seqüência bruta, como arquivos FASTQ, aparecem no site FTP do 1000 Genomes dentro de 48-72 h após o EBI SRA tê-los processado. Este processamento requer que os dados originalmente submetidos ao SRA da NCBI sejam primeiro espelhados na EBI. Os dados do projecto são geridos através do congelamento periódico de dados associado a um ficheiro sequence.index datado (Nota Complementar). Estes arquivos foram produzidos aproximadamente a cada dois meses durante a fase piloto, e para o projeto completo a freqüência de liberação varia dependendo da saída dos centros de produção e dos requisitos do grupo de análise.
Alinhamentos baseados em um arquivo sequence.index específico são produzidos dentro do projeto e distribuídos através do site FTP no formato BAM, e os resultados da análise são distribuídos no formato de chamada de variante (VCF)9. Os arquivos de índice criados pelo software Tabix10 também são fornecidos tanto para arquivos BAM quanto para VCF.
Todos os dados no site FTP passaram por um extenso processo de controle de qualidade. Para os dados da sequência, isto inclui a verificação da sintaxe e qualidade dos dados da sequência em bruto e a confirmação da identidade da amostra. Para os dados de alinhamento, o controle de qualidade inclui a verificação da integridade do arquivo e da consistência dos metadados (Nota Complementar).
Acesso aos dados
O conjunto completo de dados do Projeto 1000 Genomes está disponível, e a abordagem mais lógica para obtê-lo é espelhar o conteúdo do site FTP, que é, a partir de março de 2012, mais de 260 terabytes. Nossa experiência é que a maioria dos usuários está mais interessada em resultados de análises e dados brutos direcionados ou fatias de alinhamento de regiões específicas do genoma do que em todo o conjunto de dados. De fato, os arquivos de análise são distribuídos através do site FTP em diretórios nomeados para a data de congelamento do sequence.index em que eles são baseados (Nota Complementar). Entretanto, com centenas de milhares de arquivos disponíveis, localizar e acessar dados de projetos específicos navegando na estrutura de diretórios FTP pode ser extremamente difícil.
Um arquivo chamado current.tree é fornecido na raiz do site FTP para auxiliar na pesquisa do site. Este arquivo foi projetado para habilitar o espelhamento do site FTP e contém uma lista completa de todos os arquivos e diretórios, incluindo a hora da última atualização e informações de integridade do arquivo. Desenvolvemos uma interface web (http://www.1000genomes.org/ftpsearch/) para fornecer acesso direto ao arquivo current.tree usando qualquer identificador de amostra especificado pelo usuário ou outras informações encontradas em nossos nomes de arquivos de dados, que seguem uma convenção rigorosa para ajudar na busca. A busca retorna os caminhos completos do arquivo tanto para o site EBI quanto para o site FTP do NCBI e suporta filtros para excluir tipos de arquivos com probabilidade de produzir um grande número de resultados, como arquivos FASTQ ou BAM (Nota Complementar).
Para usuários que desejam descobrir variantes ou alinhamentos de regiões genômicas específicas sem baixar os arquivos completos, eles podem obter subseções de arquivos BAM e VCF diretamente com Tabix ou através de uma ferramenta de tradução de dados baseada na web (Nota Complementar). Os arquivos VCF também podem ser divididos por nome de amostra ou população usando o cortador de dados.
Uma pessoa pode visualizar dados de 1000 Genomes no contexto da anotação extensiva do genoma, tais como genes codificadores de proteínas e informações regulatórias do genoma inteiro através do navegador dedicado 1000 Genomes baseado na infra-estrutura Ensembl11 (http://browser.1000genomes.org/). O navegador exibe variantes do projeto antes que elas sejam processadas pelo dbSNP ou apareçam em recursos genômicos como o Ensembl ou o navegador genômico da Universidade da Califórnia Santa Cruz (UCSC). O navegador 1000 Genomes também fornece ferramentas de variação do Ensembl incluindo o VEP (Variant Effect Predictor)12 assim como as previsões de ‘tolerância à ordenação por intolerante’ (SIFT)13 e PolyPhen14 para todas as variantes não-sinônimas (Nota Complementar). O navegador suporta a visualização tanto do Projeto 1000 Genomes quanto de outros arquivos BAM e VCF indexados acessíveis pela web em contexto genômico (Fig. 2). Uma versão de arquivo estável do navegador 1000 Genomes baseada na versão 60 do código Ensembl e contendo os dados do projeto piloto está disponível em http://pilotbrowser.1000genomes.org/.
As bases de dados MySQL subjacentes que suportam o navegador do projeto também estão disponíveis publicamente e podem ser consultadas diretamente ou acessadas programmaticamente usando a versão apropriada do Ensembl Application Programming Interface (API) (Nota Complementar).
Os usuários também podem explorar e baixar dados do projeto usando o navegador de dados NCBI em http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/. O navegador exibe tanto as leituras em seqüência quanto os genótipos individuais para qualquer região do genoma. A sequência de indivíduos selecionados cobrindo a região exibida pode ser baixada no formato BAM, SAM, FASTQ ou FASTA. Os genótipos também podem ser baixados no formato VCF (Nota Complementar).
O projeto submete todas as variantes chamadas aos repositórios apropriados usando o handle “1000GENOMES”. Os polimorfismos de nucleotídeos e pequenos indels do projeto piloto foram submetidos ao dbSNP15, e os dados de variação estrutural foram submetidos ao arquivo de Banco de Dados de Variantes Genômicas (DGVa)16. Variantes completas do projeto serão submetidas de forma similar.
Para usuários do Amazon Web Services, todos os arquivos BAM e VCF do projeto atualmente disponíveis estão disponíveis como um conjunto de dados públicos via http://1000genomes.s3.amazonaws.com/ (Nota Complementar).
Discussão
Métodos de submissão de dados e acesso desenvolvidos para suportar o Projeto 1000 Genomes oferecem benefícios a todos os projetos de seqüenciamento em larga escala e à comunidade em geral. O processo de arquivamento simplificado aproveita as duas cópias sincronizadas do SRA, que distribuem a tarefa de processamento intensivo de submissão. Além disso, a proximidade do DCC com o SRA assegura que todos os dados de 1000 Genomas sejam disponibilizados à comunidade o mais rápido possível e permite que os arquivos se beneficiem das lições aprendidas pelo DCC.
Projetos de geração e análise de dados em larga escala podem se beneficiar de uma atividade de gerenciamento de dados organizada e centralizada2,3,4. Os objetivos de tais atividades são fornecer o apoio e a infra-estrutura necessários para o projeto, garantindo que os dados sejam disponibilizados o mais rápida e amplamente possível. Ao apoiar a análise do Projeto 1000 Genome, o extenso fluxo de dados estabelecido inclui múltiplos testes para garantir a integridade e qualidade dos dados (Fig. 1). Como parte deste processo, os dados são disponibilizados aos membros do consórcio e ao público simultaneamente em pontos específicos do fluxo de dados, incluindo a coleta de dados sequenciais e a conclusão de alinhamentos.
Além de apoiar diretamente as necessidades do projeto, o gerenciamento centralizado dos dados garante que os recursos direcionados aos usuários fora do grupo de análise do consórcio sejam criados. Estes incluem o 1000 Genomes Browser (http://browser.1000genomes.org/), submissão de conjuntos de dados de variantes preliminares e finais ao dbSNP e ao dbVar/DGVa, provisionamento de arquivos de alinhamento e variantes na nuvem de Web Services da Amazon, e serviços centralizados de anotação de variações.
As experiências de gerenciamento de dados usadas para este projeto refletem em parte a dificuldade de adotar sistemas bioinformáticos existentes para novas tecnologias e em parte o desafio de volumes de dados muito maiores do que os encontrados anteriormente. A rápida evolução dos métodos de análise e processamento é indicativa do esforço da comunidade para fornecer ferramentas eficazes para a compreensão dos dados.