The 1000 Genomes Project: Data management and community access Posted on 9月 26, 2021 by admin Illumina, Roche Diagnostics (454) and Life Technologies (SOLiD) のものを含むハイスループットシーケンス技術は、前例のない規模の全ゲノムシーケンスを、ヒトゲノム計画で使用したゲルキャピラリー技術に比べて劇的に低いコストで実現することができます。 これらの技術は、2007年に複数の集団におけるヒトの変異を包括的に特徴付ける取り組みである1000ゲノムプロジェクトの立ち上げを決定した際の核心となりました。 プロジェクトの試験段階において、このデータは、ヒトの遺伝的変異に関する広範な集団スケールのビューの作成に役立ちました1。 1000人ゲノムプロジェクトの当初の計画では、1000人分の2×全ゲノムカバレッジ、すなわち1人あたり約6ギガ塩基対、全体で約6テラ塩基対の塩基配列を収集する予定であったが、その結果、1人あたりの塩基配列は1.5×2.5×2.5となり、1人あたりの塩基配列の合計は約1.6テラ(Tbp)である。 その後、シークエンス能力の向上により、この計画は何度も修正され、現在のプロジェクト規模は、約2,500人についてローカバレッジの全ゲノム配列約4倍、全エクソーム配列約20倍、合計500人についてハイカバレッジの全ゲノム配列約40倍(配列生成量は当初の約25倍)となっています。 実際、1000ゲノムパイロットプロジェクトでは5Tbpの配列データを収集し、38,000ファイル、12TBを超えるデータがコミュニティに公開された1。 2012年3月には、250,000以上の一般にアクセス可能なファイルに260テラバイト以上のデータが含まれ、依然として成長している。 以前の取り組み2、3、4と同様に、1000ゲノムプロジェクトのメンバーは、生産的に前進するため、また妥当な時間枠でデータをコミュニティに確実に提供するためには、データの調整が不可欠であることを認識した。 ここでは、1000ゲノムプロジェクトのメンバーが、生の配列データから閲覧可能なプロジェクト結果まで、データリソースをコミュニティに提供するために用いた方法について述べる。 データフロー 1000ゲノムプロジェクトのデータフローを管理し、プロジェクト内およびより広いコミュニティでデータを利用できるようにすることは、DCCのバイオインフォマティクスの基本課題である(図1および補足表1参照)。 9つのシークエンスセンターと20以上の主要な解析グループ1があるため、初期の最も重要な課題は、(i)必要な品質管理と標準化のためにすべてのシークエンスデータを中央で照合する、(ii)参加機関間でデータを交換する、(iii)解析グループがシークエンスデータと中間解析結果の両方を迅速に利用できるようにする、(iv)配列、アライメント、バリアントファイルおよびその関連メタデータへのアクセスを容易に保つ、(v)これらのリソースをコミュニティに提供することです。 Figure 1: 1000 Genomes Projectにおけるデータの流れ シークエンスセンターは生データを二つのSRAデータベース(矢印1)の一つに提出し、データ交換を行っています。 DCCはSRAからFASTQファイルを取得し(矢印2)、データの品質管理ステップを実行する。 解析グループは、DCCからデータにアクセスし(矢印3)、配列データをゲノムにアラインメントし、そのアラインメントを用いてバリアントをコールする。 アライメントファイルとバリアントファイルはDCCに返送される(矢印4)。 すべてのデータはできるだけ早く一般に公開される。 BCM, Baylor College of Medicine; BI, Broad Institute; WU, Washington University; 454, Roche; AB, Life Technologies; MPI, Max Planck Institute for Molecular Genetics; SC, Wellcome Trust Sanger Institute; IL, Illumina. 近年、FTPなどのTCP/IPベースのプロトコルによるデータ転送速度が、シーケンス生産容量の増加に応じて拡張できなくなってきています。 そのため、物理的なハードディスクにシーケンスデータを入れて送るという方法もあるが5、この方法は非常に手間がかかる。 同時に、シーケンスデータのデータ転送の必要性は、物理学や天文学の分野と比較してはるかに低いため、専用のネットワークインフラを構築することは正当化されない。 その代わりに、プロジェクトメンバーはAspera社のインターネット転送ソリューションに頼ることにしました。このUDPベースの方法は、通常の使用においてFTPの20〜30倍のデータ転送速度を達成します。 1000 Genomes Project は、European Nucleotide Archive (ENA) のサービスとして提供されている EBI の SRA と NCBI の SRA6 という 2 つの配列読み取りアーカイブ (SRA) への最初のマルチテラベースの提出を担当しました。 このプロジェクトの期間中、主要なシーケンシングセンターはEBIまたはNCBIへの自動データ提出方法を開発し、一方、両方のSRAデータベースはアーカイブされたデータを検索しアクセスする一般的な方法を開発しました。 アーカイブとプロジェクトの両方が受け入れ、配布するデータ形式も、拡張性のあるシーケンスリード形式(SRF)ファイルから、よりコンパクトなバイナリアライメント/マップ(BAM)7およびFASTQ形式へと進化している(表1)。 Table 1 1000 Genomes Project で使用されているファイルフォーマット 1000 Genomes Project は「コミュニティリソースプロジェクト」8 として、以下に示すように出版前のデータをできるだけ早く一般に公開しています。 このプロジェクトでは、EBI (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/) と NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/) にミラーリングされたダウンロードサイトがあり、プロジェクトとコミュニティのアクセスを同時に提供し、全体のダウンロード容量を効率的に増やしています。 マスターコピーはEBIのDCCによって直接更新され、NCBIのコピーは夜間の自動Asperaプロセスによって通常24時間以内にミラーリングされる。 一般にアメリカ大陸のユーザーはNCBIのミラーから最も早くデータにアクセスし、ヨーロッパおよび世界の他の地域のユーザーはEBIのマスターからより早くダウンロードする。 生の配列データはFASTQファイルとして、EBI SRAが処理してから48-72時間以内に1000 Genomes FTPサイトに表示される。 この処理には、もともとNCBI SRAに提出されたデータをまずEBIでミラーリングする必要がある。 プロジェクトデータは、日付入りsequence.indexファイル(Supplementary Note)に関連した定期的なデータ凍結によって管理されている。 特定のsequence.indexファイルに基づいたアラインメントはプロジェクト内で作成され、BAMフォーマットでFTPサイトを通じて配布され、解析結果はVCFフォーマットで配布される9。 また、Tabixソフトウェア10で作成されたインデックスファイルも、BAMとVCFの両方について提供されています。 FTPサイト上のすべてのデータは、広範囲な品質管理プロセスを経ています。 配列データについては、生の配列データのシンタックスと品質のチェック、およびサンプルの同一性の確認が含まれます。 データアクセス 1000ゲノムプロジェクトのデータセット全体が利用可能で、それを入手する最も論理的な方法は、FTPサイトのコンテンツをミラーすることである(2012年3月現在、260テラバイト以上ある)。 我々の経験では、ほとんどのユーザーはデータセット全体よりも、解析結果やターゲットとなる生データやゲノムの特定領域からのアライメントスライスに関心があるようです。 実際、解析ファイルはFTPサイトを通じて、解析の基となったsequence.indexの凍結日にちなんだディレクトリで配布されています(補足説明)。 FTP サイトのルートには current.tree というファイルが用意されており、サイト内の検索を補助している。 このファイルは、FTP サイトのミラーリングを可能にするために設計され、最終更新時刻とファイルの整合性情報を含む、すべてのファイルとディレクトリの完全なリストが含まれています。 我々は、ユーザーが指定したサンプル識別子やデータファイル名に含まれるその他の情報を使用して、current.treeファイルに直接アクセスできるWebインターフェース(http://www.1000genomes.org/ftpsearch/)を開発しました。 この検索は、EBI または NCBI FTP サイトへの完全なファイルパスを返し、FASTQ または BAM ファイルのような多数の結果を生成する可能性のあるファイルタイプを除外するフィルターをサポートします (補足説明)。 VCFファイルはdata slicerを使ってサンプル名や集団ごとに分割することもできる。 Ensembl infrastructure11(http://browser.1000genomes.org/)に基づく専用の1000 Genomesブラウザで、タンパク質コード遺伝子や全ゲノム制御情報などの幅広いゲノム注釈と関連させて1000 Genomesデータを閲覧することができる。 このブラウザは、dbSNPで処理される前のプロジェクトバリアントや、Ensemblやカリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザなどのゲノムリソースに表示されるバリアントを表示します。 1000 Genomesブラウザは、Variant Effect Predictor (VEP)12 や、すべての非同義バリアントに対する ‘sorting tolerant from intolerant’ (SIFT)13 および PolyPhen14予測などのEnsembl変動ツールも提供します(補足注)。 このブラウザは、1000 Genomes Project とその他のウェブアクセス可能なインデックス付き BAM および VCF ファイルの両方を、ゲノムコンテキストで表示することをサポートしています(図2)。 Ensemblコードリリース60に基づき、パイロットプロジェクトのデータを含む1000 Genomesブラウザの安定したアーカイブバージョンは、http://pilotbrowser.1000genomes.org/. Figure 2: Remote file viewing. 1000 Genomesブラウザはリモートファイルの添付により、アクセスできるBAMおよびVCFファイルが「位置」ビューに表示できるようになりました。 Ensembl バージョン 63 に基づく 2011 年 10 月のブラウザの画像内のトラックは、EBI FTP サイトからの NA12878 BAM ファイルで、コンセンサス配列は上部の矢印で、シーケンスリードは下部の矢印で示されています (i)。20110521 リリース VCF ファイルのバリアントは、トラックとして黄色でバリアント 2 件として示され、20101123 リリースデータベースのバリアントはトラックとして黄色でバリアント1件として示され、ゲノムコンテキストは Ensembl からの遺伝子注釈 (iv) です (ii)。 プロジェクトブラウザをサポートする MySQL データベースも公開されており、これらは直接問い合わせるか、Ensembl Application Programming Interface (API) の適切なバージョンを使ってプログラムからアクセスできる(補足説明)。 このブラウザでは、ゲノムの任意の領域のシーケンスリードと個人の遺伝子型の両方が表示されます。 また、このブラウザーでは、表示された領域をカバーする選択された個体の配列が、BAM、SAM、FASTQ、FASTA 形式でダウンロードできる。 遺伝子型も同様にVCF形式でダウンロードできる(補足) このプロジェクトでは、呼び出されたすべてのバリアントを、ハンドル名 “1000GENOMES” を使用して適切なリポジトリに提出します。 パイロットプロジェクトの一塩基多型とsmall indelはdbSNP15に、構造変異データはDatabase of Genomic Variants archive (DGVa) 16に提出されています。 Amazon Web Servicesのユーザーのために、現在利用可能なすべてのプロジェクトのBAMおよびVCFファイルは、http://1000genomes.s3.amazonaws.com/経由で公開データセットとして利用可能である(補足注)。 合理化されたアーカイブプロセスは、SRAの2つの同期コピーを利用し、提出処理のリソース集約的なタスクを分散している。 さらに、DCCとSRAが近接しているため、すべての1000ゲノムデータができるだけ早くコミュニティに提供され、DCCから学んだ教訓をアーカイブで生かすことができた。 大規模データ生成および解析プロジェクトは、組織的かつ集中的なデータ管理活動から利益を得ることができる2,3,4。 このような活動の目標は、データをできるだけ迅速かつ広く利用できるようにしながら、プロジェクトに必要なサポートやインフラを提供することである。 1000人ゲノムプロジェクトの解析をサポートするために、確立された広範なデータフローには、データの完全性と品質を保証するための複数のテストが含まれています(図1)。 このプロセスの一環として、配列データの収集やアラインメントの完了時など、データフローの特定の時点で、コンソーシアムのメンバーや一般の人々が同時にデータを利用できるようにしている。 プロジェクトのニーズを直接サポートするだけではなく、集中的なデータ管理により、コンソーシアムの解析グループ以外のユーザーを対象としたリソースが作成されるようにしている。 これには1000 Genomes Browser(http://browser.1000genomes.org/)、dbSNPおよびdbVar/DGVaへの予備および最終バリアントデータセットの提出、Amazon Web Servicesクラウドでのアライメントおよびバリアントファイルの提供、集中型バリアントアノテーションサービスが含まれます。 解析・処理方法の急速な進化は、データを理解するための効果的なツールを提供しようとするコミュニティの努力を示している 。