Description
このトラックは NCBI の Danielle と Jean Thierry-Mieg が彼らの AceView プログラムを使って cDNA から構築した AceView 遺伝子モデルを表示します。 この解析では、高度な cDNA-to-genome co-alignment アルゴリズムとゲノム配列の品質を利用して、GenBank、dbEST、GSS、Trace および RefSeq cDNA 配列を包括的かつ非冗長的に表現している。 2011年後半の次のリリースでは、FDAのLeming Shiが主導するSEQC共同プロジェクトの一環として、SRA(または同化した公共リポジトリ)に寄託されたデータも含まれ、Helicos、Illumina、LifeTech SOLiD、Roche 454から提供されたハイスループットRNA配列が、遺伝子モデルを大幅に洗練・充実させる予定です。
ある意味、AceView転写物は、クローニングによる人工物、汚染物、質の悪い配列を除いた、公開RNAの完全な注釈付きnon-redundant「nr」ビューを表しているのです。 AceView 転写物は現在、配列情報の損失を最小限に抑えながら、生データと比較して 10 倍に圧縮されています。
87% の公開 RNA 配列が AceView 代替転写物および遺伝子に結合されており、ヒトとマウスの両方で「既知の遺伝子」のほぼ 2 倍の数の主要遺伝子が特定されています。 スプライシングされた遺伝子の18%から25%は、マウスとヒトのそれぞれで非コード化されているようです。 代替転写産物は両種とも顕著である。 典型的なヒトの遺伝子は、3つのプロモーターから平均8つの異なるスプライス型を生成し、3つの重複しない末端エクソンを持つ。 また、平均して3つのカセットエクソンと4つの内部ドナーまたはアクセプターサイトを持っています。 AceView サイトではさらに、病気との関連や代替転写物の組織特異性など、再構築された遺伝子の徹底的な生物学的アノテーションを提案している
AceView は実験データに対する敬意と広範な品質管理を兼ね備えている。 ENCODE領域で評価したところ、AceViewの転写物は、手動でキュレートしたGencode参照遺伝子とほとんど区別がつきませんが(Thierry-Mieg, 2006参照、またはゲノムブラウザで2つのトラックを比較)、ゲノム全体では転写物の数は、Havana/Vegaを3倍、RefSeqを6倍上回っています。
異なる遺伝子トラックについての詳細は、遺伝子 FAQ を参照してください。
Display Conventions and Configuration
このトラックは、遺伝子トラックの表示規則に従っています。
トラック説明ページでは、以下のフィルタリングおよび設定オプションがあります。 ゲノム コドン オプションを選択すると、拡大表示で各コドンに色を付けてラベル付けし、検証や遺伝子予測との比較を容易にします。
個々の転写物の詳細ページで「AceView Gene Summary」をクリックすると、NCBI AceView ウェブサイトでその遺伝子にアクセスすることができます。
方法
公開データベース(GenBank、dbEST、GSS、Traceなど)から得られる数百万のcDNA配列は、単一のクローンからの5’と3’リードが同じ転写物に関連付けられるように注意しながら、ゲノム配列上で協調的にアライメントされています。 組織、ステージ、論文、分離方法などの有用な情報が収集される。 ゲノム上のAceViewアラインメントは、シーケンシングトレースと協同精製の分析から得られたシーケンシングエラーに関する知識を使用します。 通常、ESTやmRNAの全長にわたって取得されます(mRNAでは平均98.8%のアラインメント、0.2%のミスマッチ、ESTでは95.5%のアラインメント、1.4%のミスマッチ)。
複数のアラインメントを評価し、配列はゲノム全体の最適位置にのみ厳密に保持されています。 mRNAの1%未満、ESTの2%未満が最終的に複数の遺伝子でアラインされ、通常は1%程度の密接な繰り返し遺伝子でアラインされる。
次にcDNA配列を処理し、ベクターとポリAを切り落とし、間違った鎖で提出したと考えられるリードを反転し、小さな挿入または欠失多型が特定される。cDNAクローンの再配列や異常なアラインメントにはフラグを立て、(手作業に近い形で)フィルターをかけ、ユニークで貴重な情報を失わないようにするとともに、サポートが不十分な異常データでデータベースを汚染しないようにしている
残念ながら、ハイスループット配列決定までは、cDNA配列を得ることが困難だったので、cDNAライブラリーはまだ十分とはいえない。 しかし、分子遺伝子を定義する上で、最もクリーンで信頼性の高い情報である。 このため、ゲノム上の標準的なイントロンと一致する1つの良質なcDNA配列は、あるスプライシングされたmRNA断片の十分な証拠と考えられています。 一方、スプライスされていないアラインメントは、cDNAライブラリのゲノム汚染を反映している可能性があり、非コードシングルエクソン遺伝子は、6つ以上のアクセッションによってサポートされている場合にのみ報告されます。 5個以下のcDNAでサポートされている多数のシングルエクソンTARは、「the cloud」と呼ばれるものに属しています(UCSC Genome Browserでは表示されませんが、AceViewで注釈がつけられ、FTPサイトから別途ダウンロード可能です)
cDNA配列は最小数の代替転写バリアントにクラスター化されていて、人工的に完成したものよりも部分転写が優先されています。 配列は単純な接触によって連結されますが、各 cDNA アクセスが単一の alternative variant、できれば新しい配列情報をもたらすことなく静かに結合するものに貢献できるようにすることで、コンビネーションを回避しています。 その結果、完全長mRNAと互換性のあるすべての短いリードはその転写物に吸収され、他の互換性のない転写物を拡張するために使用されることはない。 アノテーションに使用される転写産物の主な配列は、ゲノム上の転写産物のフットプリントの配列であり、mRNAよりも質が高い。この手順により、配列決定エラーの最大2%が修正される。 一塩基の挿入、欠失、転移、トランスバージョンは mRNA ビューでグラフィカルに表示され、頻繁に SNP が明らかになります。
Putative protein-coding regions は mRNA 配列から予測され、BlastP、PFAM、Psort2、および他の種からの AceView タンパクとの比較を使ってアノテーションされます。
発現、cDNAサポート、組織特異性、代替転写物の配列、イントロンとエクソン、代替プロモーター、代替エクソン、代替ポリアデニル化部位は評価され、Acemblyウェブサイトの豊富な表で注釈が付けられている。
再構築された代替転写産物は、少なくとも1つの正確なイントロン境界を共有しているか、または実質的な配列の重複(一方の配列の80%が他方に含まれる)がある場合、遺伝子にグループ化されます。 コーディング遺伝子とノンコーディング遺伝子が定義され、アンチセンスの遺伝子にはフラグが立てられる。
AceView の遺伝子は、分子接触によって Entrez 遺伝子とマッチし、Entrez Gene 命名法にしたがって命名される。 また、Entrezにない新規の遺伝子については、AceViewは新しい遺伝子名を作成し、その遺伝子は公式またはEntrez遺伝子名を得るまでリリースからリリースまで維持される。
各遺伝子の知識は、PubMedサポートがある場合に注釈が付けられる。 また、機能的なアノテーションは、Entrez を含む他のソースから収集されています。 また、OMIMやGADに加え、テストされた疾患との関連性の候補がPubMedから直接抽出されている。 最後に、機能、パスウェイ、タンパク質複合体、GOアノテーション、疾患、細胞局在、またはすべての基準を総合した最も近縁な遺伝子のリストを提案し、研究開発を刺激している
Credits
ヒト、ワーム、マウスについてこのトラックを提供してくれたNCBIのDanielleとJean Thierry-Miegに感謝します