Description
Cette piste montre des modèles de gènes AceView construits à partir d’ADNc par Danielle et Jean Thierry-Mieg au NCBI, en utilisant leur programme AceView.
AceView est unique en ce qu’il définit les gènes à l’échelle du génome en utilisant uniquement,mais de manière exhaustive, les séquences d’ADNc expérimentales de l’espèce elle-même. L’analyse exploite des algorithmes sophistiqués de co-alignement ADNc-génome et la qualité de la séquence du génome pour fournir une représentation complète et non redondante des séquences d’ADNc GenBank, dbEST, GSS, Trace et RefSeq. La prochaine version, plus tard en 2011, inclura également les données déposées dans SRA (ou référentiel public assimilé) dans le cadre du projet collaboratif SEQC dirigé par Leming Shi de la FDA et impliquant des séquences d’ARN à haut débit fournies par Helicos, Illumina, LifeTech SOLiD et Roche 454, qui affinent et enrichissent considérablement les modèles génétiques.
D’une certaine manière, les transcriptions AceView représentent une vue non redondante « nr » entièrement annotée des ARN publics, moins les artefacts de clonage, les contaminations et les séquences de mauvaise qualité. Les transcriptions AceView représentent actuellement une compaction 10 fois supérieure à celle des données brutes, avec une perte minimale d’informations sur les séquences.
87% des séquences d’ARN publiques sont fusionnées en transcriptions et gènes alternatifs AceView, identifiant ainsi près de deux fois plus de gènes principaux qu’il n’y a de « gènes connus » chez l’homme et la souris. 18% à 25% des gènes épissés apparaissent non codants, chez la souris et l’homme respectivement. Les transcriptions alternatives sont importantes dans les deux espèces. Le gène humain typique produit en moyenne huit formes distinctes épissées alternativement à partir de trois promoteurs et avec trois exons terminaux non chevauchants. Il possède en moyenne trois exons de cassette et quatre sites donneurs ou accepteurs internes. Le site AceView propose en outre une annotation biologique approfondie des gènes reconstruits, y compris l’association à des maladies et la spécificité tissulaire des transcriptions alternatives.
AceView combine le respect des données expérimentales avec un contrôle de qualité étendu. Évalués dans les régions ENCODE, les transcrits AceView sont proches ou indiscernables des gènes de référence Gencode conservés manuellement (voir Thierry-Mieg, 2006, ou comparer les deux pistes dans le Genome Browser), mais sur l’ensemble du génome, le nombre de transcrits dépasse Havana/Vega d’un facteur trois et RefSeq d’un facteur six.
Pour plus d’informations sur les différentes pistes de gènes, consultez notre FAQ sur les gènes.
Conventions d’affichage et configuration
Cette piste suit les conventions d’affichage des pistes de gènes. Tous les modèles de gènes affichés à l’UCSC sont dans la classe « cDNA-supported » et sont affichés en rose.
La page de description de la piste offre les options de filtre et de configuration suivantes :
- Piste de couleur par codons : Sélectionnez l’option codons génomiquespour colorer et étiqueter chaque codon dans un affichage zoomé afin de faciliter la validation et la comparaison avec les prédictions génétiques. Cliquez sur le lien d’aide de coloration des codons sur la page de description de la piste pour plus d’informations sur cette fonctionnalité.
Cliquez sur le « Résumé du gène AceView » sur la page de détails d’une transcription individuelle pour accéder au gène sur le site Web AceView du NCBI.
Méthodes
Les millions de séquences d’ADNc disponibles dans les bases de données publiques (GenBank, dbEST, GSS, Traces, etc.) sont alignées en coopération sur la séquence du génome, en prenant soin de conserver les lectures appariées 5′ et 3′ des clones uniques associés dans le même transcrit. Des informations utiles sur le tissu, le stade, les publications, la procédure d’isolement, etc. sont recueillies. Les alignements AceView sur le génome utilisent les connaissances sur les erreurs de séquençage acquises par l’analyse des traces de séquençage et les raffinements coopératifs. Ils sont généralement obtenus sur toute la longueur de l’EST ou de l’ARNm (en moyenne 98,8 % d’alignements, 0,2 % de mésappariements dans les ARNm ou 95,5 % d’alignements, 1,4 % de mésappariements dans les EST).
Des alignements multiples sont évalués et les séquences sont rigoureusement conservées uniquement dans leur meilleure position à l’échelle du génome. Moins de 1% des ARNm et moins de 2% des EST seront finalement alignés dans plus d’un gène, généralement dans les ~1% de gènes étroitement répétés.
Les séquences d’ADNc sont ensuite traitées et nettoyées : les vecteurs et le polyA sont coupés, les lectures vraisemblablement soumises sur le mauvais brin sont inversées, et les petits polymorphismes d’insertion ou de délétion sont identifiés.Les éventuels réarrangements de clones d’ADNc ou les alignements anormaux sont signalés et filtrés (à la manière d’un travail manuel) afin de ne pas perdre des informations précieuses uniques tout en évitant de polluer la base de données avec des données anormales mal supportées.
Malheureusement, les bibliothèques d’ADNc sont encore loin de la saturation, car jusqu’au séquençage à haut débit, les séquences d’ADNc étaient difficiles à obtenir. Pourtant, elles constituent l’information la plus propre et la plus fiable pour définir les gènes moléculaires. Pour cette raison, une seule séquence d’ADNc de bonne qualité, alignée avec les introns standard du génome, est considérée comme une preuve suffisante pour un fragment d’ARNm épissé donné. En revanche, les alignements non épissés pourraient refléter une contamination génomique des bibliothèques d’ADNc, et les gènes non codants à exon unique ne sont signalés que s’ils sont soutenus par six accessions ou plus. Les nombreux TAR à exon unique soutenus par 5 ou moins d’ADNc appartiennent à ce que l’on appelle ‘le nuage’ (non affiché sur le UCSC Genome Browser,mais annoté dans AceView et téléchargeable séparément sur le site ftp).
Les séquences d’ADNc sont regroupées en un nombre minimal de variantes de transcription alternatives, préférant les transcriptions partielles aux transcriptions complétées artificiellement. Les séquences sont concaténées par simple contact, mais la combinatoire est évitée en permettant à chaque accession d’ADNc de contribuer à une seule variante alternative, de préférence une où elle fusionne silencieusement sans apporter de nouvelles informations de séquence. En conséquence, toutes les lectures plus courtes compatibles avec un ARNm complet seront absorbées dans ce transcrit et ne seront pas utilisées pour étendre d’autres transcrits incompatibles.
Environ 70 % des variantes, clairement identifiées sur le site Acembly, ont leur région codante protéique entière supportée par un seul ADNc ; les autres peuvent être des concaténations illicites qui peuvent être divisées et associées différemment lorsque davantage de données seront disponibles. La séquence principale du transcrit utilisée dans l’annotation est celle de l’empreinte du transcrit sur le génome, qui est de meilleure qualité que les ARNm : cette procédure permet de corriger jusqu’à 2% des erreurs de séquençage. L’insertion, la délétion, la transition ou la transversion d’une seule base est représentée graphiquement dans la vue de l’ARNm, où les SNP fréquents deviennent évidents.
Les régions codant pour les protéines sont prédites à partir de la séquence de l’ARNm et annotées en utilisant BlastP, PFAM, Psort2, et la comparaison avec les protéines AceView d’autres espèces. Les meilleures protéines sont notées (voir l’aperçuAceview sur le site d’Acembly) et les transcrits sont proposés de manière putative comme étant codants ou non codants de protéines.
L’expression, le support d’ADNc, la spécificité tissulaire, les séquences de transcrits alternatifs, les introns et les exons, les promoteurs alternatifs, les exons alternatifs et les sites de polyadénylation alternatifs sont évalués et annotés dans des tableaux riches sur le site web d’Acembly.
Les transcrits alternatifs reconstruits sont ensuite regroupés en gènes s’ils partagent au moins une limite d’intron exacte ou s’ils ont un chevauchement de séquence substantiel (80% de la séquence de l’un inclus dans l’autre). Les gènes codants et non codants sont définis, et les gènes en antisens sont signalés.
Les gènes AceView sont appariés par contact moléculaire aux gènes Entrez et nommés selon la nomenclature Entrez Gene. Pour les nouveaux gènes qui ne figurent pas dans Entrez, AceView crée de nouveaux noms de gènes qui sont maintenus d’une version à l’autre jusqu’à ce que les gènes reçoivent un nom de gène officiel ou Entrez.
Les connaissances sur chaque gène sont annotées à condition qu’il y ait un support PubMed. Les annotations fonctionnelles sélectionnées sont rassemblées à partir d’autres sources, y compris Entrez. En outre, les associations de maladies testées candidates sont extraites directement de PubMed, en plus de OMIM et GAD. Enfin, des listes des gènes les plus étroitement liés par fonction, voie, complexe protéique, annotation GO, maladie, localisation cellulaire ou tous critères confondus sont proposées, afin de stimuler la recherche et le développement.
Crédits
Merciements à Danielle et Jean Thierry-Mieg au NCBI pour avoir fourni cette piste pour l’homme, le ver et la souris.