Beschreibung
Dieser Track zeigt AceView-Genmodelle, die von Danielle und Jean Thierry-Mieg am NCBI mit Hilfe ihres AceView-Programms auscDNA konstruiert wurden.
AceView ist insofern einzigartig, als es die Gene genomweit definiert, indem es nur, aber erschöpfend, die experimentellen cDNA-Sequenzen der Art selbst verwendet. Die Analyse nutzt hochentwickelte Algorithmen zur gemeinsamen Ausrichtung von cDNA und Genom sowie die Qualität der Genomsequenz, um eine umfassende und nicht redundante Darstellung der cDNA-Sequenzen aus GenBank, dbEST, GSS, Trace und RefSeq zu liefern. Die nächste Version im Laufe des Jahres 2011 wird auch die Daten enthalten, die im Rahmen des SEQC-Kooperationsprojekts unter der Leitung von Leming Shi von der FDA in SRA (oder einem assimilierten öffentlichen Repository) hinterlegt wurden und die von Helicos, Illumina, LifeTech SOLiD und Roche 454 bereitgestellten Hochdurchsatz-RNA-Sequenzen umfassen, die die Genmodelle erheblich verfeinern und bereichern.
In gewisser Weise stellen die AceView-Transkripte eine vollständig annotierte, nicht redundante „nr“-Sicht der öffentlichen RNAs dar, ohne Klonierungsartefakte, Verunreinigungen und Sequenzen schlechter Qualität. Die AceView-Transkripte stellen derzeit eine 10-fache Verdichtung im Vergleich zu den Rohdaten dar, bei minimalem Verlust an Sequenzinformationen.
87 % der öffentlichen RNA-Sequenzen werden in AceView zu alternativen Transkripten und Genen zusammengefasst, wodurch fast doppelt so viele Hauptgene wie „bekannte Gene“ bei Mensch und Maus identifiziert werden. 18 % bis 25 % der gespleißten Gene sind bei der Maus bzw. beim Menschen nicht codierend. Alternative Transkripte sind bei beiden Arten weit verbreitet. Das typische menschliche Gen produziert im Durchschnitt acht verschiedene alternativ gespleißte Formen von drei Promotoren und mit drei sich nicht überlappenden terminalen Exons. Es hat im Durchschnitt drei Kassettenexons und vier interne Donor- oder Akzeptorstellen. Die AceView-Website bietet darüber hinaus eine gründliche biologische Annotation der rekonstruierten Gene, einschließlich der Assoziation mit Krankheiten und der Gewebespezifität der alternativen Transkripte.
AceView kombiniert Respekt vor den experimentellen Daten mit einer umfassenden Qualitätskontrolle. In den ENCODE-Regionen sind die AceView-Transkripte kaum von den manuell kuratierten Gencode-Referenzgenen zu unterscheiden (siehe Thierry-Mieg, 2006, oder vergleichen Sie die beiden Spuren im Genome Browser), aber im gesamten Genom übersteigt die Anzahl der Transkripte Havana/Vega um das Dreifache und RefSeq um das Sechsfache.
Weitere Informationen zu den verschiedenen Genspuren finden Sie in unseren Genes FAQ.
Anzeigekonventionen und Konfiguration
Diese Spur folgt den Anzeigekonventionen für Genspuren. Alle bei UCSC angezeigten Genmodelle gehören zur Klasse „cDNA-unterstützt“ und werden in rosa angezeigt.
Die Seite zur Beschreibung der Spur bietet die folgenden Filter- und Konfigurationsoptionen:
- Farbspur nach Codons: Wählen Sie die Option „Genomische Codons“, um jedes Codon in einer vergrößerten Darstellung einzufärben und zu kennzeichnen, um die Validierung und den Vergleich mit Genvorhersagen zu erleichtern. Klicken Sie auf den Hilfelink „Codonfärbung“ auf der Track-Beschreibungsseite, um weitere Informationen zu dieser Funktion zu erhalten.
Klicken Sie auf der Detailseite eines einzelnen Transkripts auf „AceView Gene Summary“, um das Gen auf der NCBI AceView-Website aufzurufen.
Methoden
Die Millionen von cDNA-Sequenzen, die in den öffentlichen Datenbanken (GenBank, dbEST, GSS, Traces usw.) verfügbar sind, werden gemeinsam an der Genomsequenz ausgerichtet, wobei darauf geachtet wird, dass die gepaarten 5′- und 3′-Reads von einzelnen Klonen mit demselben Transkript assoziiert bleiben. Nützliche Informationen über Gewebe, Stadium, Veröffentlichungen, Isolierungsverfahren usw. werden erfasst. AceView-Alignments am Genom nutzen das Wissen über Sequenzierungsfehler, das aus der Analyse von Sequenzierungsspuren und kooperativen Verfeinerungen gewonnen wird. Sie werden in der Regel über die gesamte Länge der EST oder mRNA erhalten (durchschnittlich 98,8 % Alignments, 0,2 % Mismatches bei mRNAs bzw. 95,5 % Alignments, 1,4 % Mismatches bei ESTs).
Mehrere Alignments werden ausgewertet, und die Sequenzen werden genomweit stringent nur an ihrer besten Position gehalten. Weniger als 1 % der mRNAs und weniger als 2 % der ESTs werden schließlich in mehr als einem Gen ausgerichtet, in der Regel in den ~1 % eng wiederholten Genen.
Die cDNA-Sequenzen werden dann bearbeitet und gereinigt: die Vektoren und polyA werden abgeschnitten, die vermutlich auf dem falschen Strang eingereichten Reads werden umgedreht und die kleinen Insertions- oder Deletionspolymorphismen werden identifiziert.Eventuelle Umlagerungen von cDNA-Klonen oder anomale Alignments werden markiert und gefiltert (ähnlich wie von Hand), um keine wertvollen Informationen zu verlieren und gleichzeitig eine Verschmutzung der Datenbank mit schlecht unterstützten anomalen Daten zu vermeiden.
Leider sind cDNA-Bibliotheken noch weit von einer Sättigung entfernt, denn bis zur Hochdurchsatzsequenzierung waren cDNA-Sequenzen schwer zu erhalten. Dennoch sind sie die saubersten und zuverlässigsten Informationen, um die molekularen Gene zu definieren. Aus diesem Grund wird eine einzige cDNA-Sequenz von guter Qualität, die mit Standard-Introns im Genom abgeglichen ist, als ausreichender Beweis für ein bestimmtes gespleißtes mRNA-Fragment angesehen. Im Gegensatz dazu könnten nicht gespleißte Alignments eine genomische Kontamination von cDNA-Bibliotheken widerspiegeln, und nicht kodierende Einzel-Exon-Gene werden nur gemeldet, wenn sie von sechs oder mehr Akzessionen unterstützt werden. Die zahlreichen Einzel-Exon-TARs, die von 5 oder weniger cDNAs unterstützt werden, gehören zur so genannten „Wolke“ (die nicht im UCSC Genome Browser angezeigt wird, sondern in AceView annotiert ist und separat von der FTP-Website heruntergeladen werden kann).
Die cDNA-Sequenzen werden zu einer minimalen Anzahl alternativer Transkriptvarianten geclustert, wobei partielle Transkripte den künstlich vervollständigten vorgezogen werden. Die Sequenzen werden durch einfachen Kontakt zusammengefügt, aber die Kombinatorik wird vermieden, indem jeder cDNA-Zugang zu einer einzigen alternativen Variante beiträgt, vorzugsweise einer, bei der er stillschweigend verschmilzt, ohne neue Sequenzinformationen zu liefern. Infolgedessen werden alle kürzeren Reads, die mit einer mRNA in voller Länge kompatibel sind, in diesem Transkript absorbiert und nicht zur Erweiterung anderer inkompatibler Transkripte verwendet.
Bei etwa 70 % der Varianten, die auf der Acembly-Site eindeutig identifiziert werden, wird die gesamte proteinkodierende Region von einer einzigen cDNA unterstützt; bei den anderen kann es sich um unerlaubte Verkettungen handeln, die aufgespalten und anders zugeordnet werden können, wenn mehr Daten zur Verfügung stehen. Die für die Annotation verwendete Hauptsequenz des Transkripts ist die des Fußabdrucks des Transkripts auf dem Genom, der von besserer Qualität ist als die mRNAs: Dieses Verfahren korrigiert bis zu 2 % der Sequenzierungsfehler. Einzelne Baseneinfügungen, -deletionen, -übergänge oder -transversionen werden in der mRNA-Ansicht grafisch dargestellt, wobei häufige SNPs deutlich werden.
Putative proteinkodierende Regionen werden aus der mRNA-Sequenz vorhergesagt und mit Hilfe von BlastP, PFAM, Psort2 und dem Vergleich mit AceView-Proteinen anderer Arten annotiert. Die besten Proteine werden bewertet (siehe die Aceview-Übersicht auf der Acembly-Website), und die Transkripte werden als proteinkodierend oder nicht-kodierend vorgeschlagen.
Expression, cDNA-Unterstützung, Gewebespezifität, Sequenzen alternativer Transkripte, Introns und Exons, alternative Promotoren, alternative Exons und alternative Polyadenylierungsstellen werden bewertet und in umfangreichen Tabellen auf der Acembly-Website annotiert.
Die rekonstruierten alternativen Transkripte werden dann zu Genen gruppiert, wenn sie mindestens eine exakte Intron-Grenze aufweisen oder wenn sie eine erhebliche Sequenzüberlappung haben (80 % der Sequenz des einen in der des anderen enthalten). Es werden kodierende und nicht kodierende Gene definiert, und Gene in Antisense werden markiert.
AceView-Gene werden durch molekularen Kontakt mit Entrez-Genen abgeglichen und gemäß der Entrez-Gen-Nomenklatur benannt. Für neue Gene, die nicht in Entrez enthalten sind, erstellt AceView neue Gennamen, die von Version zu Version beibehalten werden, bis die Gene einen offiziellen oder Entrez-Gennamen erhalten.
Wissen über jedes Gen wird annotiert, sofern PubMed-Unterstützung vorhanden ist. Ausgewählte funktionelle Annotationen werden aus anderen Quellen, einschließlich Entrez, zusammengetragen. Darüber hinaus werden Kandidaten für getestete Krankheitsassoziationen direkt aus PubMed sowie aus OMIM und GAD extrahiert. Schließlich werden Listen der am engsten verwandten Gene nach Funktion, Weg, Proteinkomplex, GO-Annotation, Krankheit, zellulärer Lokalisierung oder allen Kriterien zusammen vorgeschlagen, um Forschung und Entwicklung anzuregen.
Credits
Danke an Danielle und Jean Thierry-Mieg am NCBI für die Bereitstellung dieser Spur für Mensch, Wurm und Maus.