Description
Dit spoor toont AceView-genmodellen die zijn geconstrueerd uit cDNA door Danielle en Jean Thierry-Mieg bij het NCBI, met behulp van hun AceView-programma.
AceView is uniek in die zin dat het de genen genoombreed definieert door alleen, maar uitputtend, de experimentele cDNA-sequenties van de soort zelf te gebruiken. De analyse maakt gebruik van geavanceerde cDNA-naar-genoom co-alignment algoritmen en de kwaliteit van de genoomsequentie om een uitgebreide en niet-redundante weergave van de GenBank, dbEST, GSS, Trace en RefSeq cDNA-sequenties te bieden. De volgende release, later in 2011, zal ook de gegevens bevatten die in SRA (of geassimileerde openbare databank) zijn gedeponeerd als onderdeel van het SEQC-samenwerkingsproject onder leiding van Leming Shi van de FDA en waarbij high throughput RNA-sequenties worden gebruikt die zijn geleverd door Helicos, Illumina, LifeTech SOLiD en Roche 454, die de genmodellen sterk verfijnen en verrijken.
In zekere zin vertegenwoordigen de AceView-transcripten een volledig geannoteerde, niet-redundante “nr”-weergave van de openbare RNA’s, minus kloneringsartefacten, verontreinigingen en sequenties van slechte kwaliteit. AceView transcripten vertegenwoordigen momenteel een 10-voudige verdichting ten opzichte van de ruwe gegevens, met minimaal verlies van sequentie-informatie.
87% van de openbare RNA-sequenties zijn samengevoegd tot AceView alternatieve transcripten en genen, waardoor bijna tweemaal zoveel hoofdgenen worden geïdentificeerd als er “bekende genen” zijn in zowel mens als muis. 18% tot 25% van de gesplitste genen blijken niet-coderend, in muis en mens respectievelijk. Alternatieve transcripten zijn bij beide soorten prominent aanwezig. Het typische menselijke gen produceert gemiddeld acht verschillende alternatief gesplicte vormen vanuit drie promotors en met drie niet-overlappende terminale exonen. Het heeft gemiddeld drie cassette-exonen en vier interne donor- of acceptorplaatsen. De AceView-site stelt verder een grondige biologische annotatie van de gereconstrueerde genen voor, inclusief associatie met ziekten en weefselspecificiteit van de alternatieve transcripten.
AceView combineert respect voor de experimentele gegevens met een uitgebreide kwaliteitscontrole. Geëvalueerd in de ENCODE-regio’s zijn de AceView-transcripten bijna niet te onderscheiden van de handmatig gecureerde Gencode-referentiegenen (zie Thierry-Mieg, 2006, of vergelijk de twee sporen in de Genome Browser), maar over het gehele genoom overtreft het aantal transcripten Havana/Vega met een factor drie en RefSeq met een factor zes.
Voor meer informatie over de verschillende gen-sporen, zie onze Genen FAQ.
Weergaveconventies en configuratie
Deze track volgt de weergaveconventies voor gen-sporen. Alle genmodellen die bij UCSC worden weergegeven, behoren tot de klasse “cDNA-ondersteund” en worden in roze weergegeven.
De pagina met de beschrijving van het spoor biedt de volgende filter- en configuratieopties:
- Kleurspoor op codons: Selecteer de optie genomische codons om elk codon in te kleuren en te labelen in een ingezoomde weergave om validatie en vergelijking met genvoorspellingen te vergemakkelijken. Klik op de link Codon coloring help op de pagina met de beschrijving van het spoor voor meer informatie over deze functie.
Klik op de “AceView Gene Summary” op de detailpagina van een individueel transcript om toegang te krijgen tot het gen op de NCBI AceView-website.
Methods
De miljoenen cDNA-sequenties die uit de openbare databanken (GenBank, dbEST, GSS, Traces, enz.) beschikbaar zijn, worden samen op de genoomsequentie uitgelijnd, waarbij ervoor wordt gezorgd dat de gepaarde 5′- en 3′-reads van afzonderlijke klonen in hetzelfde transcript geassocieerd blijven. Nuttige informatie over weefsel, stadium, publicaties, isolatieprocedure enzovoort wordt verzameld. AceView-uitlijningen op het genoom maken gebruik van kennis over sequencing-fouten die wordt verkregen door analyse van sequencing-sporen en coöperatieve verfijningen. Zij worden gewoonlijk verkregen over de gehele lengte van de EST of het mRNA (gemiddeld 98,8% aligned, 0,2% mismatches in mRNA’s of 95,5% aligned, 1,4% mismatches in EST’s).
Meerdere alignments worden geëvalueerd en de sequenties worden strikt genomen alleen in hun beste positie genoombreed gehouden. Minder dan 1% van de mRNA’s en minder dan 2% van de EST’s zal uiteindelijk worden uitgelijnd in meer dan een gen, meestal in de ~ 1% nauw herhaalde genen.
De cDNA-sequenties worden vervolgens verwerkt en schoongemaakt: de vectoren en polyA worden geknipt, de leest vermoedelijk ingediend op de verkeerde streng worden omgedraaid, en de kleine insertie of deletie polymorfismen worden geïdentificeerd.Eventuele cDNA-kloon herschikkingen of afwijkende alignments worden gemarkeerd en gefilterd (verwant aan handmatig) om geen unieke waardevolle informatie te verliezen, terwijl verontreiniging van de database met slecht ondersteunde afwijkende data.
Helaas, cDNA bibliotheken zijn nog lang niet verzadigd, want tot aan de high throughput sequencing, cDNA sequenties waren moeilijk te verkrijgen. Toch zijn zij de schoonste en betrouwbaarste informatie om de moleculaire genen te definiëren. Daarom wordt één cDNA-sequentie van goede kwaliteit, uitgelijnd met standaardintronen op het genoom, beschouwd als voldoende bewijs voor een bepaald gespliced mRNA-fragment. Niet-gesplitste alignments daarentegen zouden een weerspiegeling kunnen zijn van genomische contaminatie van cDNA-bibliotheken, en niet-coderende single exon-genen worden alleen gerapporteerd als zij door zes of meer accessies worden ondersteund. De talrijke single exon TAR’s die door 5 of minder cDNA’s worden ondersteund, behoren tot wat “de wolk” wordt genoemd (niet weergegeven op de UCSC Genome Browser, maar geannoteerd in AceView en afzonderlijk te downloaden van de ftp-site).
De cDNA-sequenties zijn geclusterd tot een minimaal aantal alternatieve transcriptvarianten, waarbij de voorkeur wordt gegeven aan partiële transcripten boven kunstmatig voltooide transcripten. Sequenties worden aaneengeschakeld door eenvoudig contact, maar de combinatoriek wordt vermeden door elke cDNA-toetreding bij te laten dragen aan een enkele alternatieve variant, bij voorkeur een waarbij deze geruisloos fuseert zonder nieuwe sequentie-informatie te brengen. Bijgevolg zullen alle kortere lezingen die compatibel zijn met een volledig mRNA in dat transcript worden geabsorbeerd en niet worden gebruikt om andere incompatibele transcripten uit te breiden.
Bijna 70% van de varianten, die duidelijk op de Acembly site zijn geïdentificeerd, hebben hun volledige eiwitcoderende regio die door een enkel cDNA wordt ondersteund; de andere kunnen ongeoorloofde aaneenschakelingen zijn die kunnen worden gesplitst en anders geassocieerd wanneer meer gegevens beschikbaar komen. De belangrijkste sequentie van het transcript dat in de annotatie wordt gebruikt, is die van de voetafdruk van het transcript op het genoom, die van betere kwaliteit is dan de mRNA’s: deze procedure corrigeert tot 2% van de sequencing-fouten. Single base insertie, deletie, transitie of transversie wordt grafisch weergegeven in de mRNA view, waar frequente SNPs duidelijk worden.
Putatieve eiwit-coderende regio’s worden voorspeld uit de mRNA sequentie en geannoteerd met behulp van BlastP, PFAM, Psort2, en vergelijking met AceView eiwitten van andere soorten. De beste eiwitten krijgen een score (zie het Aceview-overzicht op de Acembly-site) en de transcripten worden voorgesteld als eiwitcoderend of niet-coderend.
Expressie, cDNA-ondersteuning, weefselspecificiteit, sequenties van alternatieve transcripten, introns en exons, alternatieve promotors, alternatieve exons en alternatieve polyadenyleringsplaatsen worden geëvalueerd en geannoteerd in rijke tabellen op de Acembly-website.
De gereconstrueerde alternatieve transcripten worden vervolgens gegroepeerd in genen als ze delen ten minste een exacte intron grens of als ze aanzienlijke sequentie overlap (80% van de sequentie van een opgenomen in de andere). Coderende en niet-coderende genen worden gedefinieerd, en genen in antisense worden gemarkeerd.
AceView genen worden door moleculair contact gematched met Entrez genen en benoemd volgens de Entrez Gene nomenclatuur. Voor nieuwe genen die niet in Entrez staan, creëert AceView nieuwe gennamen die van release tot release worden gehandhaafd totdat de genen een officiële of Entrez-gennaam krijgen.
Voor elk gen wordt een annotatie gemaakt, mits er PubMed-ondersteuning is. Geselecteerde functionele annotaties worden verzameld uit andere bronnen, waaronder Entrez. Bovendien worden kandidaat-geteste ziekteassociaties rechtstreeks uit PubMed gehaald, naast OMIM en GAD. Tenslotte worden lijsten van de meest verwante genen door functie, pathway, eiwitcomplex, GO annotatie, ziekte, cellulaire lokalisatie of alle criteria samen voorgesteld, om onderzoek en ontwikkeling te stimuleren.
Credits
Dank aan Danielle en Jean Thierry-Mieg bij NCBI voor het verstrekken van deze track voor mens, worm en muis.