Beskrivning
Detta spår visar AceView-genmodeller som konstruerats fråncDNA av Danielle och Jean Thierry-Mieg vid NCBI, med hjälp av deras AceView-program.
AceView är unikt i det avseendet att det definierar generna genomövergripande genom att endast, men uttömmande, använda experimentella cDNA-sekvenser från arten själv. Analysen utnyttjar sofistikerade algoritmer för samjustering av cDNA till genomet och kvaliteten på genomsekvensen för att ge en heltäckande och icke-redundant representation av GenBank-, dbEST-, GSS-, Trace- och RefSeq-cDNA-sekvenserna. Nästa version, senare under 2011, kommer också att innehålla de data som deponerats i SRA (eller assimilated public repository) som en del av samarbetsprojektet SEQC som leds av Leming Shi från FDA och som inbegriper RNA-sekvenser med hög kapacitet som tillhandahålls av Helicos, Illumina, LifeTech SOLiD och Roche 454, vilket i hög grad förfinar och berikar genmodellerna.
På sätt och vis representerar AceView-transkriptionerna en fullständigt annoterad icke-redundant ”nr”-vy av de offentliga RNA:erna, minus kloningsartefakter, föroreningar och sekvenser av dålig kvalitet. AceView-transkriptioner representerar för närvarande en 10 gånger större komprimering i förhållande till rådata, med minimal förlust av sekvensinformation.
87 % av de offentliga RNA-sekvenserna är sammanfogade till AceView:s alternativa transkriptioner och gener, och därigenom identifieras nästan dubbelt så många huvudgener som det finns ”kända gener” hos både människa och mus. 18-25 % av de splicade generna verkar vara icke-kodande, hos mus och människa. Alternativa transkript är framträdande hos båda arterna. Den typiska mänskliga genen producerar i genomsnitt åtta olika alternativt splicade former från tre promotorer och med tre terminala exoner som inte överlappar varandra. Den har i genomsnitt tre exon-kassetter och fyra interna donator- eller acceptorplatser. På AceView-webbplatsen föreslås dessutom en grundlig biologisk annotering av de rekonstruerade generna, inklusive koppling till sjukdomar och vävnadsspecificitet hos de alternativa transkriptionerna.
AceView kombinerar respekt för experimentella data med omfattande kvalitetskontroll. Utvärderat i ENCODE-regionerna är AceView-transkriptionerna nära nog omöjliga att skilja från de manuellt kurerade Gencode-referensgenerna (se Thierry-Mieg, 2006, eller jämför de två spåren i Genome Browser), men över hela genomet överstiger antalet transkriptioner Havana/Vega med en faktor tre och RefSeq med en faktor sex.
För mer information om de olika genspåren, se vår FAQ om gener.
Displaykonventioner och konfiguration
Detta spår följer visningskonventionerna för genspår. Alla genmodeller som visas vid UCSC tillhör klassen ”cDNA-supported” och visas i rosa.
Sidan för spårbeskrivning erbjuder följande filter- och konfigurationsalternativ:
- Färgspår efter kodoner: Välj alternativet genomiska kodoner för att färglägga och märka varje kodon i en inzoomad visning för att underlätta validering och jämförelse med genprediktioner. Klicka på länken Codon coloring help på sidan för spårbeskrivning för mer information om den här funktionen.
Klicka på ”AceView Gene Summary” (AceView-genöversikt) på sidan för detaljer om en enskild transkription för att få tillgång till genen på NCBI:s AceView-webbplats.
Metoder
De miljontals cDNA-sekvenser som finns tillgängliga från de offentliga databaserna (GenBank, dbEST, GSS, Traces osv.) anpassas i samarbete med genomsekvensen, varvid man ser till att de parade 5′- och 3′-avläsningarna från enskilda kloner är associerade i samma transkript. Användbar information om vävnad, stadium, publikationer, isoleringsförfarande och så vidare samlas in. AceViews anpassningar till genomet använder kunskap om sekvenseringsfel som erhållits genom analys av sekvenseringsspår och kooperativa förfiningar. De erhålls vanligen över hela EST- eller mRNA-längden (i genomsnitt 98,8 % anpassat, 0,2 % felmatchningar i mRNA eller 95,5 % anpassat, 1,4 % felmatchningar i EST).
Flera anpassningar utvärderas och sekvenserna behålls stringent endast i sin bästa position genomöver hela genomet. Mindre än 1 % av mRNA:erna och mindre än 2 % av EST:erna kommer i slutändan att anpassas i mer än en gen, vanligen i de ~1 % nära upprepade generna.
CDNA-sekvenserna bearbetas och rensas sedan: vektorerna och polyA klipps bort, de läsningar som förmodligen lämnats in på fel sträng vänds om, och de små insättnings- eller deletionspolymorfismerna identifieras.Eventuella cDNA-klonomläggningar eller onormala anpassningar markeras och filtreras (liknande manuellt) för att inte förlora unik värdefull information och samtidigt undvika förorening av databasen med dåligt understödda onormala data.
Tyvärr är cDNA-biblioteken fortfarande långt ifrån mättade, eftersom cDNA-sekvenser fram till sekvensering med hög genomströmning var svåra att få tag på. Ändå är de den renaste och mest tillförlitliga informationen för att definiera de molekylära generna. Av denna anledning anses en enda cDNA-sekvens av god kvalitet, anpassad till standardintroner i genomet, vara ett tillräckligt bevis för ett visst spliced mRNA-fragment. Däremot kan icke-spliced alignements återspegla genomisk kontaminering av cDNA-bibliotek, och icke-kodande single exon-gener rapporteras endast om de stöds av sex eller fler accessioner. De många single exon TARs som stöds av 5 eller färre cDNAs tillhör det som kallas ”molnet” (visas inte i UCSC Genome Browser, men är annoterade i AceView och kan laddas ner separat från ftp-webbplatsen).
De cDNA-sekvenser som finns är grupperade i ett minimalt antal alternativa transkriptvarianter, där man föredrar partiella transkript framför artificiellt färdigställda transkript. Sekvenserna sammanfogas genom enkel kontakt, men kombinatoriken undviks genom att låta varje cDNA-tillträde bidra till en enda alternativ variant, företrädesvis en variant där den slås samman i tysthet utan att tillföra någon ny sekvensinformation. Som ett resultat av detta kommer alla kortare läsningar som är kompatibla med ett mRNA i full längd att absorberas i den transkriptet och kommer inte att användas för att förlänga andra inkompatibla transkript.
Omkring 70 % av varianterna, som är tydligt identifierade på Acembly-webbplatsen, har hela den proteinkodande regionen som stöds av ett enda cDNA; de övriga kan vara otillåtna sammanlänkningar som kan delas upp och associeras på ett annat sätt när fler data blir tillgängliga. Transkriptets huvudsekvens som används i annoteringen är transkriptets fotspår på genomet, som är av bättre kvalitet än mRNA:erna: detta förfarande korrigerar upp till 2 % av sekvenseringsfelen. Insättning, borttagning, övergång eller transversion av en enda bas visas grafiskt i mRNA-vyn, där frekventa SNP:er blir uppenbara.
Putativa proteinkodande regioner förutsägs från mRNA-sekvensen och annoteras med hjälp av BlastP, PFAM, Psort2 och jämförelse med AceView-proteiner från andra arter. De bästa proteinerna poängsätts (se Aceview Overview på Acembly-webbplatsen) och transkriptioner föreslås vara proteinkodande eller icke-kodande.
Expression, cDNA-stöd, vävnadsspecificitet, sekvenser av alternativa transkriptioner, introner och exoner, alternativa promotorer, alternativa exoner och alternativa polyadenyleringsställen utvärderas och kommenteras i rika tabeller på Acembly-webbplatsen.
De rekonstruerade alternativa transkriptionerna grupperas sedan till gener om de delar minst en exakt introngräns eller om de har betydande sekvensöverlappning (80 % av sekvensen i den ena ingår i den andra). Kodande och icke-kodande gener definieras, och gener i antisense markeras.
AceView-gener matchas genom molekylär kontakt med Entrez-gener och namnges enligt Entrez Gene-nomenklaturen. För nya gener som inte finns i Entrez skapar AceView nya gennamn som bibehålls från utgåva till utgåva tills generna får ett officiellt eller Entrez-gennamn.
Kunskap om varje gen kommenteras förutsatt att det finns PubMed-stöd. Utvalda funktionella annotationer hämtas från andra källor, inklusive Entrez. Dessutom extraheras kandidat testade sjukdomsassociationer direkt från PubMed, utöver OMIM och GAD. Slutligen föreslås listor över de närmast besläktade generna efter funktion, väg, proteinkomplex, GO-annotation, sjukdom, cellulär lokalisering eller alla kriterier tillsammans, för att stimulera forskning och utveckling.
Credits
Tack till Danielle och Jean Thierry-Mieg på NCBI för att de har tillhandahållit detta spår för människa, mask och mus.