Beskrivelse
Dette track viser AceView-genmodeller, der er konstrueret ud fracDNA af Danielle og Jean Thierry-Mieg på NCBI ved hjælp af deres AceView-program.
AceView er enestående, idet det definerer generne på tværs af genomet ved kun at bruge de eksperimentelle cDNA-sekvenser fra arten selv, men udtømmende. Analysen udnytter sofistikerede cDNA-til-genom-koligneringsalgoritmer og kvaliteten af genomsekvensen til at give en omfattende og ikke-redundant repræsentation af GenBank-, dbEST-, GSS-, Trace- og RefSeq-cDNA-sekvenserne. Den næste udgave, senere i 2011, vil også omfatte de data, der er deponeret i SRA (eller assimileret offentligt arkiv) som led i SEQC-samarbejdsprojektet under ledelse af Leming Shi fra FDA, og som omfatter high throughput RNA-sekvenser leveret af Helicos, Illumina, LifeTech SOLiD og Roche 454, der i høj grad forfiner og beriger genmodellerne.
På en måde repræsenterer AceView-transskriptionerne en fuldt annoteret ikke-redundant “nr”-visning af de offentlige RNA’er, minus kloningsartefakter, forureninger og sekvenser af dårlig kvalitet. AceView-transskriptioner repræsenterer i øjeblikket en 10 gange større komprimering i forhold til de rå data med et minimalt tab af sekvensinformation.
87% af de offentlige RNA-sekvenser er samlet i AceView alternative transskriptioner og gener, hvorved der identificeres næsten dobbelt så mange hovedgener, som der er “kendte gener” i både mennesker og mus. 18 % til 25 % af de splejsede gener forekommer ikke-kodende, henholdsvis hos mus og menneske. Alternative transkriptioner er fremtrædende hos begge arter. Det typiske humane gen producerer i gennemsnit otte forskellige alternativt splejsede former fra tre promotorer og med tre terminale exoner, der ikke overlapper hinanden. Det har i gennemsnit tre kassetteeksoner og fire interne donor- eller acceptorsteder. AceView-webstedet foreslår desuden en grundig biologisk annotation af de rekonstruerede gener, herunder tilknytning til sygdomme og vævsspecificitet for de alternative transskriptioner.
AceView kombinerer respekt for de eksperimentelle data med omfattende kvalitetskontrol. Vurderet i ENCODE-regionerne er AceView-transskriptioner tæt på ikke at kunne skelnes fra de manuelt kuraterede Gencode-referencegener (se Thierry-Mieg, 2006, eller sammenlign de to spor i Genome Browser), men over hele genomet overstiger antallet af transskriptioner Havana/Vega med en faktor tre og RefSeq med en faktor seks.
For flere oplysninger om de forskellige genspor, se vores ofte stillede spørgsmål om gener.
Anvisningskonventioner og konfiguration
Dette spor følger visningskonventionerne for genspor. Alle genmodeller, der vises på UCSC, er i klassen “cDNA-supported” og vises med lyserødt.
Siden med sporbeskrivelse tilbyder følgende filter- og konfigurationsmuligheder:
- Farvespor efter kodoner: Vælg indstillingen genomiske kodoner for at farve og mærke hver enkelt kodon i en indzoomet visning for at lette validering og sammenligning med genforudsigelser. Klik på linket Hjælp til kodonfarvning på siden med sporbeskrivelse for at få flere oplysninger om denne funktion.
Klik på “AceView Gene Summary” (AceView-genresumé) på en individuel transskriptets detaljer-side for at få adgang til genet på NCBI AceView-webstedet.
Metoder
De millioner af cDNA-sekvenser, der er tilgængelige fra de offentlige databaser (GenBank, dbEST, GSS, Traces osv.), tilpasses i samarbejde med genomsekvensen, idet man sørger for at holde de parrede 5′- og 3′-aflæsninger fra enkelte kloner forbundet i samme transkript. Der indsamles nyttige oplysninger om væv, stadium, publikationer, isoleringsprocedure osv. AceView-udligninger på genomet anvender viden om sekventeringsfejl, der er opnået ved analyse af sekventeringsspor og kooperative forfininger. De opnås normalt over hele EST- eller mRNA-længden (gennemsnit 98,8 % aligned, 0,2 % mismatches i mRNA’er eller 95,5 % aligned, 1,4 % mismatches i EST’er).
Multiple alignments evalueres, og sekvenserne holdes strengt kun i deres bedste position på genomet som helhed. Mindre end 1 % af mRNA’erne og mindre end 2 % af EST’erne vil i sidste ende blive afstemt i mere end ét gen, normalt i de ~1 % tæt gentagne gener.
Derpå behandles og renses cDNA-sekvenserne: vektorerne og polyA klippes, de læsninger, der formodentlig er indsendt på den forkerte streng, vendes, og de små indsættelses- eller deletionspolymorfismer identificeres.Eventuelle cDNA-klonomlægninger eller unormale alignments markeres og filtreres (på samme måde som manuelt) for ikke at miste unikke værdifulde oplysninger og samtidig undgå forurening af databasen med dårligt understøttede unormale data.
Der er desværre stadig langt fra mætning af cDNA-biblioteker, for indtil high throughput sekventering var cDNA-sekvenser vanskelige at fremskaffe. Alligevel er de de reneste og mest pålidelige oplysninger til at definere de molekylære gener. Derfor anses en enkelt cDNA-sekvens af god kvalitet, der er afstemt med standardintroner på genomet, for at være tilstrækkeligt bevis for et givet splejset mRNA-fragment. I modsætning hertil kan ikke-spliced alignments afspejle genomisk kontaminering af cDNA-biblioteker, og ikke-kodende enkelt exon-gener rapporteres kun, hvis de understøttes af seks eller flere accessionsnumre. De mange enkelt exon-TAR’er, der understøttes af 5 eller færre cDNA’er, tilhører det, der kaldes “skyen” (vises ikke i UCSC Genome Browser, men er annoteret i AceView og kan downloades separat fra ftp-stedet).
CDNA-sekvenserne er grupperet i et minimalt antal alternative transkriptvarianter, idet partielle transkripter foretrækkes frem for kunstigt færdige transkripter. Sekvenserne sammenkædes ved simpel kontakt, men kombinatorikken undgås ved at lade hver enkelt cDNA-tilslutning bidrage til en enkelt alternativ variant, fortrinsvis en variant, hvor den fusionerer lydløst uden at bringe nye sekvensoplysninger. Som følge heraf vil alle kortere læsninger, der er kompatible med et mRNA i fuld længde, blive absorberet i dette transkript og vil ikke blive brugt til at forlænge andre inkompatible transkriptioner.
Omkring 70 % af varianterne, der er klart identificeret på Acembly-webstedet, har hele deres proteinkodningsregion understøttet af et enkelt cDNA; de øvrige kan være ulovlige sammenkædninger, der kan opdeles og associeres anderledes, når flere data bliver tilgængelige. Den vigtigste sekvens af transkriptet, der anvendes i annotationen, er sekvensen af transkriptets fodaftryk på genomet, som er af bedre kvalitet end mRNA’erne: denne procedure korrigerer op til 2 % af sekventeringsfejlene: denne procedure korrigerer op til 2 % af sekventeringsfejlene. Enkeltbaseindsættelse, -deletion, -overgang eller -transversion vises grafisk i mRNA-visningen, hvor hyppige SNP’er bliver tydelige.
Putative proteinkodningsregioner forudsiges ud fra mRNA-sekvensen og annoteres ved hjælp af BlastP, PFAM, Psort2 og sammenligning med AceView-proteiner fra andre arter. De bedste proteiner scorer (se Aceview Overview på Acembly-webstedet), og transskriptioner foreslås formodentlig at være proteinkodende eller ikke-kodende.
Ekspression, cDNA-støtte, vævsspecificitet, sekvenser af alternative transskriptioner, introns og exons, alternative promotorer, alternative exons og alternative polyadenyleringssteder vurderes og annoteres i omfattende tabeller på Acembly-webstedet.
De rekonstruerede alternative transkripter grupperes derefter i gener, hvis de deler mindst én nøjagtig introngrænse, eller hvis de har et betydeligt sekvensoverlap (80 % af sekvensen i den ene indgår i den anden). Kodende og ikke-kodende gener defineres, og gener i antisense markeres.
AceView-generne matches ved molekylær kontakt med Entrez-generne og navngives i henhold til Entrez Gene-nomenklaturen. For nye gener, der ikke findes i Entrez, opretter AceView nye gennavne, der opretholdes fra udgivelse til udgivelse, indtil generne får et officielt eller Entrez-gennavn.
Kendskab til hvert gen annoteres, forudsat at der er PubMed-støtte. Udvalgte funktionelle annotationer er indsamlet fra andre kilder, herunder Entrez. Desuden udtrækkes kandidatafprøvede sygdomsassociationer direkte fra PubMed, ud over OMIM og GAD. Endelig foreslås lister over de mest nært beslægtede gener efter funktion, vej, proteinkompleks, GO-annotation, sygdom, cellelokalisering eller alle kriterier tilsammen for at stimulere forskning og udvikling.
Credits
Tak til Danielle og Jean Thierry-Mieg på NCBI for at stille dette spor til rådighed for mennesker, orme og mus.