Descriere
Acest track prezintă modelele de gene AceView construite din ADNc de Danielle și Jean Thierry-Mieg de la NCBI, folosind programul lor AceView.
AceView este unic prin faptul că definește genele la nivelul întregului genom, folosind doar, dar exhaustiv, secvențele experimentale de ADNc din specia respectivă. Analiza exploatează algoritmi sofisticați de co-aliniere ADNc-genom și calitatea secvenței genomului pentru a oferi o reprezentare completă și non-redundantă a secvențelor ADNc GenBank, dbEST, GSS, Trace și RefSeq. Următoarea versiune, mai târziu în 2011, va include, de asemenea, datele depuse în SRA (sau depozitul public asimilat) ca parte a proiectului de colaborare SEQC condus de Leming Shi de la FDA și care implică secvențe de ARN de mare capacitate furnizate de Helicos, Illumina, LifeTech SOLiD și Roche 454, care rafinează și îmbogățesc foarte mult modelele de gene.
Într-un fel, transcrierile AceView reprezintă o vedere non-redundantă „nr” complet adnotată a ARN-urilor publice, fără artefacte de clonare, contaminări și secvențe de proastă calitate. Transcrierile AceView reprezintă în prezent o compactare de 10 ori mai mare în raport cu datele brute, cu o pierdere minimă de informații de secvență.
87% din secvențele de ARN publice sunt reunite în transcripții alternative și gene AceView, identificând astfel aproape de două ori mai multe gene principale decât există „gene cunoscute” atât la om, cât și la șoarece. Între 18% și 25% din genele îmbinate par a fi non-codificatoare, la șoarece și, respectiv, la om. Transcripțiile alternative sunt proeminente în ambele specii. Gena umană tipică produce în medie opt forme distincte de splicing alternativ de la trei promotori și cu trei exoni terminali care nu se suprapun. Ea are în medie trei exoni casetă și patru situsuri interne donatoare sau acceptoare. Site-ul AceView propune, de asemenea, o adnotare biologică amănunțită a genelor reconstruite, inclusiv asocierea cu boli și specificitatea tisulară a transcripțiilor alternative.
AceView combină respectul pentru datele experimentale cu un control extins al calității. Evaluate în regiunile ENCODE, transcripțiile AceView sunt aproape imposibil de distins de genele de referință Gencode curatoriate manual (a se vedea Thierry-Mieg, 2006, sau comparați cele două piste în Genome Browser), dar pe întregul genom numărul de transcripții depășește Havana/Vega de un factor de trei și RefSeq de un factor de șase.
Pentru mai multe informații despre diferitele piste genetice, consultați FAQ Genes.
Display Conventions and Configuration
Această pistă respectă convențiile de afișare pentru pistele genetice. Toate modelele de gene afișate la UCSC fac parte din clasa „cDNA-supported” și sunt afișate în roz.
Pagina de descriere a track-ului oferă următoarele opțiuni de filtrare și configurare:
- Color track by codons: Selectați opțiunea genomic codons (Codoni genomici) pentru a colora și eticheta fiecare codon într-un afișaj cu zoom pentru a facilita validarea și compararea cu predicțiile genetice. Faceți clic pe linkul de ajutor pentru colorarea codonilor de pe pagina de descriere a pistei pentru mai multe informații despre această funcție.
Clic pe „AceView Gene Summary” de pe pagina de detalii a unui transcript individual pentru a accesa gena pe site-ul web NCBI AceView.
Metode
Milioanele de secvențe de ADNc disponibile în bazele de date publice (GenBank, dbEST, GSS, Traces etc.) sunt aliniate cooperativ pe secvența genomului, având grijă să se păstreze citirile 5′ și 3′ împerecheate de la clonele unice asociate în același transcript. Se colectează informații utile despre țesut, stadiu, publicații, procedura de izolare și așa mai departe. Alinierile AceView pe genom utilizează cunoștințele privind erorile de secvențiere obținute din analiza urmelor de secvențiere și din rafinările cooperative. De obicei, acestea sunt obținute pe întreaga lungime a EST sau ARNm (în medie 98,8% aliniate, 0,2% nepotriviri în ARNm sau 95,5% aliniate, 1,4% nepotriviri în EST).
Se evaluează alinieri multiple, iar secvențele sunt păstrate cu strictețe doar în cea mai bună poziție a lor la nivelul genomului. Mai puțin de 1% din ARNm și mai puțin de 2% din EST-uri vor fi în cele din urmă aliniate în mai mult de o genă, de obicei în cele ~1% de gene care se repetă îndeaproape.
Secvențele ADNc sunt apoi procesate și curățate: vectorii și poliA sunt decupate, citirile care se presupune că au fost trimise pe filiera greșită sunt răsturnate, iar polimorfismele mici de inserție sau deleție sunt identificate.Eventualele rearanjări ale clonelor de ADNc sau alinieri anormale sunt marcate și filtrate (asemănător cu cele manuale) pentru a nu pierde informații valoroase unice, evitând în același timp poluarea bazei de date cu date anormale slab susținute.
Din păcate, bibliotecile de ADNc sunt încă departe de saturație, deoarece până la secvențierea de mare randament, secvențele de ADNc erau dificil de obținut. Cu toate acestea, ele sunt cele mai curate și mai fiabile informații pentru a defini genele moleculare. Din acest motiv, o singură secvență de ADNc de bună calitate, aliniată cu intronii standard de pe genom, este considerată o dovadă suficientă pentru un anumit fragment de ARNm splicat. În schimb, alinierile nespicate ar putea reflecta contaminarea genomică a bibliotecilor de ADNc, iar genele non-codificatoare cu un singur exon sunt raportate numai dacă sunt susținute de șase sau mai multe accesiuni. Numeroasele TAR cu un singur exon susținute de 5 sau mai puține ADNc aparțin la ceea ce se numește „norul” (nu este afișat pe UCSC Genome Browser,dar este adnotat în AceView și poate fi descărcat separat de pe site-ul ftp).
Secvențele ADNc sunt grupate într-un număr minim de variante alternative de transcripție, preferând transcripțiile parțiale celor completate artificial. Secvențele sunt concatenate prin contact simplu, dar combinatoria este evitată permițând ca fiecare accesare de ADNc să contribuie la o singură variantă alternativă, de preferință una în care fuzionează în mod silențios fără a aduce informații noi despre secvență. Ca urmare, toate citirile mai scurte compatibile cu un ARNm de lungime completă vor fi absorbite în acea transcriere și nu vor fi folosite pentru a extinde alte transcrieri incompatibile.
Aproximativ 70% dintre variante, identificate în mod clar pe site-ul Acembly, au întreaga lor regiune codificatoare de proteine susținută de un singur ADNc; celelalte pot fi concatenări ilicite care pot fi divizate și asociate în mod diferit atunci când mai multe date devin disponibile. Secvența principală a transcriptului utilizată în adnotare este cea a amprentei transcriptului pe genom, care este de o calitate mai bună decât ARNm: această procedură corectează până la 2 % din erorile de secvențiere. Inserția, deleția, tranziția sau tranziția unei singure baze este prezentată grafic în vizualizarea ARNm, unde SNP-urile frecvente devin evidente.
Regiunile care codifică proteinele sunt prezise din secvența ARNm și adnotate cu ajutorul BlastP, PFAM, Psort2 și prin comparație cu proteinele AceView din alte specii. Cele mai bune proteine sunt punctate (a se vedeaAceview Overview pe site-ul Acembly), iar transcriptele sunt propuse ca fiind putativ codificatoare de proteine sau necodificatoare.
Expresia, suportul ADNc, specificitatea tisulară, secvențele de transcripte alternative, introni și exoni, promotori alternativi, exoni alternativi și situsuri de poliadenilare alternative sunt evaluate și adnotate în tabele bogate pe site-ul web Acembly.
Transcripții alternativi reconstruiți sunt apoi grupați în gene dacă au în comun cel puțin o limită exactă a intronilor sau dacă au o suprapunere substanțială a secvenței (80% din secvența unuia inclusă în cealaltă). Se definesc genele codificatoare și non-codificatoare, iar genele în antisens sunt marcate.
Genele AceView sunt corelate prin contact molecular cu genele Entrez și sunt denumite în conformitate cu nomenclatura Entrez Gene. Pentru genele noi care nu se regăsesc în Entrez, AceView creează noi nume de gene care sunt menținute de la o versiune la alta până când genele primesc un nume oficial sau un nume de genă Entrez.
Cunoștințele despre fiecare genă sunt adnotate cu condiția să existe un suport PubMed. Adnotările funcționale selectate sunt adunate din alte surse, inclusiv Entrez. În plus, asocierile de boli candidate testate sunt extrase direct din PubMed, în plus față de OMIM și GAD. În cele din urmă, sunt propuse liste cu cele mai apropiate gene înrudite prin funcție, cale, complex de proteine, adnotare GO, boală, localizare celulară sau toate criteriile luate împreună, pentru a stimula cercetarea și dezvoltarea.
Credințe
Mulțumiri lui Danielle și Jean Thierry-Mieg de la NCBI pentru furnizarea acestei piste pentru om, vierme și șoarece.