Kuvaus
Tässä raidassa näytetään AceView-geenimallit, jotka Danielle ja Jean Thierry-Mieg ovat rakentaneet NCBI:ssä Daniellen ja Jean Thierry-Miegin NCBI:ssä heidän AceView-ohjelmallaan rakentamista DNA:sta.
AceView-ohjelma on sikäli uniikki, että se määrittelee geenit koko genomin laajuisesti käyttämällä ainoastaan, mutta tyhjentävästi, lajin kokeellisia cDNA-jaksoja. Analyysissä hyödynnetään kehittyneitä cDNA:n ja genomin yhteenkohdistamisalgoritmeja ja genomisekvenssin laatua, jotta saadaan kattava ja ei-redundantti esitys GenBankin, dbEST:n, GSS:n, Tracen ja RefSeq:n cDNA-sekvensseistä. Seuraavaan julkaisuun, joka julkaistaan myöhemmin vuonna 2011, sisällytetään myös tiedot, jotka on talletettu SRA:han (tai assimiloituun julkiseen arkistoon) osana SEQC-yhteistyöhanketta, jota johtaa Leming Shi FDA:sta ja johon kuuluu Helicosin, Illuminan, LifeTech SOLiD:n ja Roche 454:n toimittamia korkean läpimenovoiman RNA-sekvenssejä, jotka täsmentävät ja rikastuttavat geenimalleja huomattavasti.
AceView-transkriptiot edustavat tavallaan täysin annotoitua, ei-redundanttista ”nr”-näkymää julkisista RNA:ista, josta on vähennetty kloonausartefaktat, kontaminaatiot ja huonolaatuiset sekvenssit. AceView-transkriptiot edustavat tällä hetkellä 10-kertaista tiivistymistä raakadataan verrattuna, ja sekvenssi-informaation menetys on minimaalinen.
87 % julkisista RNA-sekvensseistä on yhdistetty AceView-vaihtoehtoisiksi transkripteiksi ja geeneiksi, ja näin ollen tunnistetaan lähes kaksi kertaa enemmän päägeenejä kuin ”tunnettuja geenejä” on sekä ihmisessä että hiiressä. Hiirellä ja ihmisellä 18-25 prosenttia splikoiduista geeneistä on ei-koodaavia. Vaihtoehtoiset transkriptiot ovat merkittäviä molemmissa lajeissa. Tyypillinen ihmisen geeni tuottaa keskimäärin kahdeksan erilaista vaihtoehtoista splikoitunutta muotoa kolmesta promoottorista ja kolmesta päällekkäisestä terminaalisesta eksonista. Siinä on keskimäärin kolme kasettieksonia ja neljä sisäistä luovuttaja- tai hyväksymiskohtaa. AceView-sivustolla ehdotetaan lisäksi rekonstruoitujen geenien perusteellista biologista annotaatiota, mukaan lukien yhteys sairauksiin ja vaihtoehtoisten transkriptien kudospesifisyys.
AceView yhdistää kokeellisen tiedon kunnioittamisen laajaan laadunvalvontaan. ENCODE-alueilla arvioituna AceView:n transkriptit ovat lähes erottamattomia manuaalisesti kuratoitujen Gencode-referenssigeenien välillä (ks. Thierry-Mieg, 2006, tai vertaa näitä kahta raitaa Genome Browserissa), mutta koko genomissa transkriptien määrä ylittää Havana/Vegan kolminkertaisesti ja RefSeqin kuusinkertaisesti.
Lisätietoa eri geeniradoista on Genes FAQ:ssa.
Näyttökonventiot ja konfigurointi
Tämä rata noudattaa geeniratojen näyttökonventioita. Kaikki UCSC:ssä näytettävät geenimallit kuuluvat luokkaan ”cDNA-supported”, ja ne näytetään vaaleanpunaisella.
Radan kuvaussivulla on seuraavat suodatin- ja konfigurointivaihtoehdot:
- Värirata koodoneiden mukaan: Valitse genomic codons -vaihtoehto värittääksesi ja merkitäksesi jokaisen koodonin suurennetussa näytössä helpottaaksesi validointia ja vertailua geeniennusteisiin. Saat lisätietoja tästä ominaisuudesta napsauttamalla Codon coloring help -linkkiä radan kuvaussivulla.
Klikkaa ”AceView Gene Summary” yksittäisen transkriptin yksityiskohdat-sivulla päästäksesi geeniin NCBI:n AceView-sivustolla.
Metodit
Julkisista tietokannoista (GenBank, dbEST, GSS, Traces jne.) saatavilla olevat miljoonat cDNA-sekvenssit kohdistetaan yhteistyössä genomisekvenssin kanssa pitäen huolta siitä, että yksittäisistä klooneista peräisin olevat parittaiset 5′- ja 3′-lukemat assosioituvat samaan transkriptiin. Hyödyllisiä tietoja kudoksesta, vaiheesta, julkaisuista, eristysmenettelystä ja niin edelleen kerätään. AceView-kohdistuksissa genomiin käytetään sekvensointivirheitä koskevaa tietoa, joka on saatu analysoimalla sekvensointijälkiä ja yhteistyöhön perustuvia tarkennuksia. Ne saadaan yleensä EST:n tai mRNA:n koko pituudelta (keskimäärin 98,8 % kohdistettu, 0,2 % virheitä mRNA:ssa tai 95,5 % kohdistettu, 1,4 % virheitä EST:ssä).
Monimutkaiset kohdistukset arvioidaan, ja sekvenssit säilytetään tiukasti vain parhaassa paikassaan genomin laajuisesti. Alle 1 % mRNA:ista ja alle 2 % EST:istä kohdistetaan lopulta useampaan kuin yhteen geeniin, yleensä ~1 %:iin läheisesti toistuvista geeneistä.
KDNA-sekvenssit käsitellään ja puhdistetaan: vektorit ja polyA leikataan, oletettavasti väärällä säikeellä toimitetut lukemat käännetään ja pienet insertio- tai deletio-polymorfismit tunnistetaan.Mahdolliset cDNA-kloonien uudelleenjärjestelyt tai poikkeavat linjaukset merkitään ja suodatetaan (manuaalisesti), jotta ei menetettäisi ainutlaatuista arvokasta tietoa ja samalla vältettäisiin tietokannan saastuminen huonosti tuetuilla poikkeavilla tiedoilla.
Valitettavasti cDNA-kirjastot ovat vielä kaukana saturaatiosta, koska suurläpimittaiseen sekvensointiin asti cDNA-sekvenssejä oli vaikea saada. Silti ne ovat puhtainta ja luotettavinta tietoa molekyyligeenien määrittelyyn. Tästä syystä yhtä ainoaa hyvälaatuista cDNA-sekvenssiä, joka on sovitettu yhteen genomin vakiointronien kanssa, pidetään riittävänä todisteena tietystä splikoidusta mRNA-fragmentista. Sitä vastoin splikoimattomat linjaukset voivat heijastaa cDNA-kirjastojen genomikontaminaatiota, ja ei-koodaavat yhden eksonin geenit ilmoitetaan vain, jos ne saavat tukea kuudesta tai useammasta liittymästä. Lukuisat yhden eksonin TAR:t, joita tukee viisi tai vähemmän cDNA:ta, kuuluvat niin sanottuun ”pilveen” (ei näy UCSC:n genomiselaimessa, mutta ne on annotoitu AceView:ssä ja ladattavissa erikseen ftp-sivustolta).
CDNA-sekvenssit on ryhmitelty minimaaliseen määrään vaihtoehtoisia transkriptiovariaatioita, ja ne suosivat mieluummin osittaisia kuin keinotekoisesti täydennettyjä transkripteja. Sekvenssit ketjutetaan yksinkertaisella kosketuksella, mutta kombinatoriikkaa vältetään antamalla jokaisen cDNA-liitteen osallistua yhteen vaihtoehtoiseen varianttiin, mieluiten sellaiseen, jossa se sulautuu äänettömästi tuomatta uutta sekvenssi-informaatiota. Tämän seurauksena kaikki lyhyemmät lukemat, jotka ovat yhteensopivia täyspitkän mRNA:n kanssa, sulautuvat kyseiseen transkriptiin, eikä niitä käytetä muiden yhteensopimattomien transkriptien pidentämiseen.
Noin 70 %:lla muunnoksista, jotka on selvästi tunnistettu Acembly-sivustolla, on koko proteiinia koodaava alue, jota tukee yksi ainoa cDNA; loput voivat olla laittomia ketjuuntumisia, jotka saatetaan pilkkoa toisistaan ja liittää toisiinsa eri tavalla, kunhan lisää dataa on saatavilla. Annotaatiossa käytetty transkriptin pääsekvenssi on transkriptin jalanjälki genomissa, joka on laadultaan parempi kuin mRNA:t: tällä menettelyllä korjataan jopa 2 prosenttia sekvensointivirheistä. Yksittäisen emäksen insertio, deleetio, siirtymä tai transversio näytetään graafisesti mRNA-näkymässä, jossa usein esiintyvät SNP:t tulevat ilmeisiksi.
Proteiineja koodaavat alueet ennustetaan mRNA-sekvenssistä ja annotoidaan BlastP:n, PFAM:n ja Psort2:n avulla sekä vertaamalla niitä AceView-proteiineihin muista lajeista. Parhaat proteiinit pisteytetään (ks. Aceview Overview Acembly-sivustolla) ja transkripteja ehdotetaan oletettavasti proteiineja koodaaviksi tai ei-koodaaviksi.
Ekspressio, cDNA-tuki, kudospesifisyys, vaihtoehtoisten transkriptien sekvenssit, intronit ja eksonit, vaihtoehtoiset promoottorit, vaihtoehtoiset eksonit ja vaihtoehtoiset polyadenylaatiokohdat arvioidaan ja kommentoidaan Acembly-sivustolla olevissa runsaissa taulukoissa.
Rekonstruoidut vaihtoehtoiset transkriptit ryhmitellään sitten geeneiksi, jos niillä on vähintään yksi täsmällinen introniraja tai jos niillä on huomattava sekvenssikohtainen päällekkäisyys (80 prosenttia toisen sekvenssistä sisältyy toiseen). Koodaavat ja ei-koodaavat geenit määritellään, ja antisense-geenit merkitään.
AceView-geenit sovitetaan molekyylikontaktin perusteella Entrez-geeneihin ja nimetään Entrez Gene -nimikkeistön mukaisesti. Uusille geeneille, joita ei ole Entrezissä, AceView luo uudet geeninimet, joita ylläpidetään julkaisusta toiseen, kunnes geenit saavat virallisen tai Entrez-geenin nimen.
Kunkin geenin tietämys on annotoitu, mikäli PubMed-tukea on olemassa. Valitut toiminnalliset annotaatiot kerätään muista lähteistä, mukaan lukien Entrez. Lisäksi testatut sairausassosiaatioehdokkaat poimitaan suoraan PubMedistä, OMIM:n ja GAD:n lisäksi. Lopuksi ehdotetaan luetteloita läheisimmin sukua olevista geeneistä toiminnon, polun, proteiinikompleksin, GO-annotaation, sairauden, solulokalisoitumisen tai kaikkien kriteerien perusteella, jotta voidaan edistää tutkimusta ja kehitystä.
Credits
Kiitokset Daniellelle ja Jean Thierry-Miegille NCBI:ssä, jotka tarjosivat tämän jäljityksen ihmiselle, madolle ja hiirelle.