Description
Ez a track a Danielle és Jean Thierry-Mieg által az NCBI-nél, az AceView programmal készített AceView génmodelleket mutatja.
AceView egyedülálló abban, hogy a géneket az egész genomra kiterjedően határozza meg, kizárólag, de kimerítően, az adott fajból származó kísérleti cDNS-szekvenciák felhasználásával. Az elemzés a kifinomult cDNS-genom-koalignációs algoritmusokat és a genomszekvencia minőségét kihasználva a GenBank, dbEST, GSS, Trace és RefSeq cDNS-szekvenciák átfogó és nem redundáns reprezentációját biztosítja. A következő, 2011-ben később megjelenő kiadás a Leming Shi (FDA) által vezetett SEQC együttműködési projekt részeként az SRA-ban (vagy asszimilált nyilvános adattárban) letétbe helyezett adatokat is tartalmazni fogja, a Helicos, az Illumina, a LifeTech SOLiD és a Roche 454 által biztosított nagy áteresztőképességű RNS-szekvenciák bevonásával, amelyek jelentősen finomítják és gazdagítják a génmodelleket.
Az AceView transzkriptek bizonyos értelemben a nyilvános RNS-ek teljesen annotált, nem redundáns “nr” nézetét képviselik, mínusz a klónozási artefaktumok, a szennyeződések és a rossz minőségű szekvenciák. Az AceView transzkriptumok jelenleg 10-szeres tömörítést jelentenek a nyers adatokhoz képest, minimális szekvenciainformáció-veszteséggel.
A nyilvános RNS-szekvenciák 87%-a az AceView alternatív transzkriptumokba és génekbe olvad össze, ezáltal közel kétszer annyi fő gént azonosítva, mint ahány “ismert gén” van mind az emberben, mind az egérben. A splicelt gének 18%-a és 25%-a nem kódoló génnek tűnik, egérben és emberben egyaránt. Az alternatív transzkriptumok mindkét fajban kiemelkedőek. A tipikus emberi gén átlagosan nyolc különböző alternatív splicing formát hoz létre három promóterről és három nem átfedő terminális exonnal. Átlagosan három kazettás exonnal és négy belső donor- vagy akceptorhellyel rendelkezik. Az AceView oldal továbbá a rekonstruált gének alapos biológiai annotációját javasolja, beleértve a betegségekkel való összefüggést és az alternatív transzkriptumok szövetspecifikusságát.
AceView egyesíti a kísérleti adatok tiszteletben tartását a kiterjedt minőségellenőrzéssel. Az ENCODE-régiókban értékelve az AceView transzkriptjei közel megkülönböztethetetlenek a kézzel kurált Gencode referenciagénekkel (lásd Thierry-Mieg, 2006, vagy hasonlítsa össze a két pályát a Genome Browserben), de a teljes genomot tekintve a transzkriptek száma háromszorosan meghaladja a Havana/Vega és hatszorosan a RefSeq transzkriptjeinek számát.
A különböző génsávokkal kapcsolatos további információkért lásd a Genes FAQ-t.
Megjelenítési konvenciók és konfiguráció
Ez a sáv a génsávok megjelenítési konvencióit követi. Az UCSC-nél megjelenített összes génmodell a “cDNS-támogatott” osztályba tartozik, és rózsaszínnel jelenik meg.
A pálya leíró oldala a következő szűrési és konfigurációs lehetőségeket kínálja:
- Színes pálya kodonok szerint: Válassza a genomikus kodonok opciót az egyes kodonok színezéséhez és címkézéséhez egy nagyított megjelenítésben, hogy megkönnyítse a validálást és a gén-előrejelzésekkel való összehasonlítást. Kattintson a Codon coloring help linkre a track description oldalon, ha további információt szeretne kapni erről a funkcióról.
Kattintson az “AceView Gene Summary” hivatkozásra egy egyedi átirat részletoldalán, hogy elérje a gént az NCBI AceView weboldalán.
Módszerek
A nyilvános adatbázisokból (GenBank, dbEST, GSS, Traces stb.) elérhető több millió cDNS-szekvenciát kooperatív módon igazítjuk a genomszekvenciához, ügyelve arra, hogy az egyes klónokból származó párosított 5′ és 3′ olvasatok ugyanazon transzkripthez tartozzanak. Hasznos információkat gyűjtünk a szövetre, a stádiumra, a publikációkra, az izolálási eljárásra stb. vonatkozóan. A genomon végzett AceView igazítások a szekvenálási hibákra vonatkozó, a szekvenálási nyomok elemzéséből és a kooperatív finomításokból nyert ismereteket használják. Ezeket általában az EST vagy az mRNS teljes hosszában kapjuk (átlagosan 98,8% igazítás, 0,2% eltérés az mRNS-eknél vagy 95,5% igazítás, 1,4% eltérés az EST-eknél).
Az igazítások többszörösét értékeljük ki, és a szekvenciákat szigorúan csak a legjobb pozíciójukban tartjuk genom-szerte. Az mRNS-ek kevesebb mint 1%-a és az EST-ek kevesebb mint 2%-a fog végül egynél több génben igazodni, általában a ~1%-ban szorosan ismétlődő génekben.
A cDNS-szekvenciákat ezután feldolgozzuk és megtisztítjuk: a vektorokat és a polyA-t levágjuk, a feltehetően rossz szálon leadott olvasatokat megfordítjuk, és a kis inszerciós vagy deléciós polimorfizmusokat azonosítjuk.Az esetleges cDNS-klón-átrendeződéseket vagy anomális illesztéseket megjelöljük és szűrjük (kézzel hasonlóan), hogy ne veszítsünk el egyedi értékes információt, ugyanakkor elkerüljük az adatbázis szennyezését a rosszul támogatott anomális adatokkal.
A cDNS-könyvtárak sajnos még messze vannak a telítettségtől, mivel a nagy áteresztőképességű szekvenálásig a cDNS-szekvenciákat nehéz volt megszerezni. Mégis ezek jelentik a legtisztább és legmegbízhatóbb információt a molekuláris gének meghatározásához. Ezért egyetlen jó minőségű, a genom standard intronjaival összehangolt cDNS-szekvenciát elegendő bizonyítéknak tekintünk egy adott splicelt mRNS-töredékre. Ezzel szemben a nem spliced igazítások a cDNS-könyvtárak genomiális szennyeződését tükrözhetik, és a nem kódoló egy exonból álló géneket csak akkor jelentjük, ha hat vagy több hozzáféréssel alátámasztva vannak. Az 5 vagy annál kevesebb cDNS által támogatott számos egy exonból álló TAR az úgynevezett “felhőhöz” tartozik (nem jelenik meg a UCSC Genome Browserben, de az AceView-ban annotálva van, és külön letölthető az ftp-oldalról).
A cDNS-szekvenciák minimális számú alternatív transzkript-változatba vannak csoportosítva, előnyben részleges transzkripteket részesítenek a mesterségesen kiegészítettekkel szemben. A szekvenciákat egyszerű érintkezéssel konkatenáljuk, de a kombinatorikát úgy kerüljük el, hogy minden egyes cDNS-csatlakozás egyetlen alternatív variánshoz járulhat hozzá, lehetőleg olyanhoz, amelyik csendben összeolvad anélkül, hogy új szekvenciainformációt hozna. Ennek eredményeképpen minden rövidebb, egy teljes hosszúságú mRNS-szel kompatibilis olvasat abba a transzkriptumba kerül, és nem használják fel más inkompatibilis transzkriptumok meghosszabbítására.
Az Acembly oldalon egyértelműen azonosított variánsok mintegy 70%-ának teljes fehérjekódoló régióját egyetlen cDNS támogatja; a többi lehet tiltott konkatenáció, amelyeket fel lehet osztani és másképp társítani, ha több adat áll rendelkezésre. Az annotációban használt transzkriptum fő szekvenciája a transzkriptum lábnyomának szekvenciája a genomon, amely jobb minőségű, mint az mRNS-ek: ez az eljárás a szekvenálási hibák legfeljebb 2%-át korrigálja. Egyetlen bázis beillesztése, deléciója, átmenete vagy transzverziója grafikusan jelenik meg az mRNS-nézetben, ahol a gyakori SNP-k nyilvánvalóvá válnak.
A mRNS-szekvenciából előrejelzik a fehérjéket kódoló régiókat, és BlastP, PFAM, Psort2 segítségével, valamint más fajok AceView fehérjéivel való összehasonlítással annotálják azokat. A legjobb fehérjéket pontozzák (lásd az Aceview áttekintést az Acembly weboldalon), és a transzkripteket feltételezhetően fehérjekódoló vagy nem kódoló fehérjéknek javasolják.
Az expresszió, a cDNS-támogatás, a szövetspecifikusság, az alternatív transzkriptek, intronok és exonok, alternatív promóterek, alternatív exonok és alternatív poliadenilációs helyek szekvenciáit értékelik és az Acembly weboldalon gazdag táblázatokban jegyzetelik.
A rekonstruált alternatív transzkripteket ezután génekbe csoportosítják, ha legalább egy pontos intronhatáron osztoznak, vagy ha jelentős szekvencia átfedés van közöttük (az egyik szekvenciájának 80%-a szerepel a másikban). A kódoló és nem kódoló géneket definiáljuk, és az antiszenz géneket megjelöljük.
Az AceView géneket molekuláris kontaktus alapján az Entrez génekkel egyeztetjük, és az Entrez Gene nómenklatúra szerint nevezzük el. Az Entrezben nem szereplő új gének esetében az AceView új génneveket hoz létre, amelyeket kiadásról kiadásra fenntartanak, amíg a gének hivatalos vagy Entrez génnevet nem kapnak.
Az egyes génekre vonatkozó ismeretek annotálva vannak, feltéve, hogy van PubMed támogatás. A kiválasztott funkcionális annotációkat más forrásokból gyűjtjük össze, beleértve az Entrez-t is. Ezenkívül a tesztelt betegségjelölt asszociációkat az OMIM és a GAD mellett közvetlenül a PubMed-ből nyerik ki. Végül a kutatás és fejlesztés ösztönzése érdekében a funkció, az útvonal, a fehérjekomplexum, a GO annotáció, a betegség, a sejtlokalizáció vagy az összes kritérium alapján a legközelebbi rokonságban álló gének listáit javasoljuk.
Credits
Köszönjük Danielle-nek és Jean Thierry-Miegnek az NCBI-nél, hogy ezt a nyomvonalat az ember, a féreg és az egér számára rendelkezésre bocsátották.