Popis
Tato stopa ukazuje modely genů AceView zkonstruované z DNA Danielle a Jeanem Thierry-Miegovými v NCBI pomocí jejich programu AceView.
AceView je jedinečný v tom, že definuje geny v celém genomu pouze pomocí,ale vyčerpávajícím způsobem, experimentálních sekvencí cDNA z daného druhu. Analýza využívá sofistikované algoritmy pro společné zarovnání cDNA ke genomu a kvalitu sekvence genomu a poskytuje komplexní a neredundantní zastoupení sekvencí cDNA GenBank, dbEST, GSS, Trace a RefSeq. Další vydání, později v roce 2011, bude zahrnovat také data uložená v SRA (nebo asimilovaném veřejném úložišti) v rámci společného projektu SEQC vedeného Lemingem Shi z FDA a zahrnujícího vysoce výkonné sekvence RNA poskytnuté společnostmi Helicos, Illumina, LifeTech SOLiD a Roche 454, které výrazně zpřesňují a obohacují genové modely.
Přepisy AceView představují svým způsobem plně anotovaný neredundantní „nr“ pohled na veřejné RNA, bez klonovacích artefaktů, kontaminací a sekvencí špatné kvality. Transkripty AceView v současné době představují desetinásobné zhuštění oproti surovým datům s minimální ztrátou sekvenční informace.
87 % sekvencí veřejné RNA je sloučeno do alternativních transkriptů a genů AceView, čímž je identifikováno téměř dvakrát více hlavních genů, než je „známých genů“ u člověka i myši. U myši a člověka se 18 % až 25 % sestřihaných genů jeví jako nekódující. Alternativní transkripty jsou významné u obou druhů. Typický lidský gen produkuje v průměru osm různých alternativně sestřihaných forem ze tří promotorů a se třemi nepřekrývajícími se terminálními exony. Má v průměru tři kazetové exony a čtyři vnitřní donorová nebo akceptorová místa. Stránka AceView dále navrhuje důkladnou biologickou anotaci rekonstruovaných genů, včetně souvislosti s nemocemi a tkáňovou specifičností alternativních transkriptů.
AceView kombinuje respekt k experimentálním datům s rozsáhlou kontrolou kvality. Při hodnocení v oblastech ENCODE se transkripty AceView téměř neliší od ručně kurátorovaných referenčních genů Gencode (viz Thierry-Mieg, 2006, nebo porovnání obou stop v Genome Browser), ale v celém genomu počet transkriptů převyšuje Havana/Vega třikrát a RefSeq šestkrát.
Další informace o různých stopách genů naleznete v našem FAQ o genech.
Konvence zobrazení a konfigurace
Tato stopa se řídí konvencemi zobrazení pro stopy genů. Všechny modely genů zobrazené na UCSC patří do třídy „cDNA-supported“ a jsou zobrazeny růžovou barvou.
Stránka s popisem stopy nabízí následující možnosti filtrování a konfigurace:
- Barevná stopa podle kodonů: Zvolte možnost genomické kodonypro obarvení a označení každého kodonu ve zvětšeném zobrazení pro usnadnění validace a porovnání s předpověďmi genů. Další informace o této funkci získáte kliknutím na odkaz Nápověda k obarvení kodonů na stránce s popisem stopy.
Kliknutím na „AceView Gene Summary“ na stránce s podrobnostmi o jednotlivém transkriptu získáte přístup k danému genu na webové stránce NCBI AceView.
Metody
Miliony sekvencí cDNA dostupných z veřejných databází (GenBank, dbEST, GSS, Traces atd.) jsou kooperativně zarovnávány na sekvenci genomu, přičemž se dbá na to, aby párová 5′ a 3′ čtení z jednotlivých klonů byla spojena ve stejném transkriptu. Shromažďují se užitečné informace o tkáni, stadiu, publikacích, postupu izolace atd. Při zarovnávání AceView na genom se využívají znalosti o chybách sekvenování získané analýzou stop sekvenování a kooperativním zpřesňováním. Obvykle se získávají po celé délce EST nebo mRNA (průměrně 98,8 % zarovnání, 0,2 % neshod u mRNA nebo 95,5 % zarovnání, 1,4 % neshod u EST).
Vyhodnocuje se více zarovnání a sekvence se přísně udržují pouze v nejlepší pozici v celém genomu. Méně než 1 % mRNA a méně než 2 % EST bude nakonec zarovnáno ve více než jednom genu, obvykle v ~1 % těsně se opakujících genů.
Sekvence cDNA jsou poté zpracovány a vyčištěny: vektory a polyA jsou oříznuty, čtení pravděpodobně zaslaná na špatném vlákně jsou převrácena a jsou identifikovány malé polymorfismy inzerce nebo delece.Případné přestavby klonů cDNA nebo anomální zarovnání jsou označeny a filtrovány (podobně jako ručně), aby nedošlo ke ztrátě jedinečných cenných informací a zároveň se zabránilo znečištění databáze špatně podporovanými anomálními daty.
Knihovny cDNA bohužel ještě zdaleka nejsou nasyceny, protože až do vysoce výkonného sekvenování bylo obtížné sekvence cDNA získat. Přesto jsou nejčistší a nejspolehlivější informací pro definování molekulárních genů. Z tohoto důvodu se jedna kvalitní sekvence cDNA, zarovnaná se standardními introny v genomu, považuje za dostatečný důkaz pro daný sestřihový fragment mRNA. Naproti tomu zarovnání bez sestřihu by mohla odrážet kontaminaci knihoven cDNA genomem a nekódující geny s jedním exonem jsou uváděny pouze tehdy, pokud jsou podpořeny šesti nebo více přírůstky. Četné jednoexonové TAR podporované 5 nebo méně cDNA patří do takzvaného „mraku“ (nezobrazují se v UCSC Genome Browser,ale jsou anotovány v AceView a lze je stáhnout samostatně ze stránek ftp).
Sekvence cDNA jsou seskupeny do minimálního počtu alternativních variant transkriptů, přičemž se upřednostňují částečné transkripty před uměle doplněnými. Sekvence jsou spojovány jednoduchým kontaktem, ale kombinatorice se vyhýbáme tím, že každý přírůstek cDNA přispívá k jedné alternativní variantě, nejlépe takové, kde se tiše spojí, aniž by přinesl novou sekvenční informaci. Výsledkem je, že všechna kratší čtení kompatibilní s mRNA plné délky budou pohlcena v tomto transkriptu a nebudou použita k rozšíření jiných nekompatibilních transkriptů.
Přibližně 70 % variant, jasně identifikovaných na webu Acembly, má celou svou protein kódující oblast podpořenou jedinou cDNA; ostatní mohou být nedovolené konkatenace, které mohou být rozděleny a různě asociovány, až bude k dispozici více dat. Hlavní sekvence transkriptu použitá v anotaci je sekvence otisku transkriptu na genomu, která je kvalitnější než mRNA: tento postup opravuje až 2 % chyb sekvenování. Vložení jedné báze, delece, přechod nebo transverze se zobrazí graficky v zobrazení mRNA, kde se projeví časté SNP.
Putativní oblasti kódující proteiny se předpovídají ze sekvence mRNA a anotují pomocí BlastP, PFAM, Psort2 a porovnání s proteiny AceView jiných druhů. Nejlepší proteiny jsou hodnoceny (viz PřehledAceview na stránkách Acembly) a transkripty jsou domněle navrženy jako proteiny kódující nebo nekódující.
Exprese, podpora cDNA, tkáňová specifita, sekvence alternativních transkriptů, introny a exony, alternativní promotory, alternativní exony a alternativní polyadenylační místa jsou vyhodnoceny a anotovány v bohatých tabulkách na stránkách Acembly.
Rekonstruované alternativní transkripty jsou pak seskupeny do genů, pokud sdílejí alespoň jednu přesnou hranici intronů nebo pokud mají značný sekvenční překryv (80 % sekvence jednoho zahrnuto v druhém). Jsou definovány kódující a nekódující geny a geny v antisense jsou označeny.
Geny aplikace AceView jsou porovnány podle molekulárního kontaktu s geny Entrez a pojmenovány podle nomenklatury Entrez Gene. Pro nové geny, které nejsou v Entrez, AceView vytváří nové názvy genů, které jsou udržovány od vydání k vydání, dokud geny nedostanou oficiální název nebo název genu Entrez.
Znalosti o každém genu jsou anotovány za předpokladu, že existuje podpora PubMed. Vybrané funkční anotace jsou shromažďovány z jiných zdrojů, včetně Entrez. Kromě toho jsou kandidátní testované asociace s nemocemi získávány přímo z PubMedu, navíc z OMIM a GAD. Nakonec jsou navrženy seznamy nejblíže příbuzných genů podle funkce, dráhy, proteinového komplexu, anotace GO, onemocnění, buněčné lokalizace nebo všech kritérií dohromady, aby se stimuloval výzkum a vývoj.
Credits
Díky Danielle a Jeanu Thierry-Miegovi z NCBI za poskytnutí této stopy pro člověka, červa a myš.
.