Opis
Ta ścieżka pokazuje modele genów AceView skonstruowane zcDNA przez Danielle i Jean Thierry-Mieg w NCBI, używając ich programu AceView.
AceView jest unikalny w tym, że definiuje geny genomowo w całym zakresie, używając tylko, ale wyczerpująco, eksperymentalnych sekwencji cDNA z samego gatunku. Analiza wykorzystuje zaawansowane algorytmy dopasowania cDNA do genomu oraz jakość sekwencji genomu, aby zapewnić wszechstronną i nieredundantną reprezentację sekwencji GenBank, dbEST, GSS, Trace i RefSeq cDNA. Następne wydanie, później w 2011 roku, będzie również zawierać dane zdeponowane w SRA (lub zasymilowane repozytorium publiczne) jako część projektu SEQC prowadzonego przez Leming Shi z FDA i obejmującego sekwencje RNA o wysokiej przepustowości dostarczone przez Helicos, Illumina, LifeTech SOLiD i Roche 454, które znacznie udoskonalają i wzbogacają modele genów.
W pewnym sensie, transkrypty AceView reprezentują w pełni anotowany, nieredundantny „nr” widok publicznych RNA, pomniejszony o artefakty klonowania, zanieczyszczenia i sekwencje złej jakości. Transkrypty AceView reprezentują obecnie 10-krotne zagęszczenie w stosunku do surowych danych, z minimalną utratą informacji o sekwencji.
87% publicznych sekwencji RNA jest połączonych w AceView alternatywnych transkryptów i genów, identyfikując w ten sposób blisko dwa razy więcej głównych genów niż „znanych genów” u ludzi i myszy. 18% do 25% splicowanych genów wydaje się niekodujących, odpowiednio u myszy i człowieka. Alternatywne transkrypty są widoczne u obu gatunków. Typowy ludzki gen wytwarza średnio osiem różnych form alternatywnie splicowanych z trzech promotorów i z trzema nienakładającymi się końcowymi eksonami. Posiada on średnio trzy eksony kasetowe i cztery wewnętrzne miejsca donorowe lub akceptorowe. Strona AceView proponuje ponadto dokładną anotację biologiczną zrekonstruowanych genów, w tym powiązanie z chorobami i specyficznością tkankową alternatywnych transkryptów.
AceView łączy szacunek dla danych eksperymentalnych z rozległą kontrolą jakości. Oceniane w regionach ENCODE, transkrypty AceView są bliskie nieodróżnialności od ręcznie kuratorowanych genów referencyjnych Gencode (patrz Thierry-Mieg, 2006, lub porównaj te dwie ścieżki w Genome Browser), ale w całym genomie liczba transkryptów przekracza Havana/Vega o czynnik trzech, a RefSeq o czynnik sześciu.
Więcej informacji na temat różnych ścieżek genów można znaleźć w naszym FAQ Genes.
Konwencje wyświetlania i konfiguracja
Ta ścieżka jest zgodna z konwencjami wyświetlania dla ścieżek genów. Wszystkie modele genów wyświetlane w UCSC należą do klasy „cDNA-supported” i są wyświetlane na różowo.
Strona opisu ścieżki oferuje następujące opcje filtrowania i konfiguracji:
- Ścieżka kolorów według kodonów: Wybierz opcję kodonów genomowych, aby pokolorować i oznaczyć każdy kodon w powiększeniu w celu ułatwienia walidacji i porównania z przewidywaniami genów. Kliknij link pomocy kolorowania kodonów na stronie opisu ścieżki, aby uzyskać więcej informacji o tej funkcji.
Kliknij „AceView Gene Summary” na stronie szczegółów indywidualnego transkryptu, aby uzyskać dostęp do genu na stronie NCBI AceView.
Metody
Miliony sekwencji cDNA dostępnych w publicznych bazach danych (GenBank, dbEST, GSS, Traces, itd.) są wyrównywane wspólnie na sekwencji genomu, dbając o zachowanie sparowanych 5′ i 3′ odczytów z pojedynczych klonów powiązanych w tym samym transkrypcie. Zbierane są użyteczne informacje o tkance, stadium, publikacjach, procedurze izolacji itp. Alignacje AceView na genomie wykorzystują wiedzę o błędach sekwencjonowania uzyskaną z analizy śladów sekwencjonowania i kooperacyjnych refinementów. Zazwyczaj są one uzyskiwane na całej długości EST lub mRNA (średnio 98,8% wyrównania, 0,2% niedopasowania w mRNA lub 95,5% wyrównania, 1,4% niedopasowania w EST).
Wielokrotne wyrównania są oceniane, a sekwencje są rygorystycznie utrzymywane tylko w ich najlepszej pozycji w całym genomie. Mniej niż 1% mRNA i mniej niż 2% EST będzie ostatecznie wyrównanych w więcej niż jednym genie, zwykle w ~1% blisko powtarzających się genów.
Sekwencje cDNA są następnie przetwarzane i czyszczone: wektory i polyA są obcinane, odczyty przypuszczalnie złożone na niewłaściwej nici są odwracane, a małe polimorfizmy insercji lub delecji są identyfikowane.Ewentualne rearanżacje klonów cDNA lub anomalne wyrównania są oznaczane i filtrowane (podobnie jak ręcznie), aby nie utracić unikalnych cennych informacji, jednocześnie unikając zanieczyszczenia bazy danych słabo wspieranymi anomalnymi danymi.
Niestety, biblioteki cDNA są wciąż dalekie od nasycenia, ponieważ do czasu sekwencjonowania o wysokiej przepustowości, sekwencje cDNA były trudne do uzyskania. Są one jednak najczystszą i najbardziej wiarygodną informacją do definiowania genów molekularnych. Z tego powodu pojedyncza dobrej jakości sekwencja cDNA, wyrównana do standardowych intronów w genomie, jest uważana za wystarczający dowód na istnienie danego splicowanego fragmentu mRNA. W przeciwieństwie do tego, nie splecione wyrównania mogą odzwierciedlać genomowe zanieczyszczenie bibliotek cDNA, a niekodujące geny pojedynczego eksonu są zgłaszane tylko wtedy, gdy są wspierane przez sześć lub więcej dostępów. Liczne pojedyncze egzony TAR wspierane przez 5 lub mniej cDNA należą do tak zwanej „chmury” (nie są wyświetlane w UCSC Genome Browser, ale mają adnotacje w AceView i można je pobrać osobno ze strony ftp).
Sekwencje cDNA są grupowane w minimalną liczbę alternatywnych wariantów transkryptów, preferując transkrypcje częściowe od sztucznie uzupełnionych. Sekwencje są konkatenowane przez prosty kontakt, ale unika się kombinatoryki pozwalając, by każdy akces cDNA przyczynił się do powstania jednego alternatywnego wariantu, najlepiej takiego, w którym łączy się bezgłośnie, nie wnosząc żadnej nowej informacji o sekwencji. W rezultacie wszystkie krótsze odczyty zgodne z pełnometrażowym mRNA zostaną wchłonięte w ten transkrypt i nie będą używane do rozszerzenia innych niekompatybilnych transkryptów.
Około 70% wariantów, wyraźnie zidentyfikowanych na stronie Acembly, ma cały swój region kodujący białko obsługiwany przez pojedynczy cDNA; inne mogą być niedozwolonymi konkatenacjami, które mogą być podzielone i powiązane inaczej, gdy więcej danych stanie się dostępnych. Główną sekwencją transkryptu używaną w anotacji jest sekwencja śladu transkryptu na genomie, która jest lepszej jakości niż mRNA: procedura ta koryguje do 2% błędów sekwencjonowania. Pojedyncze insercje, delecje, przejścia lub transwersje zasad są przedstawione graficznie w widoku mRNA, gdzie częste SNP stają się widoczne.
Putatywne regiony kodujące białka są przewidywane z sekwencji mRNA i anotowane przy użyciu BlastP, PFAM, Psort2 i porównania z białkami AceView z innych gatunków. Najlepsze białka są punktowane (patrz Przegląd AceView na stronie Acembly), a transkrypty są proponowane jako kodujące lub niekodujące białka.
Ekspresja, wsparcie cDNA, specyficzność tkankowa, sekwencje alternatywnych transkryptów, intronów i eksonów, alternatywnych promotorów, alternatywnych eksonów i alternatywnych miejsc poliadenylacji są oceniane i anotowane w bogatych tabelach na stronie internetowej Acembly.
Zrekonstruowane alternatywne transkrypty są następnie grupowane w geny, jeśli mają co najmniej jeden dokładny intron lub jeśli ich sekwencje w znacznym stopniu się pokrywają (80% sekwencji jednego zawartej w drugim). Geny kodujące i niekodujące są definiowane, a geny w antysensie są oznaczane.
Geny AceView są dopasowywane przez kontakt molekularny do genów Entrez i nazywane zgodnie z nomenklaturą Entrez Gene. Dla nowych genów, których nie ma w Entrez, AceView tworzy nowe nazwy genów, które są utrzymywane od wydania do wydania, aż geny otrzymają oficjalną lub Entrez nazwę genu.
Wiedza na temat każdego genu jest opatrzona adnotacjami pod warunkiem, że istnieje wsparcie PubMed. Wybrane funkcjonalne adnotacje są zbierane z innych źródeł, w tym Entrez. Ponadto, kandydaci na badaczy związków chorobowych są pobierane bezpośrednio z PubMed, oprócz OMIM i GAD. Wreszcie, listy najbardziej blisko spokrewnionych genów według funkcji, ścieżki, kompleksu białkowego, adnotacji GO, choroby, lokalizacji komórkowej lub wszystkich kryteriów razem są proponowane, aby stymulować badania i rozwój.
Credits
Podziękowania dla Danielle i Jean Thierry-Mieg w NCBI za dostarczenie tego utworu dla człowieka, robaka i myszy.
.