Descrizione
Questa traccia mostra i modelli di geni AceView costruiti dacDNA da Danielle e Jean Thierry-Mieg all’NCBI, utilizzando il loro programma AceView.
AceView è unico in quanto definisce i geni a livello di genoma utilizzando solo, ma esaustivamente, le sequenze sperimentali di cDNA dalla specie stessa. L’analisi sfrutta sofisticati algoritmi di co-allineamento cDNA-genoma e la qualità della sequenza del genoma per fornire una rappresentazione completa e non ridondante delle sequenze di cDNA GenBank, dbEST, GSS, Trace e RefSeq. La prossima release, più avanti nel 2011, includerà anche i dati depositati in SRA (o repository pubblico assimilato) come parte del progetto collaborativo SEQC guidato da Leming Shi della FDA e che coinvolge sequenze di RNA ad alta produttività fornite da Helicos, Illumina, LifeTech SOLiD e Roche 454, che affinano e arricchiscono notevolmente i modelli genici.
In un certo senso, le trascrizioni AceView rappresentano una visione “nr” non ridondante completamente annotata degli RNA pubblici, meno gli artefatti di clonazione, le contaminazioni e le sequenze di cattiva qualità. Le trascrizioni AceView attualmente rappresentano una compattazione di 10 volte rispetto ai dati grezzi, con una perdita minima di informazioni sulla sequenza.
87% delle sequenze di RNA pubbliche sono raggruppate in trascrizioni alternative e geni AceView, identificando così quasi il doppio dei geni principali rispetto ai “geni noti” sia nell’uomo che nel topo. Dal 18% al 25% dei geni spliced appaiono non codificanti, rispettivamente nel topo e nell’uomo. I trascritti alternativi sono prominenti in entrambe le specie. Il tipico gene umano produce in media otto distinte forme alternative spliced da tre promotori e con tre esoni terminali non sovrapposti. Ha in media tre esoni di cassetta e quattro siti donatori o accettatori interni. Il sito AceView propone inoltre un’annotazione biologica approfondita dei geni ricostruiti, compresa l’associazione a malattie e la specificità dei tessuti delle trascrizioni alternative.
AceView combina il rispetto dei dati sperimentali con un ampio controllo di qualità. Valutati nelle regioni ENCODE, i trascritti AceView sono quasi indistinguibili dai geni di riferimento Gencode curati manualmente (vedi Thierry-Mieg, 2006, o confronta le due tracce nel Genome Browser), ma sull’intero genoma il numero di trascritti supera Havana/Vega di un fattore tre e RefSeq di un fattore sei.
Per maggiori informazioni sulle diverse tracce geniche, vedi le nostre Genes FAQ.
Convenzioni di visualizzazione e configurazione
Questa traccia segue le convenzioni di visualizzazione delle tracce geniche. Tutti i modelli di geni visualizzati alla UCSC sono nella classe “cDNA-supported” e sono visualizzati in rosa.
La pagina di descrizione della traccia offre le seguenti opzioni di filtro e configurazione:
- Colora la traccia per codoni: Selezionare l’opzione codoni genomici per colorare ed etichettare ogni codone in una visualizzazione ingrandita per facilitare la convalida e il confronto con le previsioni dei geni. Clicca sul link Codon coloring help nella pagina di descrizione della traccia per maggiori informazioni su questa funzione.
Clicca su “AceView Gene Summary” nella pagina dei dettagli di una singola trascrizione per accedere al gene sul sito web NCBI AceView.
Metodi
I milioni di sequenze di cDNA disponibili nei database pubblici (GenBank, dbEST, GSS, Traces, ecc.) sono allineati in modo cooperativo sulla sequenza del genoma, avendo cura di mantenere le letture appaiate 5′ e 3′ di singoli cloni associati nello stesso trascritto. Vengono raccolte informazioni utili su tessuto, stadio, pubblicazioni, procedura di isolamento e così via. Gli allineamenti AceView sul genoma utilizzano la conoscenza degli errori di sequenziamento ottenuti analizzando le tracce di sequenziamento e i raffinamenti cooperativi. Sono solitamente ottenuti sull’intera lunghezza dell’EST o dell’mRNA (in media 98,8% allineati, 0,2% mismatches negli mRNA o 95,5% allineati, 1,4% mismatches negli EST).
Sono valutati allineamenti multipli e le sequenze sono rigorosamente mantenute solo nella loro migliore posizione a livello genomico. Meno dell’1% degli mRNA e meno del 2% degli EST saranno alla fine allineati in più di un gene, di solito nel ~1% dei geni strettamente ripetuti.
Le sequenze di cDNA vengono quindi elaborate e pulite: i vettori e il polyA vengono tagliati, le letture presumibilmente presentate sul filamento sbagliato vengono invertite, e i piccoli polimorfismi di inserzione o delezione vengono identificati.Eventuali riarrangiamenti di cloni di cDNA o allineamenti anomali sono segnalati e filtrati (in modo simile a quello manuale) in modo da non perdere informazioni uniche di valore, evitando l’inquinamento del database con dati anomali scarsamente supportati.
Purtroppo, le librerie di cDNA sono ancora lontane dalla saturazione, perché fino all’high throughput sequencing, le sequenze di cDNA erano difficili da ottenere. Eppure sono le informazioni più pulite e affidabili per definire i geni molecolari. Per questo motivo, una singola sequenza di cDNA di buona qualità, allineata con gli introni standard del genoma, è considerata una prova sufficiente per un dato frammento di mRNA spliced. Al contrario, gli allineamenti non giuntati potrebbero riflettere la contaminazione genomica delle librerie di cDNA, e i geni non codificanti a esone singolo sono riportati solo se sono supportati da sei o più accessioni. I numerosi TAR ad esone singolo supportati da 5 o meno cDNA appartengono a quella che viene definita ‘la nuvola’ (non visualizzata sul Genome Browser UCSC, ma annotata in AceView e scaricabile separatamente dal sito ftp).
Le sequenze di cDNA sono raggruppate in un numero minimo di varianti di trascrizione alternative, preferendo trascrizioni parziali a quelle completate artificialmente. Le sequenze sono concatenate per semplice contatto, ma la combinatoria è evitata permettendo ad ogni adesione di cDNA di contribuire ad una singola variante alternativa, preferibilmente una in cui si fonde silenziosamente senza portare alcuna nuova informazione di sequenza. Di conseguenza, tutte le letture più brevi compatibili con un mRNA completo saranno assorbite in quella trascrizione e non saranno usate per estendere altre trascrizioni incompatibili.
Circa il 70% delle varianti, chiaramente identificate sul sito Acembly, hanno la loro intera regione codificante della proteina supportata da un singolo cDNA; le altre possono essere concatenazioni illecite che possono essere divise e associate diversamente quando più dati diventano disponibili. La sequenza principale della trascrizione utilizzata nell’annotazione è quella dell’impronta della trascrizione sul genoma, che è di migliore qualità rispetto agli mRNA: questa procedura corregge fino al 2% degli errori di sequenziamento. L’inserzione, la delezione, la transizione o la trasversione di una singola base è mostrata graficamente nella vista dell’mRNA, dove gli SNP frequenti diventano evidenti.
Le regioni codificanti le proteine sono predette dalla sequenza dell’mRNA e annotate usando BlastP, PFAM, Psort2, e il confronto con proteine AceView di altre specie. Le migliori proteine sono valutate (vedi la Panoramica Aceview sul sito Acembly) e le trascrizioni sono proposte putativamente come codificanti o non codificanti.
Espressione, supporto cDNA, specificità del tessuto, sequenze di trascrizioni alternative, introni ed esoni, promotori alternativi, esoni alternativi e siti di poliadenilazione alternativi sono valutati e annotati in ricche tabelle sul sito web Acembly.
I trascritti alternativi ricostruiti sono poi raggruppati in geni se condividono almeno un confine di introni esatto o se hanno una sostanziale sovrapposizione di sequenza (80% della sequenza di uno inclusa nell’altro). I geni codificanti e non codificanti sono definiti, e i geni in antisenso sono contrassegnati.
I geni di AceView sono abbinati per contatto molecolare ai geni Entrez e nominati secondo la nomenclatura Entrez Gene. Per i nuovi geni non presenti in Entrez, AceView crea nuovi nomi di geni che vengono mantenuti da una release all’altra fino a quando i geni non ricevono un nome ufficiale o un nome di gene Entrez.
Le annotazioni su ogni gene sono fornite a condizione che ci sia un supporto PubMed. Le annotazioni funzionali selezionate sono raccolte da altre fonti, incluso Entrez. Inoltre, le associazioni di malattie testate candidate sono estratte direttamente da PubMed, oltre a OMIM e GAD. Infine, sono proposti elenchi dei geni più strettamente correlati per funzione, percorso, complesso proteico, annotazione GO, malattia, localizzazione cellulare o tutti i criteri presi insieme, per stimolare la ricerca e lo sviluppo.
Credits
Grazie a Danielle e Jean Thierry-Mieg all’NCBI per aver fornito questa traccia per l’uomo, il verme e il topo.