Description
Esta faixa mostra modelos de genes AceView construídos a partir decDNA por Danielle e Jean Thierry-Mieg no NCBI, usando seu programa AceView.
AceView é único no sentido em que define os genes em todo o genoma, usando apenas, mas exaustivamente, as seqüências experimentais de cDNA da própria espécie. A análise explora sofisticados algoritmos de co-alinhamento entre cDNA e genoma e a qualidade da seqüência do genoma para fornecer uma representação abrangente e não redundante das seqüências GenBank, dbEST, GSS, Trace e RefSeq de cDNA. O próximo lançamento, ainda em 2011, também incluirá os dados depositados no SRA (ou repositório público assimilado) como parte do projeto colaborativo SEQC liderado por Leming Shi do FDA e envolvendo seqüências de RNA de alto rendimento fornecidas por Helicos, Illumina, LifeTech SOLiD e Roche 454, que refinam e enriquecem muito os modelos genéticos.
De certa forma, as transcrições AceView representam uma visão “nr” totalmente anotada e não redundante dos RNAs públicos, menos artefatos de clonagem, contaminações e seqüências de má qualidade. As transcrições do AceView atualmente representam uma compactação de 10 vezes em relação aos dados brutos, com perda mínima de informação de seqüência.
87% das seqüências públicas de RNA são coalescidas em transcrições e genes alternativos do AceView, identificando assim perto do dobro dos genes principais que existem “genes conhecidos” tanto em humanos quanto em camundongos. 18% a 25% dos genes emendados parecem não codificados, no rato e no humano respectivamente. As transcrições alternativas são proeminentes em ambas as espécies. O geneproduto humano típico produz em média oito formas distintas de emendas alternadas de três promotores e com três exões terminais não sobrepostos. Tem em média três exões cassetes e quatro locais de doação ou aceitação interna. O site AceView propõe ainda uma anotação biológica completa dos genes reconstruídos, incluindo associação a doenças e especificidade tecidual das transcrições alternativas.
AceView combina o respeito pelos dados experimentais com um extenso controle de qualidade. Avaliado nas regiões do ENCODE, as transcrições do AceView são quase indistinguíveis dos genes de referência do Gencode curados manualmente (ver Thierry-Mieg, 2006, ou comparar as duas faixas do Genome Browser), mas em todo o genoma o número de transcrições excede Havana/Vega por um fator de três e RefSeq por um fator de seis.
Para mais informações sobre as diferentes faixas do gene, veja nossa FAQ Genes.
Convenções de exibição e configuração
Esta faixa segue as convenções de exibição das faixas do gene. Todos os modelos de genes exibidos no UCSC estão na classe “cDNA-suportado” e são exibidos em rosa.
A página de descrição da faixa oferece o seguinte filtro e opções de configuração:
- Pista de cores por códones: Selecione a opção de códons genômicos para colorir e rotular cada códon em um display com zoom para facilitar a validação e comparação com as previsões genéticas. Clique no link de ajuda de coloração do Codon na página de descrição da faixa para obter mais informações sobre este recurso.
Clique no “AceView Gene Summary” na página de detalhes de uma transcrição individual para acessar o gene no site do NCBI AceView.
Métodos
Os milhões de sequências de cDNA disponíveis nas bases de dados públicas (GenBank, dbEST, GSS, Traces, etc.) estão alinhados cooperativamente na sequência do genoma, tendo o cuidado de manter as leituras de 5′ e 3′ pareadas de clones únicos associados na mesma transcrição. Informações úteis sobre tecido, estágio, publicações, procedimento de isolamento, etc. são coletadas. Os alinhamentos AceView sobre o genoma utilizam o conhecimento sobre erros de sequenciação obtidos através da análise de traços de sequenciação e refinamentos cooperativos. Eles são geralmente obtidos em todo o comprimento do EST ou mRNA (média de 98,8% alinhados, 0,2% de desalinhamentos em mRNAs ou 95,5% alinhados, 1,4% de desalinhamentos em ESTs).
Alinhamentos múltiplos são avaliados e as sequências são rigorosamente mantidas apenas em sua melhor posição em todo o genoma. Menos de 1% dos mRNAs e menos de 2% dos ESTs serão alinhados em mais de um gene, geralmente nos genes ~1% repetidos de perto.
As seqüências de cDNA são então processadas e limpas: os vetores e poliA são cortados, as leituras presumivelmente submetidas no fio errado são invertidas, e os pequenos polimorfismos de inserção ou deleção são identificados.Eventuais rearranjos de clones de cDNA ou alinhamentos anômalos são sinalizados e filtrados (semelhantes aos manuais) para não perder informações valiosas e ao mesmo tempo evitar a poluição da base de dados com dados anômalos mal suportados.
Felizmente, as bibliotecas de cDNA ainda estão longe da saturação, pois até o momento de alta sequenciação de produção, as sequências de cDNA eram difíceis de obter. No entanto, elas são a informação mais limpa e confiável para definir os genes moleculares. Por esta razão, uma única seqüência de cDNA de boa qualidade, alinhada com introns padrão no genoma, é considerada evidência suficiente para um dado fragmento de mRNA emendado. Em contraste, alinhamentos não emendados poderiam refletir a contaminação genômica de bibliotecas de cDNA, e genes únicos exon não codificados são relatados apenas se forem suportados por seis ou mais acessos. Os numerosos exon únicos TARs suportados por 5 ou menos cDNAs pertencem ao que é chamado de ‘a nuvem’ (não mostrado no UCSC Genome Browser, mas anotado no AceView e que pode ser baixado separadamente do site ftp).
As seqüências de cDNA são agrupadas em um número mínimo de variantes de transcrição alternativas, preferindo transcrições parciais a transcrições artificialmente completadas. As seqüências são concatenadas por simples contato, mas as combinatórias são evitadas permitindo que cada adesão ao cDNA contribua para uma única variante alternativa, de preferência uma em que ela se funda silenciosamente sem trazer nenhuma nova informação de seqüência. Como resultado, todas as leituras mais curtas compatíveis com um mRNA de comprimento total serão absorvidas nessa transcrição e não serão usadas para estender outras transcrições incompatíveis.
Sobre 70% das variantes, claramente identificadas no site da Acembly, têm toda a sua região de codificação de proteínas suportada por um único cDNA; as outras podem ser concatenações ilícitas que podem ser divididas e associadas de forma diferente quando mais dados se tornam disponíveis. A sequência principal da transcrição utilizada na anotação é a da pegada da transcrição no genoma, que é de melhor qualidade que os mRNAs: este procedimento corrige até 2% dos erros de sequenciação. A inserção, exclusão, transição ou transversa de uma base é mostrada graficamente na visualização do mRNA, onde os SNPs frequentes tornam-se evidentes.
As regiões de codificação de proteínas são previstas a partir da sequência do mRNA e anotadas usando BlastP, PFAM, Psort2, e comparação com proteínas AceView de outras espécies. As melhores proteínas são pontuadas (veja oAceview Overview no site Acembly) e transcrições são putativamente propostas para serem codificadoras de proteínas ou não codificadoras.
Expressão, suporte a cDNA, especificidade de tecidos, seqüências de transcrições alternativas, introns e exons, promotores alternativos, exons alternativos e sites alternativos de poliadenilação são avaliados e anotados em tabelas ricas no site Acembly.
As transcrições alternativas reconstruídas são então agrupadas em genes se eles compartilham pelo menos um limite intron exato ou se eles têm sobreposição substancial de seqüências (80% da seqüência de um incluído no outro). Genes codificadores e não codificadores são definidos, e genes em antisense são sinalizados.
AceView genes são combinados por contato molecular com genes Entrez e nomeados de acordo com a nomenclatura Entrez Gene. Para novos genes que não estão no Entrez, AceView cria novos nomes de genes que são mantidos de release to release até que os genes recebam um nome oficial ou o nome do gene Entrez.
Knowledge em cada gene é anotado desde que haja suporte da PubMed. As anotações funcionais selecionadas são coletadas de outras fontes, incluindo o Entrez. Além disso, as associações de doenças candidatas testadas são extraídas diretamente da PubMed, além do OMIM e do GAD. Finalmente, listas dos genes mais estreitamente relacionados por função, via, complexo proteico, anotação GO, doença, localização celular ou todos os critérios juntos são propostos, para estimular a pesquisa e desenvolvimento.
Credits
Obrigado a Danielle e Jean Thierry-Mieg no NCBI por fornecerem esta pista para humanos, vermes e ratos.