Descripción
Esta pista muestra modelos de genes AceView construidos a partir de ADNc por Danielle y Jean Thierry-Mieg en el NCBI, utilizando su programa AceView.
AceView es único en el sentido de que define los genes en todo el genoma utilizando únicamente, pero de forma exhaustiva, las secuencias experimentales de ADNc de la propia especie. El análisis explota sofisticados algoritmos de coalineación de cDNA a genoma y la calidad de la secuencia del genoma para proporcionar una representación completa y no redundante de las secuencias de cDNA de GenBank, dbEST, GSS, Trace y RefSeq. La próxima versión, a finales de 2011, incluirá también los datos depositados en SRA (o repositorio público asimilado) como parte del proyecto de colaboración SEQC dirigido por Leming Shi de la FDA y en el que participan secuencias de ARN de alto rendimiento proporcionadas por Helicos, Illumina, LifeTech SOLiD y Roche 454, que refinan y enriquecen enormemente los modelos de genes.
En cierto modo, las transcripciones de AceView representan una visión completamente anotada y no redundante de los ARN públicos, menos los artefactos de clonación, las contaminaciones y las secuencias de mala calidad. Las transcripciones de AceView representan actualmente una compactación 10 veces superior a la de los datos brutos, con una pérdida mínima de información de la secuencia.
El 87% de las secuencias públicas de ARN se unen en transcripciones y genes alternativos de AceView, identificando así cerca del doble de genes principales de los que hay «genes conocidos» tanto en humanos como en ratones. Entre el 18% y el 25% de los genes empalmados aparecen como no codificantes, en el ratón y en el ser humano respectivamente. Los transcritos alternativos son prominentes en ambas especies. El gen humano típico produce una media de ocho formas distintas empalmadas alternativamente a partir de tres promotores y con tres exones terminales no solapados. Tiene una media de tres exones de cassette y cuatro sitios internos donantes o aceptores. El sitio AceView propone además una exhaustiva anotación biológica de los genes reconstruidos, incluyendo la asociación a enfermedades y la especificidad tisular de los transcritos alternativos.
AceView combina el respeto por los datos experimentales con un amplio control de calidad. Evaluados en las regiones de ENCODE, los transcritos de AceView son casi indistinguibles de los genes de referencia Gencode curados manualmente (véase Thierry-Mieg, 2006, o compare las dos pistas en el Navegador del Genoma), pero en todo el genoma el número de transcritos supera a Havana/Vega en un factor de tres y a RefSeq en un factor de seis.
Para obtener más información sobre las diferentes pistas de genes, consulte nuestro Genes FAQ.
Convenciones de visualización y configuración
Esta pista sigue las convenciones de visualización para las pistas de genes. Todos los modelos de genes que se muestran en la UCSC pertenecen a la clase «cDNA-supported» y se muestran en color rosa.
La página de descripción de la pista ofrece las siguientes opciones de filtro y configuración:
- Colorea la pista por codones: Seleccione la opción de codones genómicos para colorear y etiquetar cada codón en una visualización ampliada para facilitar la validación y la comparación con las predicciones de genes. Haga clic en el enlace de ayuda de coloración de codones en la página de descripción de la pista para obtener más información sobre esta característica.
Haga clic en el «AceView Gene Summary» en la página de detalles de una transcripción individual para acceder al gen en el sitio web de NCBI AceView.
Métodos
Los millones de secuencias de cDNA disponibles en las bases de datos públicas (GenBank, dbEST, GSS, Traces, etc.) se alinean de forma cooperativa en la secuencia del genoma, teniendo cuidado de mantener las lecturas emparejadas 5′ y 3′ de clones individuales asociados en la misma transcripción. Se recoge información útil sobre el tejido, el estadio, las publicaciones, el procedimiento de aislamiento, etc. Los alineamientos de AceView sobre el genoma utilizan los conocimientos sobre los errores de secuenciación obtenidos a partir del análisis de las trazas de secuenciación y los refinamientos cooperativos. Suelen obtenerse a lo largo de toda la longitud del EST o del ARNm (media del 98,8% de alineación, 0,2% de desajustes en los ARNm o 95,5% de alineación, 1,4% de desajustes en los EST).
Se evalúan múltiples alineaciones y las secuencias se mantienen estrictamente sólo en su mejor posición en todo el genoma. Menos del 1% de los mRNAs y menos del 2% de los ESTs serán finalmente alineados en más de un gen, normalmente en el ~1% de genes estrechamente repetidos.
Las secuencias de cDNA son entonces procesadas y limpiadas: los vectores y polyA son recortados, las lecturas presumiblemente enviadas en la cadena equivocada son volteadas, y los pequeños polimorfismos de inserción o deleción son identificados.Los posibles reordenamientos de los clones de ADNc o las alineaciones anómalas se marcan y filtran (de forma parecida a la manual) para no perder información valiosa única y evitar al mismo tiempo la contaminación de la base de datos con datos anómalos mal soportados.
Desgraciadamente, las bibliotecas de ADNc todavía están lejos de la saturación, porque hasta la secuenciación de alto rendimiento, las secuencias de ADNc eran difíciles de obtener. Sin embargo, son la información más limpia y fiable para definir los genes moleculares. Por esta razón, una única secuencia de ADNc de buena calidad, alineada con los intrones estándar del genoma, se considera evidencia suficiente para un determinado fragmento de ARNm empalmado. Por el contrario, las alineaciones no empalmadas podrían reflejar la contaminación genómica de las bibliotecas de ADNc, y los genes de exón único no codificantes se notifican sólo si están respaldados por seis o más accesiones. Los numerosos TAR de exón único apoyados por 5 o menos cDNAs pertenecen a lo que se denomina «la nube» (no se muestra en el UCSC Genome Browser, pero está anotado en AceView y se puede descargar por separado desde el sitio ftp).
Las secuencias de cDNA se agrupan en un número mínimo de variantes de transcripción alternativas, prefiriendo las transcripciones parciales a las completadas artificialmente. Las secuencias se concatenan por simple contacto, pero se evita la combinatoria permitiendo que cada accesión de cDNA contribuya a una única variante alternativa, preferiblemente una en la que se fusione silenciosamente sin aportar ninguna información nueva de la secuencia. Como resultado, todas las lecturas más cortas compatibles con un ARNm de longitud completa serán absorbidas en ese transcrito y no se utilizarán para ampliar otros transcritos incompatibles.
Alrededor del 70% de las variantes, claramente identificadas en el sitio de Acembly, tienen toda su región de codificación de proteínas respaldada por un único ADNc; las demás pueden ser concatenaciones ilícitas que pueden dividirse y asociarse de forma diferente cuando haya más datos disponibles. La secuencia principal del transcrito utilizada en la anotación es la de la huella del transcrito en el genoma, que es de mejor calidad que la de los ARNm: este procedimiento corrige hasta el 2% de los errores de secuenciación. La inserción, deleción, transición o transversión de una sola base se muestra gráficamente en la vista del ARNm, donde los SNPs frecuentes se hacen evidentes.
Las regiones codificantes de proteínas se predicen a partir de la secuencia del ARNm y se anotan utilizando BlastP, PFAM, Psort2, y la comparación con proteínas AceView de otras especies. Las mejores proteínas se puntúan (véase la descripción general de AceView en el sitio web de Acembly) y los transcritos se proponen putativamente como codificantes o no codificantes de proteínas.
La expresión, el soporte de ADNc, la especificidad tisular, las secuencias de transcritos alternativos, los intrones y exones, los promotores alternativos, los exones alternativos y los sitios de poliadenilación alternativos se evalúan y anotan en tablas enriquecidas en el sitio web de Acembly.
Los transcritos alternativos reconstruidos se agrupan entonces en genes si comparten al menos un límite exacto del intrón o si tienen un solapamiento sustancial de la secuencia (80% de la secuencia de uno incluida en el otro). Se definen los genes codificantes y no codificantes, y se marcan los genes en antisentido.
Los genes de AceView se emparejan por contacto molecular con los genes de Entrez y se nombran según la nomenclatura de Entrez Gene. Para los genes nuevos que no están en Entrez, AceView crea nuevos nombres de genes que se mantienen de una versión a otra hasta que los genes reciben un nombre de gen oficial o de Entrez.
Las anotaciones de cada gen se realizan siempre que haya apoyo de PubMed. Las anotaciones funcionales seleccionadas se recogen de otras fuentes, incluyendo Entrez. Además, las asociaciones de enfermedades probadas candidatas se extraen directamente de PubMed, además de OMIM y GAD. Por último, se proponen listas de los genes más estrechamente relacionados por función, vía, complejo proteico, anotación GO, enfermedad, localización celular o todos los criterios juntos, para estimular la investigación y el desarrollo.
Créditos
Gracias a Danielle y Jean Thierry-Mieg en el NCBI por proporcionar esta pista para humanos, gusanos y ratones.