









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
SECUENCIACION MASIVA DE GENOMAS
Tipo: Apuntes
1 / 16
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










Resumen Las tecnologías de próxima generación permiten la secuenciación de ADNc a gran escala (denominada RNA-Seq). Principalmente debido a la dificultad de alinear las lecturas cortas en las uniones exón-exón, hasta ahora no se han hecho intentos para utilizar RNA-Seq para construir modelos de genes de novo , es decir, en ausencia de un conjunto de genes conocidos y / o empalmes eventos. Presentamos G-Mo.R-Se (Modelado de genes usando RNA-Seq), un enfoque dirigido a construir modelos de genes directamente a partir de RNA-Seq y demostrar su utilidad en el genoma de la vid.
Antecedentes Las tecnologías de secuenciación de próxima generación generan muchas lecturas cortas de fragmentos de ADN en una escala de tiempo reducida y han reducido el costo por nucleótido [ 1 , 2 ]. Se han utilizado lecturas cortas genómicas para investigar la variación genética [ 3 ], los reordenamientos genómicos [ 4 ], la metilación del ADN [ 5 ] y los sitios de unión del factor de transcripción (Chip-Seq) [ 6 , 7 ]. Se tuvieron que desarrollar nuevos algoritmos para la secuenciación del genoma, con el fin de mapear eficientemente números muy altos de lecturas [ 8 - 11 ], así como para ensamblajes de genoma de novo , con el fin de hacer frente a la corta duración de las lecturas (generalmente menos de 35 nucleótidos) [12 - 16 ]. Los métodos de secuenciación de próxima generación también se han aplicado a la secuencia de ADNc en lugar de ADN genómico, para catalogar microARN [ 17 - 19 ] o analizar el paisaje transcripcional de varios genomas eucariotas: esta tecnología se llama ARN-Seq [ 20 - 26 ]
Antes del desarrollo de la tecnología RNA-Seq, el análisis de ARN a gran escala podría realizarse con dos tipos de enfoques. Los primeros enfoques basados en etiquetas [ 27 ], como el análisis en serie de la expresión génica (SAGE) [ 28 ] y la secuenciación de firma masivamente paralela (MPSS) [ 29 ], se basaron en la secuenciación de etiquetas clonadas previamente ubicadas en ubicaciones específicas de transcripción. (generalmente extremos de 3 'o 5'). La abundancia de la transcripción podría derivarse del recuento de etiquetas en loci ya conocidos, pero no se pudieron descubrir nuevos genes o nuevas formas alternativas de empalme. El enfoque alternativo, los microarrays basados en hibridación, tiene el potencial de monitorear el nivel de expresión en todo el transcriptoma (no necesariamente sesgado hacia genes conocidos, cuando se usan arreglos de mosaico de genoma completo [ 30 - 32 ]) a bajo costo, pero está sesgado por los niveles de fondo de hibridación y el hecho de que las sondas difieren en sus propiedades de hibridación. Sin embargo, el método estándar de oro para el descubrimiento de la transcripción sigue siendo la secuencia de etiqueta de secuencia expresada (EST) (por tecnología Sanger) de ADNc clonados [ 33 - 35] Su principal limitación, además del costo relativamente alto, es que este método es sensible a los sesgos de clonación. La tecnología RNA-Seq combina las ventajas de los métodos de análisis de ARN a gran escala anteriores al permitir el monitoreo del paisaje transcripcional de un genoma completo a bajo costo, sin los prejuicios introducidos por las matrices, y tiene la ventaja adicional de proporcionar información sobre estructuras de transcripción (límites exón-exón), como la secuenciación tipo EST Sanger en un rango más largo, pero sin sesgos de clonación. Además, debido a que se puede obtener fácilmente un gran número de lecturas, RNA-Seq es lo suficientemente sensible como para detectar la transcripción de genes con bajos niveles de expresión, que generalmente se pierden en el análisis EST [ 21 , 23 , 25 ].
En estudios recientes, RNA-Seq se ha utilizado principalmente para cuantificar los niveles de expresión de loci ya anotados, identificar genes expresados diferencialmente y medir la expresión fuera de esos loci (en regiones intrónicas o intergénicas) [ 21 - 24 , 26 ]. Además, la información estructural se ha utilizado para detectar formas alternativas de empalme ya conocidas [ 22 , 23 ], identificar nuevos eventos transcripcionales en relación con loci conocidos (empalme alternativo, extremos 5 ') [ 24 , 26 ] y refinar estructuras genéticas anotadas o proponer nuevos modelos de genes [ 21 , 23] Sin embargo, no se han hecho intentos para
aprovechar la información de conectividad contenida en los datos de RNA-Seq para construir modelos de genes de novo , es decir, en ausencia de un conjunto de genes conocidos y / o eventos de empalme.
Tradicionalmente, las secuencias EST, cDNA y de proteínas son el recurso más preciso para identificar loci de genes y anotar la estructura exón / intrón en secuencias genómicas [ 36 ]. Estos recursos se pueden mapear en una secuencia genómica con una estrategia de alineación global que permite la inserción de espacios de regiones genómicas correspondientes a intrones potenciales bordeados por sitios de empalme [ 37 - 41 ]. Las posiciones resultantes de los límites de exón e intrón se pueden ensamblar para construir estructuras de transcripción completas [ 42] Pero los métodos utilizados para construir alineaciones empalmadas de EST en genomas no son aplicables a lecturas cortas, ya que requieren que los bloques de secuencia que rodean una unión de empalme sean lo suficientemente largos y muy similares a la región genómica para construir una cobertura de alineación no ambigua El límite exón-exón. Ahora están surgiendo nuevos métodos para construir alineaciones empalmadas de lecturas de secuencia corta [ 43 ]. Sin embargo, aún requieren información a priori sobre el genoma analizado (características del sitio de empalme) para reducir el número de uniones a analizar, ya que probar todos los posibles pares 'GT / C-AG' en un genoma es obviamente inviable.
En este estudio, presentamos un método destinado a utilizar lecturas cortas de RNA-Seq para construir modelos de genes de novo. Primero, los exones candidatos se construyen directamente desde las posiciones de las lecturas mapeadas en el genoma (sin un ensamblaje ab initio de las lecturas), y luego todas las posibles uniones de empalme entre esos exones se prueban contra lecturas no mapeadas: la prueba de las uniones está dirigida por información disponible en el conjunto de datos RNA-Seq en lugar de a priori conocimiento sobre el genoma. Los exones se pueden encadenar en modelos de genes varados. Demostramos la viabilidad de este método, que llamamos G-Mo.R-Se (para el modelado de genes utilizando RNA-Seq), en el genoma de la vid [ 44] usando aproximadamente 175 millones de lecturas de Solexa / Illumina RNA-Seq de cuatro tejidos. Esto permitió la identificación de nuevos exones (en loci conocidos) y formas alternativas de empalme, así como loci completamente nuevos. Mostramos que este enfoque es una alternativa eficiente a la secuencia estándar de ADNc: detecta más transcripciones a menor costo. Podría ser particularmente útil en el caso de especies para las que hay pocos recursos disponibles (es decir, que están muy distantes de las especies actualmente presentes en las bases de datos EST / proteína). G-Mo.R-Se también se puede combinar con otros datos en una anotación de genoma eucariota automática o manual. Todos los datos descritos en este artículo están disponibles en el sitio web G-Mo.R-Se [ 45 ].
Resultados y discusión
Construyendo modelos de genes a partir de lecturas de RNA-Seq Obtuvimos 173 millones de lecturas de Solexa / Illumina RNA-Seq de ARNm extraídos de cuatro tejidos (hoja, raíz, tallo, callo). De estos, 138 millones de lecturas podrían asignarse sin ambigüedades con SOAP (Short Oligonucleotide Analysis Package) [ 8 ] al ensamblaje de la secuencia del genoma de Vitis vinifera [ 44 ]. Las lecturas mapeadas se contornearon para construir exones candidatos, lo que llamamos 'covtigs' (para contigs de cobertura, es decir, regiones obtenidas al contornear posiciones adyacentes con una profundidad de cobertura mayor que un umbral). Las uniones de candidatos entre covtigs se probaron utilizando las lecturas no asignadas. Finalmente, se utilizó un enfoque gráfico para encadenar los exones a través de uniones validadas en modelos de genes (ver Materiales y métodos; Figura 1) Se conservaron todos los posibles encadenamientos entre exones, lo que permitió la anotación de formas alternativas de empalme. Los covtigs que no estaban involucrados en ninguna unión validada se descartaron, lo que implica que no se anotaron transcripciones monoexónicas. El procedimiento, que llamamos G-Mo.R-Se , produjo 46,062 modelos de transcripción, agrupados en 19,486 loci (un promedio de 2.4 transcripciones por locus). Se encontró una secuencia de codificación plausible (CDS) para 28,399 modelos, agrupados en 12,341 loci.
modelo y detección de secuencia de codificación) revisamos el gráfico anterior y extraemos todas las rutas posibles entre cada fuente y cada sumidero. Cada ruta representará una transcripción pronosticada y se identificará un CDS para cada transcripción. Modelos M 1 , M 2 , M 5 y M 7 (las regiones no traducidas están en gris, los intrones en negro y los exones de codificación en rojo) modelan correctamente las transcripciones reales T 1 , T 2 , T 3 y T 5 (las regiones no traducidas están en gris y los intrones y los exones se indican mediante líneas y cuadros negros, respectivamente). Como todas las rutas posibles se extraen del gráfico, algunas de ellas pueden no corresponder a transcripciones reales (por ejemplo, modelos M 3 , M 4 y M 6 ).
La definición de Covtig fue esencial para que las pruebas posteriores de uniones fueran eficientes, especialmente con respecto a las divisiones y fusiones de exones (ver Materiales y métodos). La división de exones en covtigs separados puede ocurrir cuando la profundidad de cobertura de lectura disminuye (por debajo del umbral de profundidad utilizado para construir covtigs), lo que puede deberse a regiones repetidas (solo conservamos las lecturas que se mapearon en una posición única en el genoma ), a desajustes / brechas en la secuencia genómica (solo mantuvimos las lecturas mapeadas con a lo sumo dos desajustes y sin indeles), o sesgos experimentales que conducen a variaciones de profundidad en los ADNc secuenciados y a la no normalización de la biblioteca. De hecho, se han observado algunos sesgos en la uniformidad de cobertura de las lecturas en estudios previos de RNA-Seq [ 23 ].
Apuntamos a corregir las divisiones de dos maneras. Primero, en el paso de definición de covtig (paso 1 en la Figura 1 ), ampliamos los covtigs usando todos los 16-mers encontrados en las lecturas, para pasar por desajustes y repeticiones cortas. Luego, en el paso de construcción del modelo (paso 4 en la Figura 1 ), fusionamos los modelos que estaban unidos por un marco de lectura abierto.
La fusión de artefactos de exones en un solo covtig puede ocurrir cuando la muestra de ARNm contiene transcripciones inmaduras con intrones retenidos, proporcionando lecturas que se mapean en los intrones. Dado que se espera que las transcripciones inmaduras estén subrepresentadas en el conjunto de ARNm, se espera que la profundidad en los intrones retenidos sea menor que en los exones adyacentes: establecer un umbral de profundidad apropiado para la construcción de covtigs debería evitar tales fusiones.
El umbral de profundidad utilizado para la construcción de covtig se estableció para equilibrar el número de divisiones y el número de fusiones. De hecho, los umbrales bajos generarán pocas divisiones pero numerosas fusiones y, por el contrario, los umbrales altos generarán pocas fusiones pero numerosas divisiones. Para corregir más fusiones, podríamos extender la prueba de uniones dentro de los covtigs, en lugar de probar las uniones solo entre covtigs.
Evaluamos el mapeo directo de las lecturas, los exones candidatos iniciales (covtigs) y los modelos finales producidos por G-Mo.R-Se a nivel de nucleótidos en comparación con la anotación de V. vinifera de referencia [ 44 ] (Tabla 1) El umbral de profundidad establecido para construir los covtigs descarta la mayor parte del ruido (el 63% de los nucleótidos cubiertos por las lecturas se encuentran en compartimientos intergénicos o intrónicos en comparación con solo el 40% de los nucleótidos cubiertos por los covtigs) mientras retiene la señal que cae en los exones (66 El% de los nucleótidos exónicos están cubiertos por lecturas, y el 56% están cubiertos por covtigs). Es probable que este ruido se corresponda con el fondo transcripcional, la expresión de elementos transponibles o la contaminación genómica en las muestras secuenciadas, en lugar de los artefactos de mapeo SOAP, ya que solo conservamos las posiciones donde las lecturas podrían mapearse de manera única, con a lo sumo dos desajustes. Al considerar modelos finales en lugar de covtigs iniciales, la sensibilidad disminuye ligeramente (del 56% al 43% de las bases exónicas cubiertas) pero la especificidad aumenta considerablemente (del 60% al 80% de los nucleótidos, en covtigs o modelos, caen en el compartimento exónico), lo que sugiere que la mayoría de los covtigs que no se pudo vincular
a ningún otro covtig como resultado del ruido transcripcional o experimental. Los modelos todavía incluyen aproximadamente el 1% de los nucleótidos del compartimento intergénico, lo que indica que este compartimento alberga genes nuevos, previamente no anotados.
Tabla 1 Superposición nucleotídica de lecturas de RNA-Seq, covtigs G-Mo.R-Se y modelos G-Mo.R-Se con diferentes compartimentos genómicos en relación con la anotación de referencia
La especificidad refleja el porcentaje de nucleótidos en lecturas / covtigs / modelos que caen en el compartimento; la sensibilidad refleja el porcentaje de nucleótidos en el compartimento genómico superpuesto por lecturas / covtigs / modelos.
Logramos seleccionar un umbral de profundidad satisfactorio con respecto a las divisiones / fusiones (Figura S1 en el archivo de datos adicionales 1), así como las relaciones señal / ruido. Obviamente, el umbral de profundidad óptimo dependerá en gran medida de las características del conjunto de datos analizado, como la complejidad del transcriptoma, la cantidad de empalme alternativo, la cantidad de transcripción fuera de los genes codificadores de proteínas y la profundidad de secuenciación, y debe ser cuidadosamente seleccionado para que G-Mo.R-Se funcione de manera óptima.
Comparación de la tubería G-Mo.R-Se con el ensamblaje directo de lecturas Comparamos los modelos finales G-Mo.R-Se y las estructuras obtenidas al ensamblar las lecturas con Velvet [ 14 ] y mapear los contigs ensamblados al genoma con est2genome [ 37 ] (Tabla 2 ). Menos genes de referencia se superponen (en al menos un nucleótido) por contigs de Velvet empalmados que por modelos (40.3% y 50.3%, respectivamente). El número de genes superpuestos en al menos el 75% de sus nucleótidos cae aún más para los terciopelos contigs en comparación con G-Mo.R-Se modelos (del 30,6% al 11,8%), lo que indica que la mayoría de los genes que se superponen por Velvet contigs no están cubiertos en toda su longitud. El número promedio de modelos o contigs de Velvet por gen (1.28 y 2.05, respectivamente) también refleja que los genes de referencia están más fragmentados por los contigs de Velvet que por los modelos G-Mo.R-Se. Además, investigamos la precisión de los modelos G-Mo.R-Se y los contigios de terciopelo en el punto de vista estructural utilizando una colección de ADNc: el 56% de los loci de ADNc se predicen exactamente (todos los límites de exón / intrón) por G- Modelos Mo.R-Se y 32% por Velvet contigs (Tabla S1 en el archivo de datos adicionales 1). Comparamos la profundidad de cobertura promedio de los genes de referencia que están correctamente anotados por G-Mo.R-Se modelos y contigs de terciopelo (es decir, que tienen al menos el 75% de sus nucleótidos cubiertos). Una profundidad mínima de 4 es suficiente para que los modelos G-Mo.R-Se anoten genes satisfactoriamente, mientras que se requiere una profundidad mínima de 13 para los contigs de terciopelo (Figura 2 ). Dado que G-Mo.R-Se se basa en la secuencia del genoma, no es necesaria una superposición significativa entre las lecturas para unirlas en un covtig: solo deben ser adyacentes en el genoma. Esto explica por qué se requiere una profundidad de cobertura mucho menor para G- Mo.R-Se que para Velvet. A diferencia del montaje directo de lecturas, el G-Mo.R-Se la canalización puede detectar transcripciones que están débilmente representadas en el
(incluyendo 87,199 ADNc multi-exonic agrupadas en 7.895 loci) que se secuenciaron con el Sanger tecnología durante el curso del proyecto de secuenciación y anotación del genoma de V. vinifera [ 44 ] (Tabla 3 ).
Tabla 3 Superposición de loci de ADNc (todos los loci y loci donde todos los 32 mers son únicos) con los modelos G-Mo.R-Se
Los 46.062 modelos G-Mo.R-Se se superponen alrededor del 70% de los 7.895 loci de ADNc (en más del 75% de sus nucleótidos). La razón más obvia por la cual aproximadamente el 15% de los loci de ADNc no se superponen en ningún modelo es que corresponden a ADN repetitivo. Comparamos la proporción de 32 mers únicos (en todo el genoma de V. vinifera ) para los 5.449 loci de ADNc bien cubiertos por modelos y los 1.064 loci de ADNc descubiertos por modelos. Parece que la mayoría de los loci de ADNc que se perdieron en los modelos están constituidos principalmente por 32 mers no únicos (Figura 3 ). Cuando se consideran solo los 4.822 loci donde todos los 32 mers son únicos, el 95% de los loci de ADNc son afectados por un modelo (Tabla 3) Entre el 5% de los loci de ADNc que se pierden, algunos están demasiado mal cubiertos por las lecturas para que se construyan los covigios y / o las uniones que se validen, y otros tienen lecturas en sus intrones, que crean exones fusionados, evitando que los modelos sean detectados como empalmado, ya que un gran covtig abarca todo el locus.
figura 3
Proporción de 32 mers únicos en grupos de ADNc. El porcentaje de 32 mers únicos se muestra para grupos de ADNc superpuestos por modelos en más del 75% de sus nucleótidos (verde) y grupos de ADNc no superpuestos por modelos (rojo). El eje y corresponde al porcentaje de grupos de ADNc en cada contenedor (el ancho del contenedor es del 10% de 32 mers únicos entre todos los 32 mers en el grupo).
Curiosamente, G-Mo.R-Se detecta 2,5 veces más loci que el enfoque de secuenciación de ADNc estándar (19,486 loci versus 7,895). Entre los 19.486 loci G-Mo.R-Se , solo el 36% se superponen a los loci de ADNc. Comparamos las características de los 5.698 loci G-Mo.R-Se que se superponen a los ADNc en al menos el 50% de sus nucleótidos y los 12.392 loci que están fuera de los loci de ADNc (Figura 4 ). Los loci G-Mo.R-Se que son nuevos con respecto a los ADNc estándar tienden a expresarse a niveles más bajos que los loci que se superponen a los ADNc. Estos loci se investigan con más detalle en la sección "Identificación de genes nuevos y mejora de la anotación genética". La tecnología RNA-Seq, combinada con G-Mo.R-Se , es capaz de detectar la expresión génica que se calificaría en silencio con un enfoque estándar de clonación y secuenciación de ADNc, o que necesitaría un extenso esfuerzo de secuenciación de Sanger.
Figura 4
El G-Mo.R-Se la tubería no permite la detección de retenciones de intrones (IR), ya que actualmente no probamos las uniones dentro de los covtigs: si la profundidad en el intrón retenido es mayor que el umbral que usamos para construir los covtigs, obtendremos solo una variante de empalme que contiene El intrón retenido. Es probable que la mayoría de las fusiones de exón que detectamos en comparación con los ADNc (Figura S1 en el archivo de datos adicionales 1) correspondan a casos de IR. Sin embargo, pudimos detectar donantes o aceptores alternativos, exones omitidos y exones mutuamente excluyentes. La abundancia relativa de estas diferentes clases de eventos es similar en los modelos y los ADNc (del más frecuente al menos frecuente: aceptores / donantes alternativos, exones omitidos, exones mutuamente excluyentes), pero el número total de eventos de empalme alternativos en los modelos (11,842 en todos los modelos, 5, 152 en porciones de CDS) es mucho mayor que en los ADNc (944 eventos, cuando se eliminan los 1,227 IR). Las formas de empalme expresadas a niveles bajos, que no pudieron detectarse con la clonación de ADNc y la secuenciación de Sanger, parecen albergar un número inesperado de eventos de empalme alternativos. Es probable que todos estos eventos no sean compatibles con la capacidad de codificación de las transcripciones. Sin embargo, cuando se restringe el análisis a las porciones de codificación de los modelos con CDS plausibles (es decir, es probable que se predigan correctamente), el número de eventos de empalme alternativos sigue siendo mayor que para los ADNc y las proporciones de los diferentes tipos de eventos permanecen sin cambios. Como ejemplo, figura que no pudieron detectarse con la clonación de ADNc y la secuenciación de Sanger, parecen albergar un número inesperado de eventos de empalme alternativos. Es probable que todos estos eventos no sean compatibles con la capacidad de codificación de las transcripciones. Sin embargo, cuando se restringe el análisis a las porciones de codificación de los modelos con CDS plausibles (es decir, es probable que se predigan correctamente), el número de eventos de empalme alternativos sigue siendo mayor que para los ADNc y las proporciones de los diferentes tipos de eventos permanecen sin cambios. Como ejemplo, figura que no pudieron detectarse con la clonación de ADNc y la secuenciación de Sanger, parecen albergar un número inesperado de eventos de empalme alternativos. Es probable que todos estos eventos no sean compatibles con la capacidad de codificación de las transcripciones. Sin embargo, cuando se restringe el análisis a las porciones de codificación de los modelos con CDS plausibles (es decir, es probable que se predigan correctamente), el número de eventos de empalme alternativos sigue siendo mayor que para los ADNc y las proporciones de los diferentes tipos de eventos permanecen sin cambios. Como ejemplo, figura el número de eventos de empalme alternativos sigue siendo mayor que para los ADNc y las proporciones de los diferentes tipos de eventos permanecen sin cambios. Como ejemplo, figura el número de eventos de empalme alternativos sigue siendo mayor que para los ADNc y las proporciones de los diferentes tipos de eventos permanecen sin cambios. Como ejemplo, figura5 muestra un lugar donde se predicen tres modelos de codificación alternativos: dos de ellos (M 2 y M 3 ) ya están respaldados por evidencia EST, pero el tercer modelo (M 1 ) corresponde a una nueva forma alternativa de empalme. Aunque el número de eventos de empalme alternativo es mayor en el conjunto de datos de RNA-Seq que en el conjunto de datos de cDNA, la proporción de loci donde se produce el splicing alternativo es similar para los grupos de cDNA y los modelos G-Mo.R-Se (10% y 8%, respectivamente). Estos resultados están de acuerdo con estudios previos que mostraron que la fracción de genes empalmados
alternativamente es menor en plantas que en animales [ 47] En particular, de los 944 eventos no IR detectados en los ADNc, los modelos detectan solo 175 (18.5%): aunque algunos de estos eventos pueden resultar de un mapeo incorrecto de los ADNc, la mayoría de ellos probablemente sean reales y hayan sido errado por G-Mo.R-Se (Tabla 5) La tubería detectó solo el 7,2% de los exones omitidos y el 25% de los exones mutuamente excluyentes, lo que probablemente se deba a la cantidad limitada de covtigs vecinos (20) que probamos para validar las uniones. Solo se detectó el 22,6% de los donantes / aceptores alternativos porque buscamos uniones de solo 100 nucleótidos alrededor de los límites de covtig, lo que limitó la ventana donde se podían descubrir sitios de empalme alternativos (ver Materiales y métodos). Obviamente, la construcción del modelo no fue diseñada para capturar todo el paisaje de empalme alternativo de un genoma. Pero aún así, la visión no exhaustiva que obtenemos es mucho más rica de lo que podría sospecharse de la secuenciación EST clásica. Para estudiar el empalme alternativo de forma exhaustiva, lo que está fuera del alcance de este estudio, se deberán desarrollar herramientas específicas.
Figura 5
Ejemplo de modelos empalmados alternativamente construidos a partir de lecturas cortas. La figura muestra una captura de una región genómica de 4 kb del cromosoma 12 de V. vinifera entre 3.836.500 pb y 3.840.500 pb. La primera pista (anotaciones del
En este estudio, demostramos la viabilidad de construir modelos de genes de novo , utilizando solo lecturas de RNA-Seq y la secuencia genómica correspondiente, con una tubería de anotación relativamente sencilla que llamamos G-Mo.R-Se. Usando un conjunto de datos de aproximadamente 175 millones de lecturas de Solexa, podría detectar más loci de los que podrían identificarse mediante la clonación y secuenciación de aproximadamente 120, ADNc, a un costo aproximadamente 20 veces menor (55% de los genes multi-exónicos de la anotación se superponen por modelos versus solo 35% por ADNc de V. vinifera ). Especialmente, G-Mo.R-Se permitió la anotación de loci expresada en niveles muy bajos. Mostramos que este enfoque descifra eficientemente las transcripciones reales del ruido transcripcional / experimental ya que el paso de validación de la unión elimina los covtigs falsos positivos. Además, aunque no fue diseñado para ser exhaustivo en la detección de eventos de empalme alternativos, G-Mo.R-Se detectó más formas de empalme alternativas que el recurso de ADNc, sin necesidad de un conocimiento a priori de las uniones exón-exón para probar. Finalmente, también podríamos identificar genes novedosos putativos (que se habían perdido por el procedimiento de anotación automática) en un genoma que ya está muy bien anotado debido a la gran cantidad de recursos disponibles en este filo. Probamos el G-Mo.R- Se la tubería con lecturas de RNA-Seq de Solexa / Illumina, pero puede aceptar fácilmente cualquier otro tipo de lecturas cortas o combinar lecturas de diferentes tecnologías.
Para futuros proyectos de genoma, es concebible pensar en realizar la anotación utilizando análisis RNA-Seq tratados con G-Mo.R-Se como recurso único, siempre que los tejidos o tipos de células muestreados sean lo suficientemente representativos como para generar una anotación completa. Este enfoque será particularmente valioso en phyla, donde hay pocos recursos disponibles (es decir, que están muy distantes de las especies actualmente presentes en las bases de datos EST / proteína), donde se podría evitar el paso costoso y lento de construir bibliotecas de ADNc. Cuando hay otros recursos disponibles, los modelos de genes también se pueden combinar con otros datos en tuberías de anotación de genoma eucariotas automáticas o manuales.
Aunque la tubería G-Mo.R-Se funciona satisfactoriamente en V. vinifera conjunto de datos, todavía es bastante simple y podemos pensar en varios refinamientos. Primero, por el momento, no se producen modelos monoexónicos (tales modelos representan solo el 8% de los genes de uva anotados), pero podríamos recuperar fácilmente los covtigs que no estaban vinculados a ningún otro covtig por una unión validada, si contienen un CDS que excede una cierta longitud. Luego, en el paso de construcción de covtig, en lugar de utilizar un umbral de profundidad fijo, podríamos adaptarlo al entorno: los covtigs se construirían para coincidir con fuertes aumentos / disminuciones de profundidad. Dicha estrategia debería permitir la anotación de exones separados en caso de IR. Para corregir aún más fusiones, también sería sencillo probar las uniones candidatas dentro de los covtigs además de las uniones probadas entre los covtigs. Dado que el alcance de este estudio fue anotar tantos genes como sea posible, elegimos agrupar las lecturas de los cuatro tejidos antes de construir los covigios. Pero también podríamos considerar la construcción de covtigs y modelos de genes por separado en diferentes muestras, con el fin de investigar la expresión diferencial, aunque en detrimento de la sensibilidad. Un último refinamiento más elaborado sería utilizar la información de profundidad para vincular solo los covtigs que probablemente sean parte de la misma transcripción, en lugar de construir todos los modelos que correspondan a las rutas más largas posibles en el gráfico de covtigs vinculados por Uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. Elegimos agrupar las lecturas de los cuatro tejidos antes de construir los covtigs. Pero también podríamos considerar la construcción de covtigs y modelos de genes por separado en diferentes muestras, con el fin de investigar la expresión diferencial, aunque en detrimento de la sensibilidad. Un último refinamiento más elaborado sería utilizar la información de profundidad para vincular solo los covtigs que probablemente sean parte de la misma transcripción, en lugar de construir todos los modelos que correspondan a las rutas más largas posibles en el gráfico de covtigs vinculados por
Uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. Elegimos agrupar las lecturas de los cuatro tejidos antes de construir los covtigs. Pero también podríamos considerar la construcción de covtigs y modelos de genes por separado en diferentes muestras, con el fin de investigar la expresión diferencial, aunque en detrimento de la sensibilidad. Un último refinamiento más elaborado sería utilizar la información de profundidad para vincular solo los covtigs que probablemente sean parte de la misma transcripción, en lugar de construir todos los modelos que correspondan a las rutas más largas posibles en el gráfico de covtigs vinculados por Uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. para investigar la expresión diferencial, aunque en detrimento de la sensibilidad. Un último refinamiento más elaborado sería utilizar la información de profundidad para vincular solo los covtigs que probablemente sean parte de la misma transcripción, en lugar de construir todos los modelos que correspondan a las rutas más largas posibles en el gráfico de covtigs vinculados por Uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. para investigar la expresión diferencial, aunque en detrimento de la sensibilidad. Un último refinamiento más elaborado sería utilizar la información de profundidad para vincular solo los covtigs que probablemente sean parte de la misma transcripción, en lugar de construir todos los modelos que correspondan a las rutas más largas posibles en el gráfico de covtigs vinculados por Uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. en lugar de construir todos los modelos que corresponden a las rutas más largas posibles en el gráfico de covtigs vinculados por uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo. en lugar de construir todos los modelos que corresponden a las rutas más largas posibles en el gráfico de covtigs vinculados por uniones validadas. Tal enfoque permitiría especular sobre una contigüidad de empalme de mayor alcance y estudiar más exhaustivamente el paisaje de empalme alternativo.
materiales y métodos
Experimentos de RNA-Seq
Se obtuvieron lecturas de RNA-Seq (como se describe en Del Fabbro et al ., Datos no publicados) secuenciando ADNc obtenido de cuatro muestras de tejido con la tecnología Solexa / Illumina: hoja (11 carriles), raíz (9 carriles), callos (9 carriles) ) y tallo (9 carriles). Las moléculas de ARNm se purificaron a partir de extracciones de ARN totales y se fragmentaron antes de la síntesis de ADNc (con cebadores hexámeros aleatorios). El protocolo no era específico de hebra. Las lecturas de extremo único obtenidas fueron de 32 nucleótidos de largo, a excepción de 5 carriles en la muestra de callos, donde las lecturas fueron de 35 nucleótidos de largo. Las 172,545,778 lecturas utilizables resultantes (5.4 Gbases) se mapearon en el genoma de V. vinifera [ 44 ] usando SOAP [ 8] con una longitud de semilla de 12 y parámetros predeterminados: se mapearon 138,326,238 lecturas (4.6 Gbases) en una posición única con como máximo dos desajustes y sin indeles. Como consecuencia, las lecturas que se alinean con las uniones exón-exón no se pudieron asignar a la secuencia genómica.
Construyendo modelos genéticos a partir de lecturas cortas
El método G-Mo.R-Se para construir modelos de genes a partir de lecturas cortas se resume en la Figura 1. El primer paso es la definición de covtigs (contigs de cobertura). Se construyen al contornear las posiciones donde las lecturas cortas se alinean por encima de un cierto umbral de profundidad de cobertura. Este umbral es un parámetro que debe ajustarse para equilibrar la sensibilidad y la especificidad, así como las divisiones y fusiones. En ausencia de un conjunto de entrenamiento para cuantificar las divisiones y fusiones, este parámetro también se puede optimizar maximizando el número de uniones validadas en el siguiente paso. Antes de la prueba posterior de las uniones, los covtigs se extendieron utilizando todos los 16-mers
El mismo procedimiento de agrupamiento se aplicó a modelos y secuencias de ADNc alineadas en el genoma. Utilizamos un enfoque de agrupación de enlace único, donde se creó un enlace entre dos modelos si tenían una superposición exónica acumulada (en la misma cadena) de al menos 100 nucleótidos (solo se consideraron las superposiciones de al menos 10 nucleótidos). Se utilizó un enfoque basado en gráficos para resolver la agrupación de enlaces individuales. Además, la redundancia se eliminó de los ADNc descartando todas las estructuras de transcripción que se incluyeron completamente en estructuras más largas. Detectamos todos los eventos de empalme alternativo por pares entre pares de intrones, con el mismo método que se describe en [ 46] Todos los genes duplicados en tándem se descartaron de los eventos de empalme alternativos detectados, ya que dichos genes pueden estar unidos artificialmente mediante el mapeo de ADNc, así como la construcción del modelo, y generarían formas de empalme alternativas falsas que abarcan varios loci en lugar de uno. Sin embargo, es notable que, dado que la tubería construye todos los modelos posibles, siempre predecirá los dos modelos correctos separados además de los modelos unidos incorrectos.
Archivos de datos adicionales
Los siguientes datos adicionales están disponibles con la versión en línea del documento. El archivo de datos adicional 1 es un archivo de Word que contiene las Tablas S1 y S2 y las Figuras S1 y S2. Tabla S1: estructuras de transcripción de ADNc predichas correctamente por G-Mo.R- Se y Velvet. Tabla S2: soporte (en recursos públicos) de modelos G-Mo.R-Se que no se superponen a los ADNc. Figura S1: proporciones de fusiones de exón y divisiones de exón obtenidas con diferentes umbrales de profundidad para el paso de construcción de covtig. Figura S2: ejemplo de un modelo novedoso.
Abreviaturas
CDS: secuencia de codificación EST: etiqueta de secuencia expresada G-Mo.R-Se : Modelado de genes usando RNA-Seq IR: retención de intrones JABÓN: Paquete de Análisis Corto de Oligonucleótido.