El ADN Repetitivo | Apuntes de Biología

1.3 El ADN Repetitivo

Como hemos visto al principio de este Capítulo, hasta un 50% del Genoma Humano está constituido por

ADN repetitivo, antiguamente conocido como "ADN basura". Por su importancia, a continuación

estudiamos con mayor detalle su composición y los distintos tipos de secuencias que lo forman. Ya se ha

mencionado que podemos encontrar ADN repetitivo tanto en el ADN codificante (en los genes y secuencias

relacionadas) como en el ADN no-codificante, pero la mayor parte se encuentra en el ADN no-codificante.

Quizás el único ejemplo de ADN repetitivo codificante que merece la pena reseñar es el correspondiente

al ADN ribosomal, que se concentra en los brazos cortos de los cromosomas acrocéntricos (13, 14, 15,

21 y 22) y está formado por tres genes que dan lugar a los tres ARN ribosomales de 5,8S, de 18S y de

28S. Los tres genes están juntos formando un bloque que mide unas 13 kilobases. Estos bloques se

encuentran repetidos unas 50 veces, separados entre sí por un espaciador intergénico que mide unas 30

kilobases. En conjunto, el ADN ribosomal ocupa un tamaño de unas 2 Megabases.

En el ADN no-codificante, tanto intragénico (es decir, intrones y otras regiones no-codificantes

relacionadas con genes) como extragénico, podemos encontrar diversos tipos de elementos repetidos. En

general, se trata de una secuencia de ADN que se repite en el genoma cientos o miles de veces. Estas

repeticiones pueden encontrarse en tándem (es decir, seguidas una detrás de otra) o dispersas.

El ADN repetido en tandem se divide en varios grupos según el tamaño total que origina la repetición:

 El genoma humano contiene en total unas 250 Mb de ADN satélite (llamado así porque al separar

el ADN genómico en gradientes de densidad aparece como 3 bandas "satélites" de la banda

principal). El ADN satélite está formado por la repetición de una secuencia de ADN miles de veces

en tandem, es decir unas copias pegadas a otras. Esto da lugar a regiones repetidas con tamaños

que van desde 100 kb hasta varias megabases. Por ejemplo, el ADN Satélite 1 es una secuencia

de 42 nucleótidos, mientras que en el Satélite 2 la secuencia repetida es (ATTCCATTCG) y en el

Satélite 3 se repite el pentámero (ATTCC). Un tipo de ADN satélite muy importante es el ADN

alfoide ó Satélite alfa, en el que la secuencia repetida tiene un tamaño de 171 nucleótidos, y que

forma parte del ADN de los centrómeros de los cromosomas humanos. Otros tipos de ADN satélite

son el Satélite beta (repetición de 68 nucleótidos) y el Satélite gamma (repetición de 220

nucleótidos), que también se encuentran en la cromatina centromérica de varios cromosomas.

 El ADN de tipo Minisatélite está formado por secuencias de 6 - 25 nucleótidos que se repiten en

tándem hasta dar un tamaño total entre 100 nucleótidos y 20 kb. Un ejemplo de ADN Minisatélite

es la repetición que forma los telómeros de los cromosomas humanos, en los que el

hexanucleótido (TTAGGG) se repite miles de veces en tándem dando lugar a bloques de 5 - 20 kb

de tamaño. Algunas repeticiones de este tipo son polimórficas, y dan lugar a los marcadores de

tipo VNTR que hemos mencionado en un apartado anterior.

 El ADN de tipo Microsatélite está formado por secuencias de 2, 3 ó 4 nucleótidos que se repiten

hasta dar bloques con un tamaño total habitualmente no superior a 150 nucleótidos. Hay

repeticiones de este tipo por todo el genoma humano, y muchas de ellas son muy útiles como

marcadores genéticos porque el número de repeticiones varía entre individuos. Ejemplos de ADN

microsatélite son los dinucleótidos (CA), ó las repeticiones de trinucleótidos (CAG).

El ADN repetido disperso está formado por secuencias que se repiten miles de veces en el genoma

humano, pero no en tándem sino de manera dispersa. Este tipo de repeticiones constituyen un 45% de

todo el genoma humano, y se clasifican en función del tamaño de la unidad repetida:

 Los SINE (Short Interspersed Nuclear Elements, elementos nucleares dispersos cortos) suponen

un 13% del genoma humano. Son secuencias cortas repetidas miles de veces en el genoma

humano de forma dispersa. El principal SINE es la familia de elementos Alu, que es específica de

primates y constituye un 10% de nuestro genoma. Un elemento Alu está formado por una

Vista previa parcial del texto

¡Descarga El ADN Repetitivo y más Apuntes en PDF de Biología solo en Docsity!

1.3 El ADN Repetitivo

Como hemos visto al principio de este Capítulo, hasta un 50% del Genoma Humano está constituido por ADN repetitivo , antiguamente conocido como "ADN basura". Por su importancia, a continuación estudiamos con mayor detalle su composición y los distintos tipos de secuencias que lo forman. Ya se ha mencionado que podemos encontrar ADN repetitivo tanto en el ADN codificante (en los genes y secuencias relacionadas) como en el ADN no-codificante, pero la mayor parte se encuentra en el ADN no-codificante. Quizás el único ejemplo de ADN repetitivo codificante que merece la pena reseñar es el correspondiente al ADN ribosomal , que se concentra en los brazos cortos de los cromosomas acrocéntricos (13, 14, 15, 21 y 22) y está formado por tres genes que dan lugar a los tres ARN ribosomales de 5,8S, de 18S y de 28S. Los tres genes están juntos formando un bloque que mide unas 13 kilobases. Estos bloques se encuentran repetidos unas 50 veces, separados entre sí por un espaciador intergénico que mide unas 30 kilobases. En conjunto, el ADN ribosomal ocupa un tamaño de unas 2 Megabases. En el ADN no-codificante, tanto intragénico (es decir, intrones y otras regiones no-codificantes relacionadas con genes) como extragénico, podemos encontrar diversos tipos de elementos repetidos. En general, se trata de una secuencia de ADN que se repite en el genoma cientos o miles de veces. Estas repeticiones pueden encontrarse en tándem (es decir, seguidas una detrás de otra) o dispersas. El ADN repetido en tandem se divide en varios grupos según el tamaño total que origina la repetición:  El genoma humano contiene en total unas 250 Mb de ADN satélite (llamado así porque al separar el ADN genómico en gradientes de densidad aparece como 3 bandas "satélites" de la banda principal). El ADN satélite está formado por la repetición de una secuencia de ADN miles de veces en tandem, es decir unas copias pegadas a otras. Esto da lugar a regiones repetidas con tamaños que van desde 100 kb hasta varias megabases. Por ejemplo, el ADN Satélite 1 es una secuencia de 42 nucleótidos, mientras que en el Satélite 2 la secuencia repetida es (ATTCCATTCG) y en el Satélite 3 se repite el pentámero (ATTCC). Un tipo de ADN satélite muy importante es el ADN alfoide ó Satélite alfa , en el que la secuencia repetida tiene un tamaño de 171 nucleótidos, y que forma parte del ADN de los centrómeros de los cromosomas humanos. Otros tipos de ADN satélite son el Satélite beta (repetición de 68 nucleótidos) y el Satélite gamma (repetición de 220 nucleótidos), que también se encuentran en la cromatina centromérica de varios cromosomas.  El ADN de tipo Minisatélite está formado por secuencias de 6 - 25 nucleótidos que se repiten en tándem hasta dar un tamaño total entre 100 nucleótidos y 20 kb. Un ejemplo de ADN Minisatélite es la repetición que forma los telómeros de los cromosomas humanos, en los que el hexanucleótido (TTAGGG) se repite miles de veces en tándem dando lugar a bloques de 5 - 20 kb de tamaño. Algunas repeticiones de este tipo son polimórficas, y dan lugar a los marcadores de tipo VNTR que hemos mencionado en un apartado anterior.  El ADN de tipo Microsatélite está formado por secuencias de 2, 3 ó 4 nucleótidos que se repiten hasta dar bloques con un tamaño total habitualmente no superior a 150 nucleótidos. Hay repeticiones de este tipo por todo el genoma humano, y muchas de ellas son muy útiles como marcadores genéticos porque el número de repeticiones varía entre individuos. Ejemplos de ADN microsatélite son los dinucleótidos (CA), ó las repeticiones de trinucleótidos (CAG). El ADN repetido disperso está formado por secuencias que se repiten miles de veces en el genoma humano, pero no en tándem sino de manera dispersa. Este tipo de repeticiones constituyen un 45% de todo el genoma humano, y se clasifican en función del tamaño de la unidad repetida:  Los SINE (Short Interspersed Nuclear Elements , elementos nucleares dispersos cortos) suponen un 13% del genoma humano. Son secuencias cortas repetidas miles de veces en el genoma humano de forma dispersa. El principal SINE es la familia de elementos Alu , que es específica de primates y constituye un 10% de nuestro genoma. Un elemento Alu está formado por una

secuencia de 250 - 280 nucleótidos, con unas 1.500.000 copias por genoma y una repetición cada 4 kb como promedio. Es un elemento relativamente rico en guaninas+citosinas (56% de contenido en CG, mientras que el contenido promedio del genoma humano es del 41%). Se localiza predominantemente en la bandas R de los cromosomas humanos. Está flanqueado por pequeñas repeticiones directas (en la misma orientación). Su estructura es la de un dímero no idéntico, ya que el segundo monómero es 30 nucleótidos mayor que el primero. Contiene colas poli-A al final de cada monómero, y se transcribe por la ARN polimerasa III a partir de un promotor interno, pero no codifica ninguna proteína. Actúa como un retrotransposón , ya que puede copiarse e insertarse en otras regiones del genoma.  Los LINE ( Long Interspersed Nuclear Elements , o elementos nucleares dispersos largos) constituyen un 20% del genoma humano. Son secuencias con un tamaño de varias kilobases, agrupados en distintas familias. El principal LINE es el llamado LINE-1 ó L1 , formado por una secuencia de unas 6 kb repetida unas 800,000 veces en el genoma (aunque muchos de estos elementos no están completos, sino truncados y les falta la parte 5’), llegando a constituir alrededor de un 15% del genoma. Estos elementos, al contrario que los SINE, no son ricos en guaninas+citosinas (tienen un 42% de citosinas+guaninas , que es cercano al contenido promedio del genoma humano) y se localizan predominantemente en las bandas G de los cromosomas. Un elemento L1 codifica dos proteínas: una ARN-binding protein en el marco de lectura ORF1 y una proteína con actividad endonucleasa y retrotranscriptasa en el marco de lectura ORF2. Está flanqueado por unas pequeñas repeticiones directas (en la misma orientación) y termina en una cola poli-A. Los elementos LINE son retrotransposones, puesto que pueden copiarse a sí mismos a través de un intermediario ARN y transponerse a otras localizaciones genómicas. Según el modelo más aceptado, el elemento se transcribe por la ARN polimerasa II a partir de un promotor interno, sus productos proteicos se unen a la cola poli-A de su propio ARN mensajero y el complejo se inserta en el ADN genómico por la acción combinada de la endonucleasa (que corta dentro de regiones ricas en AT que llevan la secuencia TTTT?A) y de la retrotranscriptasa. Las proteínas codificadas por los LINE son utilizadas también para la retrotransposición de elementos SINE y de pseudogenes procesados, por lo que pueden jugar un importante papel como elemento modificador del genoma. De hecho se ha visto que la secuencia propia de los L1 tiene la propiedad de inhibir la transcripción, de ahí que los niveles de ARNm y proteínas codificadas por los L1 en las células sea muy bajo. Lo más interesante es que también pueden modificar la transcripción de los genes en cuyos intrones hay abundancia de estos elementos: un 80% de los genes humanos tienen L1 en sus intrones, y la densidad en L1 correlaciona negativamente con los niveles de expresión de estos genes. Por tanto, su papel tanto en la evolución de genomas como en la regulación génica le confieren una gran importancia. Se acabó el mito del "ADN basura".

Figura 1.10: muestra esquemáticamente la estructura y la abundancia de los principales tipos de repeticiones dispersas que contiene el genoma humano: elementos tipo LINE, elementos tipo SINE, elementos retrovirales y transposones de ADN.

Es importante hacer algún comentario sobre la movilidad de los retroelementos dispersos. Tanto los LINE como los Alu que estén completos pueden, en teoría, copiarse e insertarse en otra posición del genoma a través de un intermediario ARNm. De hecho, esto sucede habitualmente, aunque por fortuna con muy baja frecuencia. Se calcula que 1 de cada 100-200 nuevos nacimientos lleva una inserción nueva de un Alu o de un L1, que pueden ser causa de enfermedades por diversos mecanismos. Esta tasa de nuevas inserciones es mucho más baja que en otros mamíferos. Por lo que respecta a los L1, se calcula que existen actualmente unos 5000 elementos completos en el genoma humano, de los cuales unos 90 son activos (capaces de retrotransposición). El potencial patogénico de estos elementos viene dado por la propia capacidad de insertarse aleatoriamente en el genoma (e interrumpir genes), por la desregulación de la expresión de genes cercanos (por los elementos promotores de los LINE y SINE), pero sobre todo por recombinación ilegítima entre copias de Alu o L1 que están en localizaciones cromosómicas distintas. Curiosamente, los elementos Alu causan este tipo de recombinación con más frecuencia que los L1, especialmente en algunos genes que sufren duplicaciones o deleciones por recombinación entre secuencias Alu.

1.4 El Proyecto ENCODE

ENCODE es el acrónimo de EN cyclopedia O f D NA E lements, y se trata de un proyecto de análisis exhaustivo del genoma humano , que comenzó con un proyecto piloto en el que se estudió sólo el 1% del total. Al final se ha obtenido una imagen muy detallada que muestra todos los transcritos primarios y maduros, así como la localización de las principales modificaciones de histonas, los sitios de unión de factores de transcripción, sitios de inicio de la transcripción, sitios hipersensibles a DNAsa, etc; todo ello unido a datos de expresión génica, de replicación y del número de copia de esas mismas regiones. Al principio, lo más llamativo de este análisis fue la gran cantidad de transcripción que se detecta a lo largo del genoma humano: un 15% de los nucleótidos están incluidos en transcritos maduros, y una gran parte del resto de las bases (hasta el 90%) forman parte de transcritos primarios en algún tejido. Además, se observan muchos sitios de inicio de la transcripción distintos a los anotados previamente, a menudo alejados de lo que se consideraba el inicio del gen. Igualmente, se identificaron unos 200 pseudogenes (60% procesados y 40% no-procesados), de los cuales una quinta parte se transcriben. Esto, extrapolado al resto del genoma significa unos 20.000 pseudogenes en total. Aunque posteriormente se ha visto que la intensidad de la transcripción “basal” no es tan alta, los datos aportados por ENCODE indican que los genes son más complejos de lo que se pensaba hasta ahora: en vez de la visión tradicional, según la cual un gen da lugar a uno o varios transcritos alternativos que codifican una proteína en sus varias isoformas, parece claro que una región genómica puede codificar distintos productos proteicos y además dar lugar a otros transcritos (no necesariamente codificantes de proteínas) en ambas cadenas. Todo esto ha llevado a replantear el concepto de gen , que en la era post- ENCODE se definiría como “la unión de las secuencias genómicas que codifican un conjunto coherente de productos funcionales, potencialmente solapantes”. Esta definición hace hincapié en el producto funcional que se codifica (de ahí el uso de “coherente” para indicar que se trata de codificar una proteína o un ARN). Lo más novedoso de esta definición es que las regiones no traducidas (UTR) no formarían parte del gen, quedando incluidas – junto con los elementos reguladores- en la categoría de “regiones asociadas con genes”. La definición alternativa, más acorde con el pensamiento actual, de que un gen es “la región genómica que codifica un conjunto de transcritos alternativos solapantes”, aunque codifiquen distintos productos proteicos, es problemática a la luz de los datos aportados por el proyecto ENCODE. Si existe mucho solapamiento de transcritos, la aplicación de esta definición daría lugar a un número pequeño de genes muy extensos, los cuales además tendrían escaso significado biológico al codificar productos funcionales diversos (un mismo gen podría dar lugar a proteínas distintas y/o ARN no codificantes). La nueva definición probablemente aumentará el número total de genes del genoma , pero al estar centrada en el producto final es más informativa de la función de cada gen concreto.

El ADN Repetitivo, Apuntes de Biología

Documentos relacionados

Vista previa parcial del texto

¡Descarga El ADN Repetitivo y más Apuntes en PDF de Biología solo en Docsity!

1.3 El ADN Repetitivo

1.4 El Proyecto ENCODE