









































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Proteòmica, Profesor: , Carrera: Biotecnologia, Universidad: UAB
Tipo: Apuntes
1 / 49
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!










































TEMA 1: Introducción.
1. Introducción histórica a la genómica y “Omics”.
1974 Aparecieron los primeros métodos de secueciación que hasta los 90 eran manuales, tardaban más que los otros pero ofrecían menos error. De esta forma se consiguieron secuenciar los primeros genomas ; todos ellos de virus.
1979 La idea de secuenciar el genoma humano surgió. Pero eran necesarios avances técnicos importantes. Por ello no se puso en marcha hasta el 1990.
1980 A finales de estos años se creyó que ya se poseía toda la información.
1990 El proyecto del genoma humano fue dirigido inicialmente por J. Watson pero éste lo abandonó por negarse a patentar los genes (el quería que fueran a bancos públicos). Entonces pasaron a dirigirlo Collins, Sulstan y Morgan.
Grupo público: Estableción como estrategia de secuenciación la jerárquica; se reparten los cromosomas, los fragmentan y los clonan utilizando BAC’s (puesto que las levaduras recombinan mucho su ADN) para luego secuenciar esos trozos.
Grupo privado: En el 1992 C. Venter intentó patentar genes del cerebro conocidos como EST’s (Expressed Sequence Tag) que resultaban trozos de 150-500 bases de mARN realizadas con Northern Electrónico. Los mensajeros que se expresan en cierta región del cerebro nos indican qué genes se expresan.
1995 Ahora ya sí se disponía de los primeros genomas víricos completos. Por lo que era necesario pasar de secuencias manuales a masivas. Se produjo pues un avance técnico; el método Sanger-Coulson era más utilizado que el de Maxam-Gilbert ya que se usaba para ADN’s que precisaban un tratamiento agresivo.
L. Mood fue el primero en secuenciar automáticamente.
1970 Se descubre una molecula. los enzimas restrictivos, que cortan el ADN en sitios específicos.
1973 Se utiliza un enzima restrictivo para cortar un fragmento del ADN de un animal. Este fragmento es depositado en una bacteria que transporta la función del gen.
Una vez se consigue transferir un gen a una bacteria, ésta se reproduce, generando múltiples copias del gen, lo que permite que éstas puedan ser estudiados detalladamente.
1977 Los doctores Frederick Sanger y Walter Gilbert desarrollan (cada uno por su lado) una técnica para descifrar las cuatro bases nucleótidas del ADN: la adenina, la timina, citosina y la guanina. Esta técnica permite que aumente por mil la velocidad a la que puede ser secuenciado el genoma. Se secuencia por primera vez un organismo completo. Se trata del virus bacteriófago.
1983 Kary Mullis desarrolla la reacción en cadena de la polimerasa (PCR, de sus siglas en inglés), que permitirá a los científicos generar en pocas horas billones de copias de una cadena de ADN.
1984 1986
Representantes del departamento de Energia de EEUU proponen hacer un esfuerzo a gran escala para secuenciar el genoma humano.
1988 El doctor Watson es nombrado director de la Oficina de Investigación del Genoma Humano, organismo dependiente de los Institutos Nacionales de la Salud (NIH) de EEUU. Afirma que el genoma podrá estar descodificado para el año 2005.
1990 El doctor Craig Venter, un investigador de los NIH, desarrolla un método más corto para encontrar fragmentos del genoma humano. Demuestra que, a partir de estos fragmentos, se puede identificar a los genes completos.
1995 Los doctores Hamilton O. Smith y Venter secuencian el genoma de una bacteria (Haemophilus influenzae) utilizando el método ideado por éste último.
1997 1998
El doctor Venter se reune con el Dr. MIchael W. Hunkapiller de la empresa PE Biosystems, para lanzar una tecnología que acelere de forma espectacular la secuencia del genoma humano a gran escala. Hunkapiller le propone formar un proyecto para secuenciar el genoma siguiendo un método diferente
al que empleaba el consorcio público.
1998 Mayo
Venter se 'pasa' a una nueva compañía que pretende secuenciar el genoma humano en tres años, es decir, dos años antes de la fecha prevista por el proyecto estatal. La compañía se llamará Celera
1998 Dic.
Dos equipos, dirigidos por los biólogos Dr. John E. Sulston y Dr. Robert H. Waterston, secuencian el primer genoma completo de un animal, un gusano de la especie Caenorhabditis elegans. Se demuestra así que se puede secuenciar a gran escala.
1999 Marzo
El consorcio financiado con dinero público, o Proyecto Genoma Humano, dirigido por el Dr. Francis Collins, anuncia que el primer borrador del genoma humano estará listo para la primavera del año
2000 Marzo
Dos grupos científicos, encabezados por el Dr. Venter y el Dr. Geral M. Rubin, secuencian el genoma de la mosca de la fruta, Drosophila melanogaster, usando las técnicas del presidente de Celera.
2000 Junio
En un día que el presidente Clinton califica de histórico, Venter y Collins aparcan sus diferencias y anuncian que se ha logrado el primer borrador del genoma humano secuenciado.
2001 Febr.
La empresa Celera publica la secuenciación del genoma en la revista 'Science'. El consorcio público hace lo mismo en 'Nature'.
2. Definciones.
Genoma 1. Dotación completa de material genético (genes y secuencias no codificantes) que contiene cada célula de un organismo, virus u orgánulo.
Genómica Estrategia de investigación que, a partir de la caracterización molecular y de la clonación de genomas completos, estudia la estructura, el funcionamiento y los cambios evolutivos del material genético para poder dar respuesta a preguntas biológicas fundamentales.
Genómica funcional Campo de la investigación que trata de determinar patrones de expresión e interacciones génicas en el genoma, basándose en un conocimiento completo, o al menos muy amplio, de la secuencia genómica de un organismo.
Proteoma Dotación completa de proteínas de una determinada especie, incluyendo todos sus tejidos y estados de crecimiento.
Transcriptoma Conjunto de mARN’s expresados.
Metabolomics Análisis global del conunto de metabolismos. Celulonics, Icinomics = fosforilación, peptidomics… OMICS quiere decir análisis de millones de elementos.
Genómica Técnicas para descubrir función de genes. También para el análsis de transcritos.
Gen Homólogo
Concepto de los 70; Son aquellos genes que tienen ancestros comunes (con relación evolutiva entre ellos). Puede ser que 2 genes se parezcan pero que no tengan ancestros comunes y es debido a que ha habido convergencia, es decir, no viene uno del otro. Es casi imposible demostrar que la relación entre genes es por homología.
Gen Ortólogo
Son genes homólogos que tienen un ancestro en común (el más cercano). Los ortólogos suelen consensuar la función pero en ocasiones, por presión ecológica, pueden tener diferente función bioquímica.
Gen Parálogo
Gen que proviene de duplicaciones. Es muy probable que un gen de 2 copias cada una evolucione de forma distinta, e suna fuente de nuevos genes y de nuevas funciones. Por lo tanto sí que suelen cambiar su función.
En la práctica si se alinean las secuencias de los organismos y son muy parecidas se dice que son ortólogas. Esto se hace a nivel de proteína. Si queremos ver para´logas compararemos proteínas del mismo organismo y si existe un 70% de homología son parálogas. Se efectúa con BLAST.
Regiones Sintenias
Entre la especie humana y el chimpancé hay más sintenia. Los genes de un operón que se regulan a la vez también padecen sintenia.
Gen huérfano
Etiquetado de la f(x) de los genes del organismo se llama anotación. Si un gen huérfano es aquel que no se parece a nada de lo que hay en los bancos de datos. SI el gen se parece a un grupo del cual todavía no se conoce la función no se considera que lo sea.
Enzima huérfana
Se conoce que hay una actividad enzimática pero no se conoce la secuencia de una enzima con esta función, un 40% de estas actividades son huérfanas.
ORF Marcos de lectura que definen unas posibles proteínas. Obtener un cADN completo (desde el codón de inicio al STOP) es difícil porque las replicaciones se hacen a trozos, si no se llega al final el marco de lectura queda abierto o bien no comienza desde el principio.
“Downstream” procariota:
¿Qué tiene un gen eucariota típico? En eucariotas también existe la región "Leader” que suele ser muy variable pero en cambio no poseemos RBS. Muchos genes padecen splicing (el mensajero final contendrá parte del “Leader” + Exones pero con los intrones (más largos) eliminados. Existen genes que poseen una parte en un cromosoma y la otra en otro por lo que los mensajeros deben encontrarse para unirse por “splicing” F 0 E 0“transplicing”, pero existen muchas complicaciones adicionales.
“Upstream” eucariota:
un gen en esta zona produciría mucho más transcrito.
elementos por lo que cuando existe contacto con la hormona se estimula su producción.
Se debe tener en cuenta que todas estas cajas son ambiguas en la posición nucleotídica, por ello es difícil encontrar un gen. No sabemos pues qué secuencia debemos buscar con el ordenador.
1.2.1 Determinación en procariotas. Ejemplo: Operón Lac: Este operón tiene una estructura palindrómica (simetría rotacional); AT/AT sí palindrómica, AT/TA no.
Esta probabilidad P= 0,0081 deberá ser multiplicada por 4·10 6 veces ya que E.Coli tiene 4·10^6 pares de bases (pb), así pues la probabilidad sería de: 0,0081 · 4·10^6 = 30.000 = P.
Nacieron entonces programas para buscar operadores en procariotas; se introduce el genoma en el ordenador y éste realiza 6 marcos de lectura adaptando el uso de codón (preferencia por utilizar un cierto codón para un aa). En la secuencia de ADN no podemos saber dónde empieza el codón codificador puesto que hay 3 posibles marcos de lectura, es más, nosotros estamos escribiendo en esta dirección ( F 0 E 0) pero también podría ser en sentido contrario. Por ello se añaden 3 marcos de lectura más; en total 6 aa.
El ordenador nos busca las zonas de óptimo uso de codón F 0 E 0se encuentran pues las regiones candidatas por “trab”. Seguidamente el programa busca los ORF (tripletes de iniciación posibles) por lo que una vez encontrada la región el marco de lectura es continuo (no hay exones ni intrones).
1.2.2 Determinación en eucariotas. Ejemplo: Operones Eucariotas: Además de optimizar el uso de codón también debe utilizarse el salto exón-intrón. También el cuatriple ya que se ha visto que entre regiones intrónicas y exónicas hay dobletes, sexapletes… (regiones de 2- pb distintas).
En el salto se busca las regiones codificantes (exones) diferenciándolas de intrones que no codifican. Así que la mayoría de los programas buscan diferencias de pb. Nos encontramos que los exones no siempre son “exones” en todos los ORF’s, de forma que no se puede mantener la frecuencia de dobletes, sexapletes…
¿Cómo podemos diferenciar más de 1 millón de proteínas a partir de 20.000 genes? Sin considerar los 10 “posibles anticuerpos obtenibles por la reordenación de la secuencia de ADN en velocidad somática” debemos planteárnoslo a 3 niveles:
Nivel 1: Gen: Utilizando distintos promotores el gen transcribe diferentes mensajeros.
En humanos se conocían, hace años, 1404 promotores. Teniendo en cuenta que algunos genes tienen promotores alternativos una molécula puede unirse a uno o a otro. Es el caso de las neurexinas que con 3 genes de neurexinas en la especie humana obtenemos 2.250 proteínas diferentes. Los promotores fuertes dan 68 diferentes neurexinas (aunque no mucha variabilidad comparando con un “splicing”).
Nivel 2: mARN:
seguida de la región “Leader” es requerida para el inicio de la síntesis de proteínas ya que aumenta el transporte del ARNm desde el núcleo al citoplasma aumentando así la eficiencia del “splicing” del ARNm. De esta forma el ribosoma puede actuar.
A unas 20 bases del STOP existe una poliadenilación (UUAUUU) y entre 150-200 b más allá se coloca una cola de Poli A (sirve de señal para que el ARNm salga al citoplasma, le ofrezca estabilidad y permita el reinicio de síntesis proteica). Si se obtiene una poliadenilación alternativa puede llevarse a cabo dentro de lo que se considera región de la proteína, dando lugar pues, a una variabilidad.
Se descubrió a través del mapeado de genes por microscopía electrónica. Se observó que el mensajero colineal con el gen puesto que había trozos en el DNA que no se transcribían aunque los términos exón-intrón aparecieron más tarde.
A partir del gen la polimerasa genera un transcrito que se procesa primero y da lugar al ARNpre- mensajero. En el mensajero final encontraremos un trozo de la región “Leader” (sin promotor) y toda una serie de exones (sin intrones). En el “Splicing” el ARN cataliza su propio corte y empalme a partir del mensajero.
¿Qué ventaja posee un gen con exones e intrones? Se observa que los exones coinciden con los dominios de la proteína (años 80), pero más concretamente, los exones internos del gen, los primeros no. Sabemos que los intrones son más largos que los exones pero, a qué es debido? Para asegurar que la mayor parte de las inserciones no sean dañinas. Podemos encontrar exones sin función porque éstos se han introducido dentro de intrones aunque si se les añade una A podría llegar a ser funcional. Además, la combinación de distintos exones da lugar a diversas proteínas à “splicing”.
¿Cómo se encontró el gen DSCAM de Drosophila****? Al secuenciar su genoma se vieron muchos exones que se parecían bastante, se pensó pues que eran variantes de un mismo exón. Entonces cogieron 50 clones, el cDNA (procesado y sin intrones). 49/50 poseían diferente combinación de exones, así que todos los cambios de estos exones en este gen dieron lugar a más de 38.000 proteínas.
¿Qué es el “Transplicing”? Existen genes donde parte de éstos están situados en un cromosoma y la otra parte en otro cromosoma. En el caso del gen DSCAM (conocido como Cis Splicing ) el gen se encuentra todo él en el mismo cromosoma. El Citocromo 450, en cambio, padece “Transplicing”. Recordemos que en la especie humana el 60% de los genes sufre “splicing” cómo se calcula este número?
1.3 Determinación del número de “transplicing”: Previamente se debe hablar de EST’s (Expressed Sequence Tag). A principio de los 90 a Venter se le ocurrió, para el análisis de expresión masiva, extraer el mensajero (que posee cola Poli A) para que fabrique su cDNA (gracias a un oligo dT y la transcriptasa inversa) y lo secuenció todo. Todo trozo de DNA que poseía más de 150 pb secuenciados los introducía en la base de EST’s por lo que poseía información de muchos mensajeros.
Sabemos que el mensajero tiene región “Leader” que no ofrece información. Si se cogieran como válidas secuencias de 30 pb hubiera sido probable no obtener trozos de secuencia codificante de la proteína, por este motivo se cogieron > 150 pb teniendo en cuenta además que éstos trozos no tiene por qué estar completos.
Este tipo de fenómeno es más corriente es procariotas patógenos puesto que se trata de un mecanismo en el que el ribosoma puede cometer un error y desplazarse un nt hacia atrás (más común) o hacia delante alterando así el marco de lectura.
Los patógenos lo usan para crear proteínas que le permitan escapar del sistema inmunológico del huésped.
Nivel 3: Proteína:
Ejemplo proteína Gliceraldehído-3P D: Posee 10 funciones (lo normal es tener 2) que se dan en distintas localizaciones celulares, es decir, en el núcleo tiene una función, en la membrana otra, en el citoplasma otra… A veces puede suceder que la proteína sea multidominio por lo que en cada dominio puede haber una función distinta.
Ejemplo del Cristalino: En él hay muchas proteínas “moonlighting” como por ejemplo la LDH que tiene una función distinta a la que conocemos ya que en el cristalino posee actividad enzimática.
Ejemplo Carboxipeptidasa: La Carboxipeptidasa digiere aa empezando pro el C-Terminal por lo que necesita en su centro activo una molécula de Ni para hacer su función. Si este Ni lo intercambiamos por otro metal (Mg, Mn, Co) se transforma en una esteresa.
Ejemplo Uracilglicosilasa: La Uracilglicosilasa es la misma enzima que la G3PD à su centro activo puede llevar a cabo las 2 funciones.
1.4 Gel de agarosa en 2D: Glicosiación/Fosforilación: Si glicosidas o fosforilas variará la masa de la proteína y en un gel en 2D variará su posición. Además la fosforilación también variará su PI. No se han descrito casos en el que alguna de estas modificaciones den lugar a 2 proteínas diferentes, normalmente éstas activan o desactivan la proteína.
Palmitación: Las adiciones de ácido graso (habitualmente un Cys Terminal) hacen que la proteína se pueda anclar en la matriz y por ejemplo pueda tener el papel de receptor. Es el único caso en el que sí se adquiere una función diferente.
Se estima que en el suero humano están presentes 500.000 proteínas y en total podemos encontrar 1 millón de proteínas. Sabemos que el nº de genes oscila entre 25.000-120.000 y que dan lugar a 106 proteínas. Por otro lado se conocen unas 1.000 vías metabólicas, cada una de las cuales con 10-100 componentes (se considera pues que hay 2.500 metabolitos, componentes pequeños). Una proteína interacciona con otras proteínas, concretamente entre 5-55 otras proteínas (este estudio es la interactómica). También se habla de 270 tipos celulares, pero se sabe que habrá más.
Con todo esto podemos darnos cuenta de que a partir de pocos genes obtenemos muchas proteínas por lo que no se puede predecir el proteoma a partir del genoma. Tampoco es predecible la cantidad de proteínas que podemos encontrar a partir del mensajero aunque sí se sabe la correlación que es de 0,4.
2. ADN arrays - Errores: No sabemos cuántos genes existen, los bancos de datos de secuencias presentan, al menos, un 30% de errores de anotación funcional pero… cuáles son las causas?
2.1 Errores de secuenciación: El concepto de “annotation” se traduce como “anotación” o notación. Entre ellas 22-65% no definen nada, es desconocido. Principalmente se engloban Arqueobacterias. En el caso de los humanos existen un 50% de genes todavía por conocer. No se debe confundir “Data Bank” con “Data Base” puesto que el primero es un banco de datos y el segundo una base de datos.
“porquería” como por ejemplo: Swissprot.
La información que se introduce en la banco de datos o base debe incluir el organismo del que procede, nucleótidos donde está el gen… La parte más importante es la notación funcional como por ejemplo; Es una β-Glucanasa. La mayor parte de las anotaciones son bioinformáticas porque no aparece la función. Esto es lo que genera el 30% de los errores.
2.1.1 Errores inducidos por BLAST: Cuando alguien secuencia un gen realiza un análisis de similitud (homología). Para ello se utilizan algoritmos, entre los más importantes está el BLAST. Es mejor hacer el análisis a nivel de proteínas y no de gen ya que cualquier similitud entre proteínas será más indicativa de similitud. Es decir, la probabilidad de encontrar determinados aa en una determinada posición no es tan elevada como la de encontrar uno de los 4 nt’s. Además se debe tener en cuenta el uso de codón en cada especie porque quizás estamos delante de la misma proteína pero de distintas especies pero como el uso de codón es distinto no codificará para el mismo aa.
Cuando introducimos nuestra proteína en el BLAST éste programa buscará homologías y nos indicará las que encuentre; el programa nos representará un listado matemáticamente significativo puesto que alinea aa por aa la secuencia introducida (conocida como QUERY) y busca similitud con las secuencias que hay en la base de datos:
Sin Gap de 3 bases, se da una puntuación:
Si hay Gaps el programa penaliza, por su introducción (-1 punto) y por su extensión (-0,5 puntos):
Vemos pues que la puntuación con GAP es mayor que sin GAP. Llevar a cabo éstos puede dar lugar a un alineado totalmente diferente. En el segundo caso la introducción de GAP es más representativa.
2.1.2 Anotación transitiva: La principal causa de errores en los bancos es la catástrofe la de anotación transitiva. Por ejemplo encontramos una proteína que llamaremos “Talcualasa” y la ponemos en un banco de datos para encontrar similitudes. Observaremos que con la secuencia 2 tiene un 40% de similitud (muy significativa en el caso de proteínas) y esta secuencia 2 se parece a la 3 en un 60%.
Nuestra secuencia (EALVD) la hemos llamado “Talcualasa”, a la secuencia 3 se le llama entonces “Talc 2” porque no tenía nombre, pero si realmente comparamos la 1era con la 3era veremos que no se parecen en nada, poseerán un 0% de similitud. 2.1.3 Interpretación errónea:
“Doolittle” = 25% identidad ≥ 80 aa:
2. Función molecular: Actividad bioquímica. 3. Componentes celulares: Lugar en el que el producto génico es activo en la célula.
El GO tiene unos códigos de “evidencia” adicionales sobre el origen de la información: § IMP: Inferido por un fenotipo mutante. § IGI: Inferido por interacción genética. § IPI: Inferido por interacción física. § ISS: Inferido por secuencia o estructura similar. § IDA: Inferido por experimento directo o ensayo. § IEP: Inferido por expresión paterna. § IEA: Inferido por anotación electrónica. § TAS: Traveable autor statment. § NAS: Nombre. § NR: Not recorded.
3. Métodos de transcriptómica; Arrays y SAGE La transcriptómica es el análisis de los transcritos. En una célula eucariota típica cuáles son los niveles de mARN? En procariotas se realiza menor trascripción porque es más difícil ya que obtendríamos menos información. EN eucariotas, en cambio, hay diferentes niveles de trascripción, podremos distinguir 3 diferentes tipos de mARN transcrito:
se da en proteínas ribosomales, elementos de la maquinaria de transcripción como; histonas, algunos genes específicos como Rubisco, PoliA y transcritos mitocrondriales en Drosophila. Además de los genes “Housekeeping” existen los “Luxury” que son muy abundantes pero que no sirven para nada a la célula que lo produce como la Globina.
“Housekeeping”, componentes del citoesqueleto, algunas proteínas específicas, inusualmente abundantes.
de tejido o inducidos ocasionalmente. El tejido que más transcritos ( secuencias distintas ) produce es el cerebro (23.580) y los monocitos los que menos (9.504).
Análisis de transcriptoma:
SAGE (Serial análisis of Gene Expresión).
Los arrays no cuantifican, nos indican si un gen se expresa más o menos. SAGE en cambio sí que es cuantitativo pero es una técnica muy cara.
3.1 EST’s: Han aportado una ayuda en la predicción de genes, si encuentras un EST’s en una región ello nos indica que ahí hay un gen. Éstos también son importantes para el “splicing” alternativo a través del cotejo computacional los EST’s con los genes. Otro aspecto importante es que han aportado nuevos genes relacionados con enfermedades:
Ejemplo de la proteína Presenilina: Que fue descubierta a partir de EST’s de personas con alzehimer.
3.2. Arrays: Un array es un conjunto de sondas moleculares fijadas de manera ordenada sobre un soporte sólido con afinidad por el ADN. Estas sondas pueden ser clones de ADN, productos de reacción en cadena de la polimerasa (PCR) o bien oligonucleótidos sintéticos.
Se debe mirar la fluorescencia con una aparato y se mide entonces la cantidad de color verde (Tejido bueno) y el del rojo (Tejido tumoral). De esta forma comprobaremos cuántas veces se expresa más el normal respecto al tumoral.
Estos aparatos pueden leer hasta 3 fluorescencias distintas (aunque se suelen usar 2). Esto nos permite ver si el mensajero del pocillo 1 se expresa más en enfermedades. Por lo que rápidamente surgió la idea de que en lugar de usar cADN’s se pusieran oligos para identificar ciertos genes. Si se detecta hibridación es que existe expresión del gen en cuestión.
Nomenclatura: En los arrays hay una nomenclatura. El término sonda (probe) en el gen cuando lo trasladamos al filtro, la sonda es pues lo que se traslada (lo que hay en el portaobjetos = sonda) y no es el mensajero (sano o tumoral) que corresponderá a la muestra F 0 E 0Es inverso a la nomenclatura que se usa en el Northern en el que la muestra (mARN) serán los que lleven la marca fluorescente.
Una de las diferencias entre macroarrays y microarrays es la diferencia de densidad de cada “spot”, son manchitas al revelar el contenido del pocillo. Por esta misma razón se suelen utilizar más los micro- que los macro- aunque resulte más fácil hacer los últimos.
Microarrays Macroarrays
mensajero (Cy 3 y Cy5).
3.2.1 Metodología con cADN: Cuando queremos estudiar qué genes se expresan y en qué cantidad (esto último más difícil) entre tejido sano y tumoral extraemos mensajeros de los 2 tejidos que serán las muestras. Por tanto debemos tener inmovilizadas las sondas en el soporte que será ADN, este ADN puede ser cADN o trozos de ADN genómico, oligonucleótidos sintéticos…Pero el cADN que se pone procede de la amplificación del cADN que se posee en un vector en la genoteca. Se amplifica en PCR y se coloca en portaobjetos en pocillos.
Una vez marcado el ADN (o ADNc) se procede a su hibridación con el array sintetizado previamente, uniéndose cada ADNc a la sonda correspondiente. A continuación se somete al microarray a una serie de lavados para eliminar el exceso de ADNc que ha hibridado inespecíficamente y se procede a la medición de la señal.
Cuando el robot pone los cADN en los pocillos (que además de portaobjetos puede ser nylon) se pone el mensajero y se inicia así la hibridación; por tanto habrá competencia de los 2 tipos de moléculas para la unión en función de la expresión que tengan se unirá más una sonda que otra evaluándose en función del color.
La hibridación se llevará a cabo en condiciones restrictivas para que no haya uniones inespecíficas; si no hibrida del todo se acabarán desnaturalizando F 0 E 0la disminución de la fuerza iónica hace que haya restrictividad. Pero para que los resultados sean correctos debería repetirse el método unas 100 veces F 0 E 0imposible porque es muy caro.
Para las muestras marcadas fluorescentemente se utiliza un escáner provisto de un láser y una serie de filtros capaces de excitar los fluorocromos y captar la fluorescencia. En cualquiera de los dos métodos se genera una imagen que se somete a un proceso de digitalización, normalización y cuantificación. Tras este tratamiento se obtiene una colección de datos con las intensidades correspondientes a cada gen incluido en el array.
Los genes pueden sufrir “upregulation”, sobre-expresarse en el tejido tumoral o “downregulation”, sub- expresarse en el mismo.
3.2.2 Metodología con Oligont sintéticos – Sistema Gene-Chip: Si en lugar de hacerlo con cADN lo hago con oligos que me representen el gen esta técnica tendrá mayor precisión porque no habrá ADN del vector al tratarse de material sintético. El método más famoso es el de Affimetrix (casa comercial) para trabajar con oligos (fotolitografía).
Se usan oligos de unos 25 nt’s de longitud y 11 de estos con diferentes oligos. Por lo que debemos de bloquear el oligo mediante el grupo OH para que no se una a través del PPP a los que ya tenemos, al siguiente de la serie. Cuando le hacemos incidir la luz el grupo de nt’s de ese cuadradito quedan libres
Uso de Microarrays en patógenos: Los microorganismos gozan de la ventaja de que no padecen “splicing” pero existen problemas en la manipulación del mARN. Los mARN’s procariotas son de baja cantidad y no todos tienen PoliA y es señal de degradación y de no paso al citoplasma. Además el mensajero es inestable y de difícil manejo por su gran longitud. Por ello las casas comerciales no tienen interés en hacerlos.
3.3 SAGE (Serial Análisis of Gene Expresión):
Es una técnica costosa y cara. Imaginemos que un genoma expresa 3 genes (A, B y C), A se expresa mucho, B poco y C todavía menos. Quiero cuantificar la cantidad de cada mensajero. Por ello se hacen etiquetas de cada mensajero que englobe 15 pb. El ordenador conoce la secuencia de cada gen así que podremos saber a qué gen corresponde cada una de las secuencias para cuantificar así el mARN de cuál de estos genes es. Las etiquetas se unen con ligasa para que se puedan secuenciar porque 15 nt’s serán muy difíciles de secuenciar.
Cuantos más mensajeros tenga ese gen más se expresará y por lo tanto más etiquetas encontrará el ordenador.
Repaso: Existen 3 clases de enzimas de restricción (las bacterias han desarrollado 3 sistemas). Destacan: E IIa: en la que el punto que reconoce es donde corta. E I: todavía no se le ha encontrado utilidad y donde desde la diana de identificación hasta el sitio de corte pueden haber 1000-2000-3000 pb. E IIb: Como BsmF1 (distancia de 15 pb) corta a 15 pb sin importar la secuencia, es un ejemplo.
Una vez obtenido el mARN realizamos un RT-PCR inversa para obtener el cADN utilizando un primer PoliT que está marcado con Biotina para que al desnaturalizar podamos retener el cADN en una columna de Streptonidina.
La enzima Nia III en genomas de mamífero corta cada 400 pb. Ahora se compran “Linkers” o adaptadores que llenen diana para BsmF1, que reconocerá ese extremo dando lugar a un fragmento con la diana de BsmF1 + cADN de 15 pb.
Seguidamente debemos de hacer los “ditags” que consiste en enganchar 2 fragmentos de los anteriores. Como conocemos la secuencia de BsmF1 reconocida lo aprovechamos para crear un primer y hacer PCR F 0 E 0 amplificamos los “ditags”.
Cuando tenemos suficiente cantidad de ADN volveremos a cortar con Nia III que separará la región del BsmF1 F 0 E 0nos quedaremos con los 2 “Tags” unidos sin la secuencia de BsmF1, usaremos la ADNligasa y uniremos las prejas hasta tener un 1Kb, que sí podrá ser secuenciado. El ordenador pues nos dirá cada Tag a qué gen corresponde:
3.3.1 Aplicaciones y aportaciones del SAGE:
regiones. Los genes que se expresan menos en otras zonas.
gen siguiente incorporando exones del otro gen para formar la proteína.
mARN se obtiene a partir de copias de cadena (-) para obtener cadenas de cADN (+).
Paradojas actuales:
1.1.1 ¿Qué problemas presenta?
El 90% de proteínas son 100, 7% - 1100 y el 3% - 2800.
proteínas) F 0 E 0El 20-25% de manchas en proteomas simples y el 40% en proteomas complejos contienen múltiples “spots”.
1.1.2 Inconvenientes de la Electroforesis 2D:
las muy grandes y las muy pequeñas se pueden perder.
interpretadas como diferentes.
¿Cómo podemos explicar que 1 proteína esté en más de una mancha?
postraduccionales por fosforilación modificándose así la carga.
5-6 y no 4-7).
proteína sea la mancha inferior y por modificaciones (glicosidación) aumentan su masa. O puede ocurrir que la proteína sea la superior y las de debajo péptidos de degradación.
mismas con pequeñas variaciones o bien éstas pueden ser diferentes. Por ende las proteínas pueden variar en un “spot”.
2. Secuenciación de proteínas. Una proteína tiene aproximadamente una ruptura tríptica cada 300-400 aa, obteniéndose así más o menos 20 péptidos trípticos. El sistema robotizado digiere cada “spot” crípticamente obteniéndose así un mapa tríptico al que se le efectúa un MALDI para la determinación de la masa de cada péptido. El programa MASCOT busca en las proteínas de los bancos de datos alineando nuestro mapa de péptidos con el mapa de péptidos de las proteínas de las bases de datos que se genera informáticamente. Nos dará un listado con “score”; la proteína que más se parece es la que el programa indica.
Para secuenciar podemos hacer servir la degradación de Edman, pero también podemos usar la espectrofotometría (sobre todo el electrospray F 0 E 0microsecuencias).
peptídicos. Sabiendo diferentes combinaciones del péptido ello nos permite deducir la secuencia.
está bloqueado por lo que no se puede usar esta técnica F 0 E 0usaremos pues el electrospray.
2.1 Técnica DIGE: Se usan moléculas Cy5. Se basa en el uso del marcaje por fluorescencia, de modo que permite, a través de la separación por electroforesis bidimensional de mezclas de muestras marcadas con diferentes fluoróforos, una comparación cuantitativa muy precisa de los niveles de expresión de proteínas en las muestras analizadas. Se dispone del scanner láser necesario para la obtención de las imágenes de fluorescencia a diferentes longitudes de onda, y del software necesario para el análisis comparativo de 2 muestras y la cuantificación precisa de diferencias.
Robots. La técnica se complementa con equipos para la identificación posterior mediante espectrometría de masas. Se dispone de un robot para el corte de manchas seleccionadas de geles ( Spot picker ), compatible con sistemas de tinción convencionales y con el marcaje fluorescente de la técnica DIGE.
Alternativa: Se cargan 2 muestras (una sin marcar y la otra marcada con isótopo C13). Al revelar se observan 2 picos separados a una cierta distancia debido a la masa molecular del isótopo, la altura de los picos nos indica la cantidad de proteína que hay. La misma proteína en ambas muestras determina en cuál hay más cantidad. Esto ofrece ventajas frente a los arrays y es que aquí sí cuantificamos.
2.2 N-Terómics: En lugar de usar proteínas enteras se cogen los extremos N-Terminal y se secuencian. Esto se ha llevado a cabo con E.Coli que posee 4.800 proteínas. Pongamos que al digerir cada una de estas salen 20 péptidos (4.800 · 20) y luego separamos N-Terminales por cromatografía. Luego se secuencia por electrospray o MALDI-TOF/TOF y con 5 aa permite identificar la proteína.
Es un método muy sensible y rápido puesto que coge el N-Terminal de la proteína, no la de cada péptido que se origina al digerir la misma. Pero… cómo? Gracias a que antes se realiza un tratamiento químico para el marcaje del N-Terminal (como por ejemplo Biotina).
Una de las ventajas que ofrece es que no necesitamos mucha cantidad de proteínas.
3. Métodos de Interactómica. Las proteínas no actúan solas sino que en conjuntos. La interactómica ha demostrado que todas las proteínas están organizadas. Así pues las aplicaciones de la interactómica son:
Aplicaciones:
conocido como “Guilty”, culpable, “dime con qué grupo de proteínas vas y te diré cuál es tu función”.
que se encuentran en 2 nodos. Esto también nos proporciona información sobre los “Networks” de regulación F 0 E 0metabolómica.
Ahora hablaremos de los métodos experimentales de interactómica (métodos OMICS) que empiezan a partir del doble o triple híbrido.
Una proteína típica suele hacer entre 5-55 interacciones. Pero estas interacciones suelen ser débiles. Cuando las queremos estudiar parte de éstas se pierden o se crean otras de falsas. En estas técnicas con falsos positivos y negativos.
3.1 Co-purificación: Consiste en un criterio típico para la detección de interacción; se intenta aislar una proteína A pero siempre aparece unida a la proteína B.
3.2 Co-sedimentación: Se cogen anticuerpos contra 1 de las proteínas y se inmoviliza en una columna de afinidad. Nuestra proteína se unirá pero si a su vez en la muestra hay proteína B ésta se podrá unir a A eluyéndose con ella.
3.3 Co-localización: La co-localización, si 2 proteínas salen juntas siempre en la matriz nuclear es obvio que interaccionen:
3.3.1 Microscopía confocal: Se marca con un fluoróforo y se pueden ver en superposición proteínas distintas, si están en la misma posición es que éstas interaccionan.
3.3.2 Inmunocroscopía: Si el anticuerpo reconoce la proteína en el microscopio electrónico veremos cómo el anticuerpo (marcado) reconoce en un punto a su diana sabiendo así dónde se sitúa la proteína.
3.3.3 Cross-Linking: