Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

Por cada documento subido

Responde a las preguntas

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Apuntes - Proteómica, Apuntes de Biotecnología

Universitat Autònoma de Barcelona (UAB)Biotecnología

Asignatura: Proteòmica, Profesor: , Carrera: Biotecnologia, Universidad: UAB

Tipo: Apuntes

Antes del 2010

Subido el 22/02/2007

merchelozano 🇪🇸

4.1

(46)

6 documentos

1 / 49

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1

TEMA 1: Introducción 4

1. Introducción histórica a la genómica y “Omics” 4

2. Definciones 5

TEMA 2: Métodos de genómica 6

1. Métodos de genómica y trascriptómica 6

1.1 Determinación antigua del nº de genes mediante el cálculo de mensajeros 6

1.1.1 Metodología del cálculo de mensajeros 6

1.1.2 Zonas GpG en genes 6

1.2 Determinación del inicio de las proteínas 6

1.2.1 Determinación en procariotas. Ejemplo: Operón Lac 7

1.2.2 Determinación en eucariotas. Ejemplo: Operones Eucariotas 7

1.3 Determinación del número de “transplicing” 8

1.4 Gel de agarosa en 2D 10

2. ADN arrays – Errores 11

2.1 Errores de secuenciación 11

2.1.1 Errores inducidos por BLAST 11

2.1.2 Anotación transitiva 11

2.1.3 Interpretación errónea11

2.1.4 Descripción insuficiente 12

2.1.5 Error de Alias 12

3. Métodos de transcriptómica; Arrays y SAGE 13

3.1 EST’s 13

3.2. Arrays 13

3.2.1 Metodología con cADN 14

3.2.2 Metodología con Oligont sintéticos – Sistema Gene-Chip 14

3.2.3 Ventajas y desventajas microarrays de cADN 15

3.2.4 Ventajas y desventajas microarrays de Oligos sintéticos 15

3.2.5 Aplicaciones de microarrays 15

3.3 SAGE (Serial Análisis of Gene Expresión) 15

3.3.1 Aplicaciones y aportaciones del SAGE 16

TEMA 3: Métodos de proteómica 18

1. Electroforesis 2D 18

1.1 ¿Qué analiza la Electroforesis 2D + Espectro de masas? 18

1.1.1 ¿Qué problemas presenta? 18

1.1.2 Inconvenientes de la Electroforesis 2D19

2. Secuenciación de proteínas19

2.1 Técnica DIGE 19

2.2 N-Terómics19

3. Métodos de Interactómica 20

3.1 Co-purificación 20

3.2 Co-sedimentación 20

3.3 Co-localización 20

3.3.1 Microscopía confocal 20

3.3.2 Inmunocroscopía 20

3.3.3 Cross-Linking 20

3.3.4 Doble híbrido Y2H 21

3.3.5 Triple híbrido 21

3.3.6 TAP (Tandem Affinity Chromatography)22

4. Métodos de análisis de interactoma. Protein arrays 23

4.1 Complementación de fragmentos de proteínas 23

4.2 Surface Plasmon Resonance (Biacore) 23

4.3 IF-MS (Intensity Fading-Malditof) 23

4.3 BREF (Bioluminscence Resonance Energy Transfer) 23

4.4 SPA (Scinlillation Proximity Assay) 23

4.5 Protein arrays 24

5. Métodos de identificación bioinformática (Interactómica biocomputacional) 24

5.1 Rosette Stone 24

5.1.1 Reglas de contexto “neighbouring” 24

5.1.2 Perfil filogenético 24

5.1.3 Anclaje “Docking” (de menos a más energía requerida) 24

TEMA 4: Genómica y proteómica funcional 25

1. Determinación de la función proteica biocomputacionalmente 25

1.1 Búsqueda por homología 25

1.2 Búsqueda por motivos funcionales 25

1.3 Modelado 3D 25

2. Determinación de la función proteica experimentalmente 25

PAGE 1

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

Descubre Apuntes de Biotecnología Universitat Autònoma de Barcelona (UAB)

Documentos relacionados

apuntes proteomica tema 3

(2)

Apuntes de Proteómica

Prácticas Laboratorio Proteómica Biotecnología

Apuntes de genomica, proteomica y interactomica

Cuestionario lección proteomica

(1)

Genética y proteomica

Trabajo Artículo Proteómica

Resumen de Proteómica

Análisis sobre la proteómica forense

Examen de proteomica

(2)

Apuntes de la asignatura Proteómica

Genómica y Proteómica: El Análisis Global de la Biología Molecular

Vista previa parcial del texto

¡Descarga Apuntes - Proteómica y más Apuntes en PDF de Biotecnología solo en Docsity!

TEMA 1: Introducción.

1. Introducción histórica a la genómica y “Omics”.

1974 Aparecieron los primeros métodos de secueciación que hasta los 90 eran manuales, tardaban más que los otros pero ofrecían menos error. De esta forma se consiguieron secuenciar los primeros genomas ; todos ellos de virus.

1979 La idea de secuenciar el genoma humano surgió. Pero eran necesarios avances técnicos importantes. Por ello no se puso en marcha hasta el 1990.

1980 A finales de estos años se creyó que ya se poseía toda la información.

1990 El proyecto del genoma humano fue dirigido inicialmente por J. Watson pero éste lo abandonó por negarse a patentar los genes (el quería que fueran a bancos públicos). Entonces pasaron a dirigirlo Collins, Sulstan y Morgan.

Grupo público: Estableción como estrategia de secuenciación la jerárquica; se reparten los cromosomas, los fragmentan y los clonan utilizando BAC’s (puesto que las levaduras recombinan mucho su ADN) para luego secuenciar esos trozos.

Grupo privado: En el 1992 C. Venter intentó patentar genes del cerebro conocidos como EST’s (Expressed Sequence Tag) que resultaban trozos de 150-500 bases de mARN realizadas con Northern Electrónico. Los mensajeros que se expresan en cierta región del cerebro nos indican qué genes se expresan.

1995 Ahora ya sí se disponía de los primeros genomas víricos completos. Por lo que era necesario pasar de secuencias manuales a masivas. Se produjo pues un avance técnico; el método Sanger-Coulson era más utilizado que el de Maxam-Gilbert ya que se usaba para ADN’s que precisaban un tratamiento agresivo.

L. Mood fue el primero en secuenciar automáticamente.

1970 Se descubre una molecula. los enzimas restrictivos, que cortan el ADN en sitios específicos.

1973 Se utiliza un enzima restrictivo para cortar un fragmento del ADN de un animal. Este fragmento es depositado en una bacteria que transporta la función del gen.

Una vez se consigue transferir un gen a una bacteria, ésta se reproduce, generando múltiples copias del gen, lo que permite que éstas puedan ser estudiados detalladamente.

1977 Los doctores Frederick Sanger y Walter Gilbert desarrollan (cada uno por su lado) una técnica para descifrar las cuatro bases nucleótidas del ADN: la adenina, la timina, citosina y la guanina. Esta técnica permite que aumente por mil la velocidad a la que puede ser secuenciado el genoma. Se secuencia por primera vez un organismo completo. Se trata del virus bacteriófago.

1983 Kary Mullis desarrolla la reacción en cadena de la polimerasa (PCR, de sus siglas en inglés), que permitirá a los científicos generar en pocas horas billones de copias de una cadena de ADN.

1984 1986

Representantes del departamento de Energia de EEUU proponen hacer un esfuerzo a gran escala para secuenciar el genoma humano.

1988 El doctor Watson es nombrado director de la Oficina de Investigación del Genoma Humano, organismo dependiente de los Institutos Nacionales de la Salud (NIH) de EEUU. Afirma que el genoma podrá estar descodificado para el año 2005.

1990 El doctor Craig Venter, un investigador de los NIH, desarrolla un método más corto para encontrar fragmentos del genoma humano. Demuestra que, a partir de estos fragmentos, se puede identificar a los genes completos.

1995 Los doctores Hamilton O. Smith y Venter secuencian el genoma de una bacteria (Haemophilus influenzae) utilizando el método ideado por éste último.

1997 1998

El doctor Venter se reune con el Dr. MIchael W. Hunkapiller de la empresa PE Biosystems, para lanzar una tecnología que acelere de forma espectacular la secuencia del genoma humano a gran escala. Hunkapiller le propone formar un proyecto para secuenciar el genoma siguiendo un método diferente

al que empleaba el consorcio público.

1998 Mayo

Venter se 'pasa' a una nueva compañía que pretende secuenciar el genoma humano en tres años, es decir, dos años antes de la fecha prevista por el proyecto estatal. La compañía se llamará Celera

1998 Dic.

Dos equipos, dirigidos por los biólogos Dr. John E. Sulston y Dr. Robert H. Waterston, secuencian el primer genoma completo de un animal, un gusano de la especie Caenorhabditis elegans. Se demuestra así que se puede secuenciar a gran escala.

1999 Marzo

El consorcio financiado con dinero público, o Proyecto Genoma Humano, dirigido por el Dr. Francis Collins, anuncia que el primer borrador del genoma humano estará listo para la primavera del año

2000 Marzo

Dos grupos científicos, encabezados por el Dr. Venter y el Dr. Geral M. Rubin, secuencian el genoma de la mosca de la fruta, Drosophila melanogaster, usando las técnicas del presidente de Celera.

2000 Junio

En un día que el presidente Clinton califica de histórico, Venter y Collins aparcan sus diferencias y anuncian que se ha logrado el primer borrador del genoma humano secuenciado.

2001 Febr.

La empresa Celera publica la secuenciación del genoma en la revista 'Science'. El consorcio público hace lo mismo en 'Nature'.

2. Definciones.

Genoma 1. Dotación completa de material genético (genes y secuencias no codificantes) que contiene cada célula de un organismo, virus u orgánulo.

Conjunto completo de cromosomas (y por lo tanto de genes) heredado de un progenitor como una unidad.

Genómica Estrategia de investigación que, a partir de la caracterización molecular y de la clonación de genomas completos, estudia la estructura, el funcionamiento y los cambios evolutivos del material genético para poder dar respuesta a preguntas biológicas fundamentales.

Genómica funcional Campo de la investigación que trata de determinar patrones de expresión e interacciones génicas en el genoma, basándose en un conocimiento completo, o al menos muy amplio, de la secuencia genómica de un organismo.

Proteoma Dotación completa de proteínas de una determinada especie, incluyendo todos sus tejidos y estados de crecimiento.

Transcriptoma Conjunto de mARN’s expresados.

Metabolomics Análisis global del conunto de metabolismos. Celulonics, Icinomics = fosforilación, peptidomics… OMICS quiere decir análisis de millones de elementos.

Genómica Técnicas para descubrir función de genes. También para el análsis de transcritos.

Gen Homólogo

Concepto de los 70; Son aquellos genes que tienen ancestros comunes (con relación evolutiva entre ellos). Puede ser que 2 genes se parezcan pero que no tengan ancestros comunes y es debido a que ha habido convergencia, es decir, no viene uno del otro. Es casi imposible demostrar que la relación entre genes es por homología.

Gen Ortólogo

Son genes homólogos que tienen un ancestro en común (el más cercano). Los ortólogos suelen consensuar la función pero en ocasiones, por presión ecológica, pueden tener diferente función bioquímica.

Gen Parálogo

Gen que proviene de duplicaciones. Es muy probable que un gen de 2 copias cada una evolucione de forma distinta, e suna fuente de nuevos genes y de nuevas funciones. Por lo tanto sí que suelen cambiar su función.

En la práctica si se alinean las secuencias de los organismos y son muy parecidas se dice que son ortólogas. Esto se hace a nivel de proteína. Si queremos ver para´logas compararemos proteínas del mismo organismo y si existe un 70% de homología son parálogas. Se efectúa con BLAST.

Regiones Sintenias

Entre la especie humana y el chimpancé hay más sintenia. Los genes de un operón que se regulan a la vez también padecen sintenia.

Gen huérfano

Etiquetado de la f(x) de los genes del organismo se llama anotación. Si un gen huérfano es aquel que no se parece a nada de lo que hay en los bancos de datos. SI el gen se parece a un grupo del cual todavía no se conoce la función no se considera que lo sea.

Enzima huérfana

Se conoce que hay una actividad enzimática pero no se conoce la secuencia de una enzima con esta función, un 40% de estas actividades son huérfanas.

ORF Marcos de lectura que definen unas posibles proteínas. Obtener un cADN completo (desde el codón de inicio al STOP) es difícil porque las replicaciones se hacen a trozos, si no se llega al final el marco de lectura queda abierto o bien no comienza desde el principio.

“Downstream” procariota:

• Codón STOP en 3’: seguido de un terminador (frecuentemente secuencias palindrómicas).

¿Qué tiene un gen eucariota típico? En eucariotas también existe la región "Leader” que suele ser muy variable pero en cambio no poseemos RBS. Muchos genes padecen splicing (el mensajero final contendrá parte del “Leader” + Exones pero con los intrones (más largos) eliminados. Existen genes que poseen una parte en un cromosoma y la otra en otro por lo que los mensajeros deben encontrarse para unirse por “splicing” F 0 E 0“transplicing”, pero existen muchas complicaciones adicionales.

“Upstream” eucariota:

• Caja -30: TATAAA.

• Caja -80/-70: CAAT.

• Caja -110/-200: G Rich.

• “Enhancers”: Son estimuladores de la trascripción que suelen ser pequeños (100-200 pb) por lo que

un gen en esta zona produciría mucho más transcrito.

• HRE: (Hormona Response Element). Los genes que responden a hormonas poseen estos

elementos por lo que cuando existe contacto con la hormona se estimula su producción.

Se debe tener en cuenta que todas estas cajas son ambiguas en la posición nucleotídica, por ello es difícil encontrar un gen. No sabemos pues qué secuencia debemos buscar con el ordenador.

1.2.1 Determinación en procariotas. Ejemplo: Operón Lac: Este operón tiene una estructura palindrómica (simetría rotacional); AT/AT sí palindrómica, AT/TA no.

Esta probabilidad P= 0,0081 deberá ser multiplicada por 4·10 6 veces ya que E.Coli tiene 4·10^6 pares de bases (pb), así pues la probabilidad sería de: 0,0081 · 4·10^6 = 30.000 = P.

Nacieron entonces programas para buscar operadores en procariotas; se introduce el genoma en el ordenador y éste realiza 6 marcos de lectura adaptando el uso de codón (preferencia por utilizar un cierto codón para un aa). En la secuencia de ADN no podemos saber dónde empieza el codón codificador puesto que hay 3 posibles marcos de lectura, es más, nosotros estamos escribiendo en esta dirección ( F 0 E 0) pero también podría ser en sentido contrario. Por ello se añaden 3 marcos de lectura más; en total 6 aa.

El ordenador nos busca las zonas de óptimo uso de codón F 0 E 0se encuentran pues las regiones candidatas por “trab”. Seguidamente el programa busca los ORF (tripletes de iniciación posibles) por lo que una vez encontrada la región el marco de lectura es continuo (no hay exones ni intrones).

1.2.2 Determinación en eucariotas. Ejemplo: Operones Eucariotas: Además de optimizar el uso de codón también debe utilizarse el salto exón-intrón. También el cuatriple ya que se ha visto que entre regiones intrónicas y exónicas hay dobletes, sexapletes… (regiones de 2- pb distintas).

En el salto se busca las regiones codificantes (exones) diferenciándolas de intrones que no codifican. Así que la mayoría de los programas buscan diferencias de pb. Nos encontramos que los exones no siempre son “exones” en todos los ORF’s, de forma que no se puede mantener la frecuencia de dobletes, sexapletes…

¿Cómo podemos diferenciar más de 1 millón de proteínas a partir de 20.000 genes? Sin considerar los 10 “posibles anticuerpos obtenibles por la reordenación de la secuencia de ADN en velocidad somática” debemos planteárnoslo a 3 niveles:

Nivel 1: Gen: Utilizando distintos promotores el gen transcribe diferentes mensajeros.

En humanos se conocían, hace años, 1404 promotores. Teniendo en cuenta que algunos genes tienen promotores alternativos una molécula puede unirse a uno o a otro. Es el caso de las neurexinas que con 3 genes de neurexinas en la especie humana obtenemos 2.250 proteínas diferentes. Los promotores fuertes dan 68 diferentes neurexinas (aunque no mucha variabilidad comparando con un “splicing”).

Nivel 2: mARN:

• Lugares de poliadenilación alternativos: La poliadenilación en el extremo 5’ del ARN (CAP)

seguida de la región “Leader” es requerida para el inicio de la síntesis de proteínas ya que aumenta el transporte del ARNm desde el núcleo al citoplasma aumentando así la eficiencia del “splicing” del ARNm. De esta forma el ribosoma puede actuar.

A unas 20 bases del STOP existe una poliadenilación (UUAUUU) y entre 150-200 b más allá se coloca una cola de Poli A (sirve de señal para que el ARNm salga al citoplasma, le ofrezca estabilidad y permita el reinicio de síntesis proteica). Si se obtiene una poliadenilación alternativa puede llevarse a cabo dentro de lo que se considera región de la proteína, dando lugar pues, a una variabilidad.

“Splicing” alternativos: Es el que ofrece más variedad de proteínas ya que el 50-60% de genes humanos lo padecen. Un ejemplo claro es el de DSCAM de Drosophila que posee 38. proteínas diferentes de un único gen.

Se descubrió a través del mapeado de genes por microscopía electrónica. Se observó que el mensajero colineal con el gen puesto que había trozos en el DNA que no se transcribían aunque los términos exón-intrón aparecieron más tarde.

A partir del gen la polimerasa genera un transcrito que se procesa primero y da lugar al ARNpre- mensajero. En el mensajero final encontraremos un trozo de la región “Leader” (sin promotor) y toda una serie de exones (sin intrones). En el “Splicing” el ARN cataliza su propio corte y empalme a partir del mensajero.

¿Qué ventaja posee un gen con exones e intrones? Se observa que los exones coinciden con los dominios de la proteína (años 80), pero más concretamente, los exones internos del gen, los primeros no. Sabemos que los intrones son más largos que los exones pero, a qué es debido? Para asegurar que la mayor parte de las inserciones no sean dañinas. Podemos encontrar exones sin función porque éstos se han introducido dentro de intrones aunque si se les añade una A podría llegar a ser funcional. Además, la combinación de distintos exones da lugar a diversas proteínas à “splicing”.

¿Cómo se encontró el gen DSCAM de Drosophila****? Al secuenciar su genoma se vieron muchos exones que se parecían bastante, se pensó pues que eran variantes de un mismo exón. Entonces cogieron 50 clones, el cDNA (procesado y sin intrones). 49/50 poseían diferente combinación de exones, así que todos los cambios de estos exones en este gen dieron lugar a más de 38.000 proteínas.

¿Qué es el “Transplicing”? Existen genes donde parte de éstos están situados en un cromosoma y la otra parte en otro cromosoma. En el caso del gen DSCAM (conocido como Cis Splicing ) el gen se encuentra todo él en el mismo cromosoma. El Citocromo 450, en cambio, padece “Transplicing”. Recordemos que en la especie humana el 60% de los genes sufre “splicing” cómo se calcula este número?

1.3 Determinación del número de “transplicing”: Previamente se debe hablar de EST’s (Expressed Sequence Tag). A principio de los 90 a Venter se le ocurrió, para el análisis de expresión masiva, extraer el mensajero (que posee cola Poli A) para que fabrique su cDNA (gracias a un oligo dT y la transcriptasa inversa) y lo secuenció todo. Todo trozo de DNA que poseía más de 150 pb secuenciados los introducía en la base de EST’s por lo que poseía información de muchos mensajeros.

Sabemos que el mensajero tiene región “Leader” que no ofrece información. Si se cogieran como válidas secuencias de 30 pb hubiera sido probable no obtener trozos de secuencia codificante de la proteína, por este motivo se cogieron > 150 pb teniendo en cuenta además que éstos trozos no tiene por qué estar completos.

Este tipo de fenómeno es más corriente es procariotas patógenos puesto que se trata de un mecanismo en el que el ribosoma puede cometer un error y desplazarse un nt hacia atrás (más común) o hacia delante alterando así el marco de lectura.

Los patógenos lo usan para crear proteínas que le permitan escapar del sistema inmunológico del huésped.

Nivel 3: Proteína:

“Moanlighting”: Multifuncionalidad. Corresponde a un término inglés que define el pluriempleo. Estas proteínas poseen más de una función como por ejemplo G3PD tiene 10 funciones diferentes.

Ejemplo proteína Gliceraldehído-3P D: Posee 10 funciones (lo normal es tener 2) que se dan en distintas localizaciones celulares, es decir, en el núcleo tiene una función, en la membrana otra, en el citoplasma otra… A veces puede suceder que la proteína sea multidominio por lo que en cada dominio puede haber una función distinta.

Ejemplo del Cristalino: En él hay muchas proteínas “moonlighting” como por ejemplo la LDH que tiene una función distinta a la que conocemos ya que en el cristalino posee actividad enzimática.

Metabolismo subterráneo: Es también un pluriempleo pero a nivel de centro activo; una enzima puede usar más de un sustrato, realiza pues más de una función química.

Ejemplo Carboxipeptidasa: La Carboxipeptidasa digiere aa empezando pro el C-Terminal por lo que necesita en su centro activo una molécula de Ni para hacer su función. Si este Ni lo intercambiamos por otro metal (Mg, Mn, Co) se transforma en una esteresa.

Ejemplo Uracilglicosilasa: La Uracilglicosilasa es la misma enzima que la G3PD à su centro activo puede llevar a cabo las 2 funciones.

Modificaciones postraduccionales: Un ejemplo claro es la fosforilación pero no es que de lugar a una nueva función si no que permite la activación o la inactivación de la proteína. La mayor parte de estas modificaciones suelen ser poco importantes, de las 100 conocidas las 4 más importantes son: Glicosidación, Fosforilación, Miristilación (adición de ácido graso, palmitación) y Sulfatación.

1.4 Gel de agarosa en 2D: Glicosiación/Fosforilación: Si glicosidas o fosforilas variará la masa de la proteína y en un gel en 2D variará su posición. Además la fosforilación también variará su PI. No se han descrito casos en el que alguna de estas modificaciones den lugar a 2 proteínas diferentes, normalmente éstas activan o desactivan la proteína.

Palmitación: Las adiciones de ácido graso (habitualmente un Cys Terminal) hacen que la proteína se pueda anclar en la matriz y por ejemplo pueda tener el papel de receptor. Es el único caso en el que sí se adquiere una función diferente.

“Splicing” proteico: La proteína acabada se automadura eliminado un trozo (exeínas/inteínas). Una proteína sintetizada por ella misma produce la rotura de un fragmento corto; por similitud el gen llama Exeína a la parte de la proteína que queda e Inteína a la parte que se pierde.

Se estima que en el suero humano están presentes 500.000 proteínas y en total podemos encontrar 1 millón de proteínas. Sabemos que el nº de genes oscila entre 25.000-120.000 y que dan lugar a 106 proteínas. Por otro lado se conocen unas 1.000 vías metabólicas, cada una de las cuales con 10-100 componentes (se considera pues que hay 2.500 metabolitos, componentes pequeños). Una proteína interacciona con otras proteínas, concretamente entre 5-55 otras proteínas (este estudio es la interactómica). También se habla de 270 tipos celulares, pero se sabe que habrá más.

Con todo esto podemos darnos cuenta de que a partir de pocos genes obtenemos muchas proteínas por lo que no se puede predecir el proteoma a partir del genoma. Tampoco es predecible la cantidad de proteínas que podemos encontrar a partir del mensajero aunque sí se sabe la correlación que es de 0,4.

2. ADN arrays - Errores: No sabemos cuántos genes existen, los bancos de datos de secuencias presentan, al menos, un 30% de errores de anotación funcional pero… cuáles son las causas?

2.1 Errores de secuenciación: El concepto de “annotation” se traduce como “anotación” o notación. Entre ellas 22-65% no definen nada, es desconocido. Principalmente se engloban Arqueobacterias. En el caso de los humanos existen un 50% de genes todavía por conocer. No se debe confundir “Data Bank” con “Data Base” puesto que el primero es un banco de datos y el segundo una base de datos.

• Data Bank: Los bancos de datos están llenos de “basura” puesto que no se comprueban. Ej: NCBI.

• Data Base: Las bases de datos, en cambio, están cuidadosamente analizadas para que no hayan

“porquería” como por ejemplo: Swissprot.

La información que se introduce en la banco de datos o base debe incluir el organismo del que procede, nucleótidos donde está el gen… La parte más importante es la notación funcional como por ejemplo; Es una β-Glucanasa. La mayor parte de las anotaciones son bioinformáticas porque no aparece la función. Esto es lo que genera el 30% de los errores.

2.1.1 Errores inducidos por BLAST: Cuando alguien secuencia un gen realiza un análisis de similitud (homología). Para ello se utilizan algoritmos, entre los más importantes está el BLAST. Es mejor hacer el análisis a nivel de proteínas y no de gen ya que cualquier similitud entre proteínas será más indicativa de similitud. Es decir, la probabilidad de encontrar determinados aa en una determinada posición no es tan elevada como la de encontrar uno de los 4 nt’s. Además se debe tener en cuenta el uso de codón en cada especie porque quizás estamos delante de la misma proteína pero de distintas especies pero como el uso de codón es distinto no codificará para el mismo aa.

Cuando introducimos nuestra proteína en el BLAST éste programa buscará homologías y nos indicará las que encuentre; el programa nos representará un listado matemáticamente significativo puesto que alinea aa por aa la secuencia introducida (conocida como QUERY) y busca similitud con las secuencias que hay en la base de datos:

Sin Gap de 3 bases, se da una puntuación:

• 3 puntos = Si hay coincidencia.

• 2 puntos = Si no iguales pero mantiene carácter químico.

• 1 punto = Si en la naturaleza aparecen estas sustituciones.

Si hay Gaps el programa penaliza, por su introducción (-1 punto) y por su extensión (-0,5 puntos):

Vemos pues que la puntuación con GAP es mayor que sin GAP. Llevar a cabo éstos puede dar lugar a un alineado totalmente diferente. En el segundo caso la introducción de GAP es más representativa.

2.1.2 Anotación transitiva: La principal causa de errores en los bancos es la catástrofe la de anotación transitiva. Por ejemplo encontramos una proteína que llamaremos “Talcualasa” y la ponemos en un banco de datos para encontrar similitudes. Observaremos que con la secuencia 2 tiene un 40% de similitud (muy significativa en el caso de proteínas) y esta secuencia 2 se parece a la 3 en un 60%.

Nuestra secuencia (EALVD) la hemos llamado “Talcualasa”, a la secuencia 3 se le llama entonces “Talc 2” porque no tenía nombre, pero si realmente comparamos la 1era con la 3era veremos que no se parecen en nada, poseerán un 0% de similitud. 2.1.3 Interpretación errónea:

“Doolittle” = 25% identidad ≥ 80 aa:

2. Función molecular: Actividad bioquímica. 3. Componentes celulares: Lugar en el que el producto génico es activo en la célula.

El GO tiene unos códigos de “evidencia” adicionales sobre el origen de la información: § IMP: Inferido por un fenotipo mutante. § IGI: Inferido por interacción genética. § IPI: Inferido por interacción física. § ISS: Inferido por secuencia o estructura similar. § IDA: Inferido por experimento directo o ensayo. § IEP: Inferido por expresión paterna. § IEA: Inferido por anotación electrónica. § TAS: Traveable autor statment. § NAS: Nombre. § NR: Not recorded.

EL GO tiene 17.709 términos, 9.263 procesos biológicos más 1.497 ubicaciones celulares + 6. funciones moleculares.

3. Métodos de transcriptómica; Arrays y SAGE La transcriptómica es el análisis de los transcritos. En una célula eucariota típica cuáles son los niveles de mARN? En procariotas se realiza menor trascripción porque es más difícil ya que obtendríamos menos información. EN eucariotas, en cambio, hay diferentes niveles de trascripción, podremos distinguir 3 diferentes tipos de mARN transcrito:

1. Los que tienen < 100 transcrito (20% mARN total): De cada uno hay 100-1.000 copias /célula. Esto

se da en proteínas ribosomales, elementos de la maquinaria de transcripción como; histonas, algunos genes específicos como Rubisco, PoliA y transcritos mitocrondriales en Drosophila. Además de los genes “Housekeeping” existen los “Luxury” que son muy abundantes pero que no sirven para nada a la célula que lo produce como la Globina.

2. n · 100 (70% mARN total): Existen de 10-100 copias /cél por transcrito. Se da en genes

“Housekeeping”, componentes del citoesqueleto, algunas proteínas específicas, inusualmente abundantes.

3. n · 10 4 (50% mARN total): Menos de 1 copia /cél por cada transcrito. Representan genes específicos

de tejido o inducidos ocasionalmente. El tejido que más transcritos ( secuencias distintas ) produce es el cerebro (23.580) y los monocitos los que menos (9.504).

Análisis de transcriptoma:

• Análisis de pocos genes a la vez F 0 E 0 Northern, RT-PCR.

• Análisis de miles de genes a la vez: OMICS F 0 E 0 EST’s, ADN arrays (ADN microarrays y ADN chips) y

SAGE (Serial análisis of Gene Expresión).

Los arrays no cuantifican, nos indican si un gen se expresa más o menos. SAGE en cambio sí que es cuantitativo pero es una técnica muy cara.

3.1 EST’s: Han aportado una ayuda en la predicción de genes, si encuentras un EST’s en una región ello nos indica que ahí hay un gen. Éstos también son importantes para el “splicing” alternativo a través del cotejo computacional los EST’s con los genes. Otro aspecto importante es que han aportado nuevos genes relacionados con enfermedades:

Ejemplo de la proteína Presenilina: Que fue descubierta a partir de EST’s de personas con alzehimer.

3.2. Arrays: Un array es un conjunto de sondas moleculares fijadas de manera ordenada sobre un soporte sólido con afinidad por el ADN. Estas sondas pueden ser clones de ADN, productos de reacción en cadena de la polimerasa (PCR) o bien oligonucleótidos sintéticos.

Se debe mirar la fluorescencia con una aparato y se mide entonces la cantidad de color verde (Tejido bueno) y el del rojo (Tejido tumoral). De esta forma comprobaremos cuántas veces se expresa más el normal respecto al tumoral.

Estos aparatos pueden leer hasta 3 fluorescencias distintas (aunque se suelen usar 2). Esto nos permite ver si el mensajero del pocillo 1 se expresa más en enfermedades. Por lo que rápidamente surgió la idea de que en lugar de usar cADN’s se pusieran oligos para identificar ciertos genes. Si se detecta hibridación es que existe expresión del gen en cuestión.

Nomenclatura: En los arrays hay una nomenclatura. El término sonda (probe) en el gen cuando lo trasladamos al filtro, la sonda es pues lo que se traslada (lo que hay en el portaobjetos = sonda) y no es el mensajero (sano o tumoral) que corresponderá a la muestra F 0 E 0Es inverso a la nomenclatura que se usa en el Northern en el que la muestra (mARN) serán los que lleven la marca fluorescente.

Una de las diferencias entre macroarrays y microarrays es la diferencia de densidad de cada “spot”, son manchitas al revelar el contenido del pocillo. Por esta misma razón se suelen utilizar más los micro- que los macro- aunque resulte más fácil hacer los últimos.

Microarrays Macroarrays

• 2000 sondas/cm^2.

• ADN marcado con fluoróforos unidos al

mensajero (Cy 3 y Cy5).

• 100 sondas/cm 2.

• ADN que hibrida está marcado con radiactividad

(P32).

3.2.1 Metodología con cADN: Cuando queremos estudiar qué genes se expresan y en qué cantidad (esto último más difícil) entre tejido sano y tumoral extraemos mensajeros de los 2 tejidos que serán las muestras. Por tanto debemos tener inmovilizadas las sondas en el soporte que será ADN, este ADN puede ser cADN o trozos de ADN genómico, oligonucleótidos sintéticos…Pero el cADN que se pone procede de la amplificación del cADN que se posee en un vector en la genoteca. Se amplifica en PCR y se coloca en portaobjetos en pocillos.

Una vez marcado el ADN (o ADNc) se procede a su hibridación con el array sintetizado previamente, uniéndose cada ADNc a la sonda correspondiente. A continuación se somete al microarray a una serie de lavados para eliminar el exceso de ADNc que ha hibridado inespecíficamente y se procede a la medición de la señal.

Cuando el robot pone los cADN en los pocillos (que además de portaobjetos puede ser nylon) se pone el mensajero y se inicia así la hibridación; por tanto habrá competencia de los 2 tipos de moléculas para la unión en función de la expresión que tengan se unirá más una sonda que otra evaluándose en función del color.

La hibridación se llevará a cabo en condiciones restrictivas para que no haya uniones inespecíficas; si no hibrida del todo se acabarán desnaturalizando F 0 E 0la disminución de la fuerza iónica hace que haya restrictividad. Pero para que los resultados sean correctos debería repetirse el método unas 100 veces F 0 E 0imposible porque es muy caro.

Para las muestras marcadas fluorescentemente se utiliza un escáner provisto de un láser y una serie de filtros capaces de excitar los fluorocromos y captar la fluorescencia. En cualquiera de los dos métodos se genera una imagen que se somete a un proceso de digitalización, normalización y cuantificación. Tras este tratamiento se obtiene una colección de datos con las intensidades correspondientes a cada gen incluido en el array.

Los genes pueden sufrir “upregulation”, sobre-expresarse en el tejido tumoral o “downregulation”, sub- expresarse en el mismo.

3.2.2 Metodología con Oligont sintéticos – Sistema Gene-Chip: Si en lugar de hacerlo con cADN lo hago con oligos que me representen el gen esta técnica tendrá mayor precisión porque no habrá ADN del vector al tratarse de material sintético. El método más famoso es el de Affimetrix (casa comercial) para trabajar con oligos (fotolitografía).

Se usan oligos de unos 25 nt’s de longitud y 11 de estos con diferentes oligos. Por lo que debemos de bloquear el oligo mediante el grupo OH para que no se una a través del PPP a los que ya tenemos, al siguiente de la serie. Cuando le hacemos incidir la luz el grupo de nt’s de ese cuadradito quedan libres

Uso de Microarrays en patógenos: Los microorganismos gozan de la ventaja de que no padecen “splicing” pero existen problemas en la manipulación del mARN. Los mARN’s procariotas son de baja cantidad y no todos tienen PoliA y es señal de degradación y de no paso al citoplasma. Además el mensajero es inestable y de difícil manejo por su gran longitud. Por ello las casas comerciales no tienen interés en hacerlos.

3.3 SAGE (Serial Análisis of Gene Expresión):

Es una técnica costosa y cara. Imaginemos que un genoma expresa 3 genes (A, B y C), A se expresa mucho, B poco y C todavía menos. Quiero cuantificar la cantidad de cada mensajero. Por ello se hacen etiquetas de cada mensajero que englobe 15 pb. El ordenador conoce la secuencia de cada gen así que podremos saber a qué gen corresponde cada una de las secuencias para cuantificar así el mARN de cuál de estos genes es. Las etiquetas se unen con ligasa para que se puedan secuenciar porque 15 nt’s serán muy difíciles de secuenciar.

Cuantos más mensajeros tenga ese gen más se expresará y por lo tanto más etiquetas encontrará el ordenador.

Repaso: Existen 3 clases de enzimas de restricción (las bacterias han desarrollado 3 sistemas). Destacan: E IIa: en la que el punto que reconoce es donde corta. E I: todavía no se le ha encontrado utilidad y donde desde la diana de identificación hasta el sitio de corte pueden haber 1000-2000-3000 pb. E IIb: Como BsmF1 (distancia de 15 pb) corta a 15 pb sin importar la secuencia, es un ejemplo.

Una vez obtenido el mARN realizamos un RT-PCR inversa para obtener el cADN utilizando un primer PoliT que está marcado con Biotina para que al desnaturalizar podamos retener el cADN en una columna de Streptonidina.

La enzima Nia III en genomas de mamífero corta cada 400 pb. Ahora se compran “Linkers” o adaptadores que llenen diana para BsmF1, que reconocerá ese extremo dando lugar a un fragmento con la diana de BsmF1 + cADN de 15 pb.

Seguidamente debemos de hacer los “ditags” que consiste en enganchar 2 fragmentos de los anteriores. Como conocemos la secuencia de BsmF1 reconocida lo aprovechamos para crear un primer y hacer PCR F 0 E 0 amplificamos los “ditags”.

Cuando tenemos suficiente cantidad de ADN volveremos a cortar con Nia III que separará la región del BsmF1 F 0 E 0nos quedaremos con los 2 “Tags” unidos sin la secuencia de BsmF1, usaremos la ADNligasa y uniremos las prejas hasta tener un 1Kb, que sí podrá ser secuenciado. El ordenador pues nos dirá cada Tag a qué gen corresponde:

3.3.1 Aplicaciones y aportaciones del SAGE:

1. Conocer cuántos mARN’s se expresan.

2. Nuevos genes.

3. Nivel de expresión varía en amplias zonas; genes que se expresan mucho están juntos en las

regiones. Los genes que se expresan menos en otras zonas.

4. 1 de cada 20 genes humanos el mensajero no acaba al final de este gen sino que continúa en el

gen siguiente incorporando exones del otro gen para formar la proteína.

5. Muchas zonas del ADN parece ser que se transcriben a partir de las 2 hebras. Tradicionalmente el

mARN se obtiene a partir de copias de cadena (-) para obtener cadenas de cADN (+).

Paradojas actuales:

Un gen puede no codificar un solo mARN y un polipéptido. Y los hay que codifican ARN regulador.
Se transcribe mucho ARN (> 60% del genoma) y con qué función? La mayor parte del ARN transcrito no codifica proteínas.
Existen definiciones ambiguas de gen.
Los límites de un gen son indefinidos, el mARN puede provenir de 2 genes contiguos. Existen genes distintos por el “transplicing”.

Pocos genes y muchas proteínas.
Un polipéptido puede realizar más de una función “moonlighting”.
“Función” es ahora más amplio y ambiguo que antes en los años 60 porque puede tener Triple descripción funcional y además formar parte de 1 modo de interacción o de un “Network” de genes.
Antes un “gen” = 1 función fenotípica. Ahora la norma es múltiples genes.
Un polipéptido no siempre es una sola estructura ( Ejemplo :
Existen al menos 2 proteínas 3D superponibles (Buen algo y diferente función enzimática).
Las proteínas están organizadas en grandes complejos de hasta 80 componentes así como en “Networks”.
Cada vez se le da más importancia a la expresión genética que al fenotipo (metilación ADN =
- metilación ADN – Expresión).

• Teóricamente deberíamos hacer 30 geles para asegurarnos que las manchas son iguales en todas.

• Existen muchos trabajos de subproteomas.

1.1.1 ¿Qué problemas presenta?

• Abundancia de proteínas F 0 E 0para ver manchas es preciso obtener una cierta cantidad de proteínas.

El 90% de proteínas son 100, 7% - 1100 y el 3% - 2800.

• Para asegurar qué “spot” es real se deben acumular 30 geles.

• Los geles 2D de 20x20 cm teóricamente pueden resolver hasta 11.000 “spots”. Cada “spot = 1-

proteínas) F 0 E 0El 20-25% de manchas en proteomas simples y el 40% en proteomas complejos contienen múltiples “spots”.

• Y los problemas según las características de las proteínas.

1.1.2 Inconvenientes de la Electroforesis 2D:

• Dificultad para ver proteínas integrales de matriz (se pueden hacer tinciones especiales). Además

las muy grandes y las muy pequeñas se pueden perder.

• Las proteínas con PI básico su movilidad resulta efectiva.

• Contaminación por ADN, ARN, lípidos y glúcidos intervinientes en el proceso electroforético.

• Modificaciones no deseadas generadas en la preparación de la muestra.

• Cualquier cambio en la preparación de la muestra puede hacer que 2 muestras iguales sean

interpretadas como diferentes.

¿Cómo podemos explicar que 1 proteína esté en más de una mancha?

• Tren de “spots”: Proteínas horizontales separadas por PI en las que se han dado modificaciones

postraduccionales por fosforilación modificándose así la carga.

• Fila de “spots”: Típica de la fosforilación, para verlo se debe realizar un gradiente fino de PI (entre

5-6 y no 4-7).

• Columna de “spots”: Proteínas que poseen isoformas más pequeñas puede ocurrir que la

proteína sea la mancha inferior y por modificaciones (glicosidación) aumentan su masa. O puede ocurrir que la proteína sea la superior y las de debajo péptidos de degradación.

• Pequeñas modificaciones de PI y Mr: Podemos encontrar proteínas cercanas que pueden ser las

mismas con pequeñas variaciones o bien éstas pueden ser diferentes. Por ende las proteínas pueden variar en un “spot”.

2. Secuenciación de proteínas. Una proteína tiene aproximadamente una ruptura tríptica cada 300-400 aa, obteniéndose así más o menos 20 péptidos trípticos. El sistema robotizado digiere cada “spot” crípticamente obteniéndose así un mapa tríptico al que se le efectúa un MALDI para la determinación de la masa de cada péptido. El programa MASCOT busca en las proteínas de los bancos de datos alineando nuestro mapa de péptidos con el mapa de péptidos de las proteínas de las bases de datos que se genera informáticamente. Nos dará un listado con “score”; la proteína que más se parece es la que el programa indica.

Para secuenciar podemos hacer servir la degradación de Edman, pero también podemos usar la espectrofotometría (sobre todo el electrospray F 0 E 0microsecuencias).

• Electrospray: Se basa en que el láser que impacta con la molécula rompe por cada uno de los enlaces

peptídicos. Sabiendo diferentes combinaciones del péptido ello nos permite deducir la secuencia.

• Degradación de Edman: La secuencia se hace desde N-Terminal, en muchas proteínas este extremo

está bloqueado por lo que no se puede usar esta técnica F 0 E 0usaremos pues el electrospray.

2.1 Técnica DIGE: Se usan moléculas Cy5. Se basa en el uso del marcaje por fluorescencia, de modo que permite, a través de la separación por electroforesis bidimensional de mezclas de muestras marcadas con diferentes fluoróforos, una comparación cuantitativa muy precisa de los niveles de expresión de proteínas en las muestras analizadas. Se dispone del scanner láser necesario para la obtención de las imágenes de fluorescencia a diferentes longitudes de onda, y del software necesario para el análisis comparativo de 2 muestras y la cuantificación precisa de diferencias.

Robots. La técnica se complementa con equipos para la identificación posterior mediante espectrometría de masas. Se dispone de un robot para el corte de manchas seleccionadas de geles ( Spot picker ), compatible con sistemas de tinción convencionales y con el marcaje fluorescente de la técnica DIGE.

Alternativa: Se cargan 2 muestras (una sin marcar y la otra marcada con isótopo C13). Al revelar se observan 2 picos separados a una cierta distancia debido a la masa molecular del isótopo, la altura de los picos nos indica la cantidad de proteína que hay. La misma proteína en ambas muestras determina en cuál hay más cantidad. Esto ofrece ventajas frente a los arrays y es que aquí sí cuantificamos.

2.2 N-Terómics: En lugar de usar proteínas enteras se cogen los extremos N-Terminal y se secuencian. Esto se ha llevado a cabo con E.Coli que posee 4.800 proteínas. Pongamos que al digerir cada una de estas salen 20 péptidos (4.800 · 20) y luego separamos N-Terminales por cromatografía. Luego se secuencia por electrospray o MALDI-TOF/TOF y con 5 aa permite identificar la proteína.

Es un método muy sensible y rápido puesto que coge el N-Terminal de la proteína, no la de cada péptido que se origina al digerir la misma. Pero… cómo? Gracias a que antes se realiza un tratamiento químico para el marcaje del N-Terminal (como por ejemplo Biotina).

Una de las ventajas que ofrece es que no necesitamos mucha cantidad de proteínas.

3. Métodos de Interactómica. Las proteínas no actúan solas sino que en conjuntos. La interactómica ha demostrado que todas las proteínas están organizadas. Así pues las aplicaciones de la interactómica son:

Aplicaciones:

• Ver conjuntos de proteínas que llevan a cabo una operación.

• Localización celular: 2 proteínas colocalizadas es posible que interactúen.

• Función: Una manera de llegar a determinar la función es a través de esta ciencia, con un método

conocido como “Guilty”, culpable, “dime con qué grupo de proteínas vas y te diré cuál es tu función”.

• Núcleos de interacción: Los nodos se relacionan con otros a partir de otras proteínas (promiscuas)

que se encuentran en 2 nodos. Esto también nos proporciona información sobre los “Networks” de regulación F 0 E 0metabolómica.

• Identificación de dianas terapéuticas.

Ahora hablaremos de los métodos experimentales de interactómica (métodos OMICS) que empiezan a partir del doble o triple híbrido.

Una proteína típica suele hacer entre 5-55 interacciones. Pero estas interacciones suelen ser débiles. Cuando las queremos estudiar parte de éstas se pierden o se crean otras de falsas. En estas técnicas con falsos positivos y negativos.

3.1 Co-purificación: Consiste en un criterio típico para la detección de interacción; se intenta aislar una proteína A pero siempre aparece unida a la proteína B.

3.2 Co-sedimentación: Se cogen anticuerpos contra 1 de las proteínas y se inmoviliza en una columna de afinidad. Nuestra proteína se unirá pero si a su vez en la muestra hay proteína B ésta se podrá unir a A eluyéndose con ella.

3.3 Co-localización: La co-localización, si 2 proteínas salen juntas siempre en la matriz nuclear es obvio que interaccionen:

3.3.1 Microscopía confocal: Se marca con un fluoróforo y se pueden ver en superposición proteínas distintas, si están en la misma posición es que éstas interaccionan.

3.3.2 Inmunocroscopía: Si el anticuerpo reconoce la proteína en el microscopio electrónico veremos cómo el anticuerpo (marcado) reconoce en un punto a su diana sabiendo así dónde se sitúa la proteína.

3.3.3 Cross-Linking: