Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Apuntes bioinformática, Resúmenes de Bioinformática

Sobre el primer y segundo parcial de la asignatura

Tipo: Resúmenes

2019/2020

Subido el 10/01/2023

julia-calvo-gonzalez
julia-calvo-gonzalez 🇪🇸

4

(1)

2 documentos

1 / 50

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Alina Logina Bioinformática
1
TEMA 1. BASES DE DATOS
Bases de datos primarios:
secuencias de ácidos nucleicos y de
proteínas
estructuras de proteínas
Bases de datos secundarias :
familias y clasificación de proteínas
(pfam/interpro/CDD)
motivos o dominios proteicos
(prosite/ect)
Bases de datos especializadas:
Medline/PubMed (información
bibliográfica)
PhosphositePlus (modificaciones
postraduccionales)
OMIM (enfermedades genéticas)
2D page, Brenda
perfiles de expresión de genes y
proteínas
BASES DE DATOS PRIMARIOS
Una colección de registros (récords)
Una ficha o registro por secuencia
Cada registro tiene una clave
primaria
Cada registro tiene varios campos
Cada campo contiene información
específica
Cada campo contiene datos de un
tipo determinado
- Ej: texto, números enteros,
fechas
BASES DE DATOS DE NUCLEOTIDOS
ENA: European Nucleotide Archive
DDBJ: DNA Data Bank of Japan
NCBI
BASES DE DATOS DE PROTEÍNAS
Uniprot/Swissprot (EMBL)
PIR: Protein International Resourse
NCBI proteins
BASES DE DATOS ESPECIALIZADAS
Enzimas (Brenda)
Geles bidimensionales (Swiss
2DPAGE, Proteome 2DPAGE
database)
Interacciones entre proteínas
(STRING)
Modificaciones post traduccionales
(Phosphosite)
Enfermedades genéticas (OMIM)
Bases de datos de Mapa de
interacciones entre proteínas
STRING
BioGrid
MINT
IntAc
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32

Vista previa parcial del texto

¡Descarga Apuntes bioinformática y más Resúmenes en PDF de Bioinformática solo en Docsity!

TEMA 1. BASES DE DATOS

Bases de datos primarios:  secuencias de ácidos nucleicos y de proteínas  estructuras de proteínas Bases de datos secundarias :  familias y clasificación de proteínas (pfam/interpro/CDD)  motivos o dominios proteicos (prosite/ect) Bases de datos especializadas:  Medline/PubMed (información bibliográfica)  PhosphositePlus (modificaciones postraduccionales)  OMIM (enfermedades genéticas)  2D page, Brenda  perfiles de expresión de genes y proteínas BASES DE DATOS PRIMARIOS  Una colección de registros (récords)  Una ficha o registro por secuencia  Cada registro tiene una clave primaria  Cada registro tiene varios campos  Cada campo contiene información específica  Cada campo contiene datos de un tipo determinado

  • Ej: texto, números enteros, fechas BASES DE DATOS DE NUCLEOTIDOS  ENA: European Nucleotide Archive  DDBJ: DNA Data Bank of Japan  NCBI BASES DE DATOS DE PROTEÍNAS  Uniprot/Swissprot (EMBL)  PIR: Protein International Resourse  NCBI proteins BASES DE DATOS ESPECIALIZADAS  Enzimas (Brenda)  Geles bidimensionales (Swiss 2DPAGE, Proteome 2DPAGE database)  Interacciones entre proteínas (STRING)  Modificaciones post traduccionales (Phosphosite)  Enfermedades genéticas (OMIM) Bases de datos de Mapa de interacciones entre proteínas  STRING  BioGrid  MINT  IntAc

TEMA 2. ANÁLISIS DE LA INFORMACIÓN SECUENCIAL DEL

DNA

MAPAS DE RESTRICCIÓN

Objetivo 1  Buscar dianas de restricción útiles per la clonación Criterios iniciales: presentes en el polylinker de los vectores que no corten en el interior del fragmento a clonar Usamos bacterias (E. Coli) para hacer crecer plasmidis. Selección del vector de clonaje, tiene que disponer de: Maquinaria de expresión (enzimas de restricción), producción de mRNA, promotor T muy utilizados y luego nos encontramos con el mcs ( multicloning site ) y regiones de restricción que son regiones dentro del plásmido con secuencias especificas que son reconocidas y son cortadas por enzimas de manera específica. Tenemos la unión de gen con plásmido y hacemos la clonación. Tenemos que saber que plásmido es, que enzimas son las que dan lugar a la restricción y saber si corta o no en el gen de interés ya que si cortase seria un problema. NEBcutter es un programa que nos facilita esta información. Tenemos un gen y un plásmido, y tenemos que encontrar que corten por los extremos del gen y en alguna parte específica del plásmido que tiene que ser única (sino se perdería el oriC). Podemos seleccionar la secuencia, los plásmidos comerciales, las enzimas (se seleccionan todas): Te dice el nº de pares de bases y por donde cortaría, la tabla de List es mas fácil de leer. Te da todas las enzimas que no cortan el gen y que por tanto podemos utilizar si son compatibles con el plasmido con el que trabajamos. Lista 0 cutters te permite escoger los enzimas de clonación. Objetivo 2  Buscar dianas para caracterizar polimorfismos (RFLP) Criterios iniciales:  que tengan una diana que se modifique a causa del polimorfismo  que generen fragmentos de DNA fáciles de identificar Nos diferencia entre inserciones y deleciones, puede haber polimorfismos. Podemos cortar de manera controlada el DNA. Si tenemos diferentes alelos para el gen de la b-globina; la forma a y la forma. Un cambio de T por A, puede hacer que pase de

Los extremos 3’: Tiene que haber al menos un G/C en los 5 últimos nt para tener la estabilidad necesaria y que no haya falsos inicios. No deben tener complementariedad interna, sino formarían hairpins. Ni tampoco entre primers, sino formarían un primer dimer. Hay que evitar una energía de Gibbs mayor a - 10 kcal/mol y la hibridación del extremo 3’. Primers para clonación y expresión de proteínas recombinantes En el primer tenemos que insertar el codón ATG si queremos producir una proteína a partir del gen. También el codón STOP. El forward es complementario al extremo 5’ del gen y el reverse, complementario al 3’. Tenemos el gen amplificado, pero queremos insertarlo dentro de un plásmido. Tenemos que añadir un punto de corte con la enzima de restricción para la clonación; usamos las regiones que no sean especificas para enzimas que se encuentren en el gen. No perder la pauta de lectura: después de la Met, que los próximos 3 codones traduzcan el aa que estas buscando. En los primers tenemos que incluir unos 4 nucleótidos (que escogemos nosotros aleatoriamente) en los extremos 5’ para facilitar la digestión. Si queremos amplificar H1c de rata, ejemplo: Reverso stop + Reverso complementario: STOP + cadena de arriba (escrito de derecha a izquierda) 5’TAATACAAGCTTATGTCGGAAACTGCTCCTG 3’ 5’ATATCTCTCGAGTTACTTCTTCTTGGCTGCAAC 3’ Para la comprobación de parámetros específicos usamos el Premier biosoft (user aroque, password uab2013)  Características fisicoquímicas de los primers,

Primers para detección El Primer3plus, a partir de una secuencia de todo el gen, nos da los primers. Hay flexibilidad en la ubicación de los primers y los productos son de 150-250 ob. REAL TIME PCR (RT) Primers para cuantificación Los productos son de 70-200 pb. Parecida a la normal, pero nos permite cuantificar la cantidad de DNA generado, presente en la muestra. En cada ciclo, el gen se duplica de forma exponencial. ¿Cómo se cuantifica? Mediante un Real time PCR (RT). Podemos introducir sondas inespecíficas fluorescentes, se intercala dentro de la cadena de DNA, el emite luz verde fluorescente y podemos cuantificar por intensidad. Si tenemos mas fluorescencia, ¿tiene mas DNA? No porque no podemos afirmar que se encuentre solo en el gen de interés. Puede haber amplificado otras zonas. Mediante sondas de detección (TaqMAN) que es un tozo de DNA que pueden ser cada vez más pequeñas (que los primers ) para ser más específicas. Esta secuencia de nt que es especifica para una región interna del gen que estamos amplificando. Cando se separan las cadenas, el TaqMAN se vuelve a enganchar. Tiene un fluoroforo F en un extremo y en el otro extremo tiene un Quencher Q que absorbe toda la fluorescencia porque se encuentra cerca del F. Si el Taqman está suelto en el medio, no se detecta fluorescencia. Al bajar la temperatura se puede enganchar los primers y el TaqMAN solo en una de las hebras, que también tiene los sitios Q y F. La RNApol desengancha la TaqMAN cuando empieza a sintetizar. Cuando esta hidrolizado, el Q y el F van por separado y ya no se encuentra cerca para cuantificar. El Primer Blast nos ayuda a saber si la pareja de primers es especifica. Es como FASTA, compra, hace similitudes entre nuestra secuencia y otras que ya están en la base de datos. Mutagénesis dirigida Los primers tienen que ser complementarios entre sí, con una longitud de entre 25-45 bases y una Tm mayor a 78ºC. La mutación se da en el centro del primer. El contenido en GC es alrededor de 40% y en el extremo 3’ hay un G o C.

TEMA 3. PROYECTOS GENOMA Y NAVEGADORES

GENÓMICOS

WEBS

Predicción de genes procariotas

  • FGENESB (también predice operones): http://linux1.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgro up=gfindb Predicción de genes eucariotas
  • FGENESH: http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgro up=gfind Exones/Intrones (alineamiento DNAg y mRNA)
  • Splign: http://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi Promotores
  • Eukaryotic promoter database: http://epd.vital-it.ch/ Predicción de islas CpG
  • CpGplot: http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/ TF-binding sites
  • Análisis de secuencia específica: http://alggen.lsi.upc.es/cgi- bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8. PROMOTORES Y FACTORES DE TRANSCRIPCIÓN Hemos trabajado anteriormente con el CDS. La parte de regulación de la transcripción de ese gen se encuentra en la zona upstream, antes. Importantes para el reconocimiento de la RNApol para empezar la transcripción. El TSS es la base 1 y a partir de allí, donde se engancha la RNApol, empieza la transcripción. Todo lo que venga antes de la base 1, es nombrado 0, - 1, - 2... Esta figura puede contener zonas promotoras, en las zonas upstream.

In genetics, a promoter is a region of DNA that leads to initiation of transcription of a particular gene. Promoters are located near the transcription start sites of genes, upstream on the DNA (towards the 5' region of the sense strand). Promoters can be about 100–1000 base pairs long. LA METILACIÓN DE ISLAS CpG UPSTREAM DE GENES PUEDE REGULAR SU EXPRESSIÓN Las islas CpG. Estas bases son susceptibles de ser metiladas, si esta metilación se da antes del gen, en la zona promotora, se inhibe la transcripción. Hay otras islas CpG en otras regiones del genoma, pero no se sabe como funcionan. FACTORES DE TRANSCRIPCIÓN EN CELULAS EUCARIOTAS Los factores de transcripción facilitan que se una la RNApol y se dé la transcripción. Las islas CpG más upstream, está metilada no hace el plegamiento correcto y la RNApol sufre a la hora de engancharse. Promotor: DNA Factor de transcripción: proteína PROYECTOS GENOMA Y NAVEGADORES GENÓMICOS SECUENCIACIÓN, ENSAMBLAJE Y ANOTACIONES DE GENOMAS IDENTIFICACIÓN DE LAS SECUENCIAS CODIFICANTES Y PROMOTORAS

Analogía : no tienen origen común, pero son traducidas en proteínas que comparten analogía estructural o funcional ya que han convergido, aunque sean secuencias no relacionadas. MÉTODOS DE ALINEAMIENTO DOT PLOT Comparación rápida y visual dentro de una misma secuencia y entre secuencia. Las líneas diagonales solo conectan puntos seguidos. Observamos que la manera en que alinean no es igual sino movida.

Filtrar una matriz: eliminar el ruido y quedarse con la mejor información. Tamaño de palabra (Ventana) Restricción (% mínimo de similitud en la ventana) Ejemplo No comparamos A con A, C con C. Comparamos 5 letras a la vez, en la primera vez solo se alinea la E (tenemos un punto porque un aa se ha alineado), Restricción: si dentro de esas 5 letras, coinciden al menos 3 (60%), y en este caso solo se alinea 1 (20%). Hasta que encontramos el 100% y se marca un punto en cada una de las que coinciden y se traza una diagonal. Significa que las dos secuencias son idénticas, la secuencia A es idéntica al final de la secuencia B. Dot plot Intrasecuenciales Si se compara la misma secuencia a) Las secuencias son iguales, identidad total b) Misma secuencia y parte de esa secuencia se repite dentro de a y b. Repeticiones directas, cuando son en el mismo sentido

información a entender como alinear la secuencia 1 y 2 de la mejor manera posible. Hay que dejar una casilla en cada secuencia al principio, un gap. La primera puntuación la generamos nosotros, tenemos que ver si coincide o no coincide. El score que usamos es: Si coincide (match) ponemos +1, si no coincide ( mismatch ) ponemos - 1. Para el gap, la puntuación es - 3.

  1. Fase de inicialización : 0,- 3 ,-6,-9… Valores iniciales = valor + gap
  2. Fase de relleno o inducción : Ahora hay que puntuar las demás casillas, puede venir de la horizontal, vertical o diagonal. Se suma el valor horizontal o vertical + el atribuido al gap. Si el valor viene de la diagonal: diagonal + (si es match o mismatch) Nos tenemos que quedar con el valor más elevado, y tenemos que recordar de donde ha venido ese valor (en este caso de la diagonal).
  3. Fase de rastreo regresivo para recuperar la solución óptima : vamos hasta el ultimo punto, y seguimos las flechas hasta llegar al cero. Gap cuando nos desplazamos lateralmente. Dibujamos el gap hacia la secuencia que indica la flecha. Calcula el score, los valores para representar si el alineamiento esta bien hecho. El score se calcula: el - 1,+1,- 3 El score menos negativo, nos indica que el alineamiento está mejor hecho.

Global: Needelman & Wunch Local: Smith-Waterman Para alineamientos locales el tipo de matriz es una matriz de puntuación, pero la puntuación es diferente. La primera fila y columna es cero entera, a diferencia de la anterior. Buscamos partes de la secuencia parecidas en vez de hacerlo con la secuencia entera. En este caso hablamos de nucleótidos. Para proteínas, tenemos 20 puntuaciones posibles. Los aminoácidos no son 0/1, pueden ser similares. Si tenemos mutaciones, por ejemplo, de una Lys a una Arg no es tan grave y probablemente no cambie la función. Les damos una puntuación por similitud “química”:  Basadas en propiedades fisicoquímicas  Basadas en tamaño, forma, carga, polaridad  Código genético degenerado  Diferente probabilidad según el número de mutaciones necesarias

Basado en las mutaciones y las características físico-quimicas. Blosum 62: thus they used locally aligned sequences where none of the aligned sequences share less than 62% identity. This resulted in a scoring matrix called BLOSUM62. In contrast to the PAM matrices the BLOSUM matrices are calculated from alignments without gaps. 62 es el porcentaje de identidad de las secuencias utilizada en la construcción de la matriz. La mas usada BLOSUM62 que se puede comparar con PAM120. Si queremos comparar secuencia mas diferentes (más divergentes).

  • BLOSUM normalmente mejores que las PAM para búsquedas de similitudes locales (Henikoff & Henikoff, 1993)
  • Utilizar PAM bajas o BLOSUM altas cuando se comparan proteínas parecidas
  • Para proteínas distantes utilizar PAM elevadas o BLOSUM bajas
  • Para búsquedas en bases de datos utilizar BLOSUM62 (por defecto)

Usamos: Pairwise Sequence Alignment HEURISTIC SEARCHES (BÚSQUEDAS HEURÍSTICAS) Busca por similitud, corta la secuencia en partes diferentes que solapan. ¿Hay alguna secuencia en la base de datos que se parece a esta? Significación: E-Value, valor bajo major alineamiento.  BLASTN Y BLASTP BLAST: BASIC LOCAL ALIGNMENT SEARCH TOOL

  • Busca palabras que coincidan entre las dos secuencias con un tamaño definido.
  • Puntúa con la matriz escogida las palabras, sólo se queda con las que superen el valor mínimo de puntuación (umbral/Threshold)
  • Desde la palabra seleccionada extiende el alineamiento hacia los dos lados siempre que la puntuación de este no baje, puede introducir algún gap.

Significación. Valoración de los alineamientos Expect Value: E = número de hits esperado por azar. Valores más bajos serán más significativos. Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar BLAST

TEMA 5. ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y

APLICACIONES

Porque hay que buscar homologías comparando proteínas mejor que con AANN  AANN 4 nt vs 20 aminoácidos en proteínas, la variedad y la información es mas rica  El código genético es redundante: varios codones nos generan un aminoácido  Muchas sustituciones son de un aminoácido por otro del mismo perfil (sustitución conservadora y % similitud)  Evolutivamente hay una tendencia a ciertas sustituciones, a que un aminoácido concreto sea sustituido por otro grupo concreto de aminoácidos (matrices de sustitución PAM, BLOSUM…) ALINEAMIENTO MÚLTIPLE DE PROTEÍNAS Proporciona información sobre:

  1. Patrones y motivos conservados en una familia
  2. Aminoácidos importantes funcionalmente (centro catalítico de la enzima)
  3. Relaciones filogenéticas
  4. Ayuda a la predicción de estructuras secundarias y terciarias El algoritmo: Buscar la similitud, valorar la, darle un score, valorar los gaps. Podemos obtener un alineamiento pairwise o un múltiplo. Podemos focalizarnos en secuencias más cortas que se parezcan más o alineamientos globales.  ALINEAMIENTO GLOBAL O LOCAL Local: similitud exacta de residuos, o que mantengan las propiedades fisicoquímicas Global: Mida diferente, se introducen gaps. Aparean extremos u otras zonas. El alineamiento múltiple (MA) mejora la fiabilidad de las secuencias con poca similitud. Se crean gaps forzosamente y se alinean unos residuos concretos.