Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Resum pràctica 3 bioinformàtica, Resúmenes de Bioinformática

Asignatura: Bioinformatica, Profesor: , Carrera: Ciències Biomèdiques, Universidad: UB

Tipo: Resúmenes

2012/2013

Subido el 18/05/2013

ariadna22-1
ariadna22-1 🇪🇸

4.5

(31)

10 documentos

1 / 7

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Pràctica 3. BIOINFORMÀTICA
Avís: si hi ha moltes faltes és perquè es prenien els apunts directe de classe i no shan corregit.
Predicció de gens. Hem fet un aïllament d'una espècie bacteriana del sòl que té activitat hidrolítiques.
1) Hem de descobrir quina espècie bacteriana és. Agafem tros de seq del DNA 16s (tros de seq que serveix per
discriminar quina espècie és).
2) Tenim un incert (segona seq) que hem aïllat i hem vist que té una activitat carbohidrata ssa. D'aquí dins hem de
trobar on estan els gens.
3) Amplificar, intentar fer un clon sobre la funció aquesta.
ATG- principi. de traducció;
TAA - final de traducció.
P= promotor al principi. --> Es transcriuen les tres proteïnes.
Eucariotes tenen introns i exons. BACTÈRIES NO (la seq gènica NO es dividirà en introns ni exons). El mRNA
procariota es tot exó.
Tenim les dues seq (una caracteritza la espècie i l'altra la funció). Agafo la 1a seq i fem alineament local amb tot el
genoma que sigui el més precís possible (base de dades GENBANK, a través de la eina BLAST que ens permet fer aquest
alineament local). El BLAST compara la teva seq amb totes les de la base de dades i avalua la similitud que hi ha entre
ambdós seq (1 a 1) i ho avalua segons la puntuació.
A partir de la seqüència del DNA 16S, trobar a quin gènere i, si és possible, a quina espècie pertany el
microorganisme aïllat del sol. Per aconseguir-ho, farem servir la base de dades GENBANK amb l’eina BLAST del NCBI per
fer cerques amb seqüències.
Nucleotide blast Posem la seq. 16S(nucleotide seq., blastn I sobretot posar database correcte: no humà, no
ratolí per tan other) clikar BLAST ens surt resultats
Es carrega sol I després surt el següent
resulta ton trobem més detalladament la seq
que hem buscat.
Línies vermelles son totes les seq que es
poden assemblar, si ens posem a sobre ens diu a
quina espècie pertanyen . Això és la versió
gràfica.
Números son puntuacions com més punts
mes similitud
pf3
pf4
pf5

Vista previa parcial del texto

¡Descarga Resum pràctica 3 bioinformàtica y más Resúmenes en PDF de Bioinformática solo en Docsity!

Pràctica 3. BIOINFORMÀTICA

Avís: si hi ha moltes faltes és perquè es prenien els apunts directe de classe i no s’han corregit.

Predicció de gens. Hem fet un aïllament d'una espècie bacteriana del sòl que té activitat hidrolítiques.

  1. Hem de descobrir quina espècie bacteriana és. Agafem tros de seq del DNA 16s (tros de seq que serveix per discriminar quina espècie és).
  2. Tenim un incert (segona seq) que hem aïllat i hem vist que té una activitat carbohidratassa. D'aquí dins hem de trobar on estan els gens.
  3. Amplificar, intentar fer un clon sobre la funció aquesta.

ATG- principi. de traducció; TAA - final de traducció. P= promotor al principi. --> Es transcriuen les tres proteïnes. Eucariotes tenen introns i exons. BACTÈRIES NO (la seq gènica NO es dividirà en introns ni exons). El mRNA procariota es tot exó.

Tenim les dues seq (una caracteritza la espècie i l'altra la funció). Agafo la 1a seq i fem alineament local amb tot el genoma que sigui el més precís possible (base de dades GENBANK , a través de la eina BLAST que ens permet fer aquest alineament local). El BLAST compara la teva seq amb totes les de la base de dades i avalua la similitud que hi ha entre ambdós seq (1 a 1) i ho avalua segons la puntuació.

A partir de la seqüència del DNA 16S, trobar a quin gènere i, si és possible, a quina espècie pertany el microorganisme aïllat del sol. Per aconseguir-ho, farem servir la base de dades GENBANK amb l’eina BLAST del NCBI per fer cerques amb seqüències.

Nucleotide blast  Posem la seq. 16S(nucleotide seq., blastn I sobretot posar database correcte: no humà, no ratolí per tan other) clikar BLAST ens surt resultats

Es carrega sol I després surt el següent resulta ton trobem més detalladament la seq que hem buscat. Línies vermelles son totes les seq que es poden assemblar, si ens posem a sobre ens diu a quina espècie pertanyen. Això és la versió gràfica. Números son puntuacions com més punts mes similitud

Li diem seq 16s (job title), comparem contra bactèries (ni humans ni ratolins, per tant others--> nucleotide collection que ja està per defecte tot i que també l'última podria ser més precisa ja que es diu 16s ribosomal RNA seq en bactèria i archaea). Les opcions de l'algoritme serveix per configurar l'alineament per parelles. Quan fem alineament busquem els residus que s'alineen amb el teu problema de manera igual. Busquem el major nombre de coincidències. Si no hi ha ho penalitzem amb un espai de que diu GAP. La penalització la indiquem nosaltres (puntuació match/mismatch). Quan no sabem res només toquem que entro i en quina base de dades hem d'anar. Query= seq problema que hem carregat nosaltres Subject seq. Determinada de la base de dades La fletxa indica GAP. En resultats, el query és la 1a seq i el de sota és una de la base de dades. Score és la puntuació obtinguda fent match o missmatch de tot. Pel que fa a la versió numèrica, hem de mirar E valor  És el valor esperat que jo obtindria amb una puntuació major o igual que el total score si jo tingués una base de dades a l'atzar. Quan més proper a cero és, més extrany serà que aquest score es produeixi a l'atzar. És interessant ordenar la llista per E-valor. Query coverage  quan tros ocupa l'alineament local respecte el meu query (la meva seq). P.ex el meu query comença a la 27 i el subjecte (candidat 1) comença en la posició 1 i acaba diferent. El recobriment és més petit, el query coverage serà més baix de 100%. Max Ident (identitat)  vol dir que del meu recobriment, tinc X residus exactes (matchs) i la resta no exactes. També s'expressa en percentatge.

  • Dels resultats obtinguts, quins són els valors més rellevants per decidir aquesta similitut? E valor, recobriment i identitat. (E-value, max ident, query coverage)
  • Quines són les seqüencies que s’assemblen més a les de l’insert? Les que tenen un identitat i un coverage molt alt. Clikem sobre accesión del primer resultat de l’alineament (el que té més coincidències amb la query) Ens surt la descripció de la bactèria que té la seq. Amb informació i la seq. Que s’ha alineat amb la query que ens la podem descarregar amb FASTA. Podem veure p.e. que te enzim xilolasa, gen que segurament també té la seq. Problema pk són molt similars.
  • A quines espècies poden pertànyer aquestes seqüències i quin criteri podríem seguir per decidir-ho?- Per tan: gènere i espècie serà panenibacillus barcinonensis perquè té més E valor (nosaltres veiem 0.0 pel fet que està arrodonit però si és diferent). Grau de similitud Es del 98% es molt alt per la qual cosa vol dir que aquest organisme ja ha estat seqüènciat (algu ja ha definit l’espècie) Seq. Problema segurament per diferents especies que tenen similitud
  • Quina és la longitud de les ORFs més llargues, a quina pauta de lectura s’han localitzat? Cal contar, o utilitzar EMBOSS explorer  getorf
  • Quants CDS ens prediuen els diferents programes de predicció de gens, coincideixen tots ells per detectar anotacions sobre les mateixes coordenades? Per fer traducció farem ús del EMBOSS explorer o el Softberry (específic per genomes bacterians). Softberry posem la seq. i busquem al bacterial genèric perquè no estem segurs de la bactèria que és. Ara processem. EN Softberry 3 Possibles unitats de transcripció, 0 operons. Cada eina té la seva virtud per determinar quines són les bones prediccions. Un score alt és l'important. El 2n i el 3r per tant són els possibles millors candidats per score i a més per longitud poden ser la nostra protein carbohidratassa. Ara anem a l'eina MIT que està orientat a genomes eucariotes i no a bacterians. Sol podem escollir en vertebrats per tant l'eina no és gaire bona ja que no està preparada per a bactèries. Busquem CDS. Ens dona 2 opcions possibles i són diferents en posició al dels altres buscadors tot i que la posició no és la mateixa (poden ser solapaments). Ens parla d'exons també. CONCLUSIÓ: un prediu 3 i l'altre 2. (image softberry)

genscan

Si posem a GENSCAN la seq. Del bacteri (tot i que es base de dades per vertebrats) ens ajunta els ORF que havíem trobat i els suma per donar la proteïna. Assumeix que la seq. Te introns. Troba 2 exons l’inicial (INIT)i un intern (INTR) i et posa la longitud d’aquests. 0 i 1 és la fase (Ph) vol dir que el 1r exó comença amb tots els 3 nt del codó d’inici i que l’exó dos comença amb el 2n nt del codó d’inici (se suposa que el 1r nt està al final de 1r exó)

- Perquè creieu que no ens podem refiar dels resultats obtinguts amb el genscan? --> Perquè està preparat per fer cerques no bacterianes sinó genomes eucariotes.

  • Quantes i quines ORFs coincideixen amb les CDSs predites pels programes de predicció de gens? [translate tool i softberry]--> SEGON cds de softberry comença amb MNTG anem a translate tool i busquem Met N T G ho trobem a la seq del FRAME2. Així doncs, el CDS2 està dins l’ORF assenyalat en imatge de FRAME 2. En l'altre MLKT ídem i el trobem en frame 3.

Un cop trobat les diferents CDS saber a quina proteïna correspon cada CDS predit per Softberry agafem seq. De CDS 2 o 3 (1 és molt petit) i ho posem a BLAST protein de NCBI. La CDS 2 trobem que és gulohidroprot. Això permet saber la funció de CDS, és a dir per quina proteïna codifica, podem fer un alineament local, un BLAST de proteïnes i les més properes ens indicaran una funció. NCBI  BLAST prot  database swissprot  posem 1seq CDS que ens ha donat softberry  resultat

Si la que troba té funcions hidrolítiques és una bona pista. Del gràfic que ens surt a dalt, dins de la seq de X a Y ens indica que correspon a la seq típica de la superhidrolassa. Ara no tots els Evalors són 0.0, n'hi han menors. Totes les primeres tenen funció hidrolítica (p.ex degradar la cel·lulosa). No volem verificar quina és la seq sino si la funció de les primeres són similars a la funció que estem buscant. Ara podríem fer-ho amb l'altra CDS.

Els guions entre residu i residu són GAPS que talla les seq. i és com uns punts suspensius. G-A, G...A.

Sabem que es una cel·lulasa. Podem definir primers un cop tenim la seq per a seqüenciar-la. Sabem entre quines coordenades tenim la proteïna. Podem trobar la seq i trobar dianes de restricció davant i darrere tallar i incertar seq en vector de clonatge i obtenir proteïna.

Ara el que fem és enginyeria genètica (agafar el CDS i intentar obtenir un plàsmid associat amb aquesta funció). El primer que ens recomanen és buscar senyals involucrades en la regulació dels gens (regions promotores), les quals estan properes però abans del nostre CDS. Disposem d'eines per fer prediccions de promotors, factors de transcripció i també reguladors com BDGP o BPROM de Sotberry) que prediuen promotors.

El CDS va de 604 a 3525 i si posem promotor seria 540 a 603. Hem de tallar doncs abans de 540 i a prop d'aquest (estaríem tallant per l'esquerra). L'Asel (un dels resultats que ens surt tabulats quan busquem per incert) seria un bon candidat, però ara hem de mirar si està dins de la llista de la MCS (les dianes de tall en blau) i no està. Hauríem de fer servir els que tallen per 425 i ha de ser un dels que estigui en la llista. Aquest seria l'oligo que s'enganxa per l'esquerra, ara ens cal el de la dreta. L'altre primer (punt de tall) ha de ser en sentit justament contrari (3'-5'). Anem a softberry i agafem la seq complementaria (3'-5') de l'extrem del CDS. Aquestes serien les dues dianes que s'enganxarien al promotor (el que hem posat al ppi. GAGCTGGT... fins que i hagi un AGT que indica l'inici de la traducció, això seria en el promotor+ORF).

Scitools ens permet veure si els oligos que tenim són suficientment bons. No ens interessa que els dianes es pleguin entre ells (ni dímers i hairpins).

El plàsmid, finalment, l'enganxarem a una soca hoste d'E.coli. l'Ecoli és resistent a X i té un operó tallat del gen lac. Els ecolis resistents a X serà perquè tenen el plàsmid i si tenen el plàsmid tindran la funció (regió blaApr).

Openwetware serveix per mirar les diferents tipologies d'ecoli, genotips d'ecoli.

Resum: -Eina blast -ORS/CDS -Buscar regions promotores i tenir els inicis de cadena a part de metionina en tenim més de cds per a bactèries. Tenim també una regió prèvia al cds que es el S.G. (regió típica on s'enganxa el ribosoma i comença la traducció). -Clonació i expressió (necessito enganxar un promotor i després posar dianes). -Segons el mapa de restricció o el plàsmid hem de tenir en compte quins primers (punts de tall) posaràs i; segons això, buscar quin hoste és el més adient.