Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Resum pràctica 2 bioinformàtica, Resúmenes de Bioinformática

Asignatura: Bioinformatica, Profesor: , Carrera: Ciències Biomèdiques, Universidad: UB

Tipo: Resúmenes

2012/2013

Subido el 18/05/2013

ariadna22-1
ariadna22-1 🇪🇸

4.5

(31)

10 documentos

1 / 12

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
PRÀCTICA 2 BIOINFORMÀTICA
Avís: si hi ha moltes faltes és perquè sagafaven els apunts directament de classe i no els he corregit.
SQL (no en farem).
Què volem buscar? (ho definim mitjançant filtres) On ho volem buscar? [quina de les taules de la base de dades] i què
volem recuperar? [els camps seleccionats]
Els llenguatges per fer cerques estructurades (StructuredQueryLanguages, SQL llenguatge estructurat per fer
bases de dades) sobre les bases de dades defineixen un conjunt de paraules clau per definir sicament les tres
components principals d’una cerca:
què volem buscar (el filtre),
on ho volem buscar (les taules de la base de dades),
què volem recuperar (els camps seleccionats).
Les bases de dades es poden plantejar com a taules, files són entrades o registres i les columnes són les
característiques associades a la informació (camps).
Per poder accedir a la informació que ens interessa cal saber com fer les cerques i + imp. l’estructura de la base de dades
(quines taules contenen quina informació i els camps que conformen els registres de les taules).
Per facilitar l’accés a la informació emmagatzemada a les bases de dades ENSEMBL =eina per definir les cerques de
manera interactiva, és un navegador genòmic. Al 2004 els desenvolupadors d’ENSEMBL van treure una aplicació web per
accedir a les dades relatives als genomes i les anotacions emmagatzemades a aquesta base de dades, coneguda com
ENSMART1. Més endavant es va veure que l’eina es podia adaptar a diferents estructures de bases de dades amb
informació biològica, la versió genèrica que apareix el 2005 adoptà el nom de BIOMART2 3. Avui en dia, BIOMART permet
integrar informació no sols d’una base de dades o d’una institució, sinó que ens permet aglutinar diferents bases de
dades arreu del món a través del portal BIOMART CENTRAL4.
(full a mà) ENSEMBL I BIOSMART (=ENSMART)
A partir d'Ensmart es va crear el primer
sistema de petició d'informació i al 2005 es va
crear l'etiqueta BIOmart. Tenim eines associades i
bases de dades en les que nosaltres busquem
(podem fer cerques). És una eina per fer peticions
d'informació a base de dades. SRS era una eina per
fer peticions d'una base de dades del laboratori
EMBL, aquest sistema la gràcia que és que si
nosaltres som una entitat de bioinformàtica
nosaltres podem descarregar tot el sistema
BIOmart per a que les nostres consultes es fagin
sempre amb aquest sistema BIOmart per acostumar-se a fer servir sempre el mateix sistema de petició. El
BIOmart té un propi portal. ENSEMBL té un BIOmart.
La comunitat són llocs on tenim associats l'eina BIOmart. Diferents portals tenen l'eina BIOmart
associada, són diferents portals amb la mateixa estructura de petició (d'informació).
Per fer les consultes de BIOmart treballarem amb el BIOmart d'ENSEMBL. La manera de treballar, però
serveix per a qualsevol BIOmart. Tenim connexió amb totes les bases de dades associades a BioMART.
****Ens ha de quedar clar el funcionament:
pf3
pf4
pf5
pf8
pf9
pfa

Vista previa parcial del texto

¡Descarga Resum pràctica 2 bioinformàtica y más Resúmenes en PDF de Bioinformática solo en Docsity!

PRÀCTICA 2 – BIOINFORMÀTICA

Avís: si hi ha moltes faltes és perquè s’agafaven els apunts directament de classe i no els he corregit.

SQL (no en farem). Què volem buscar? (ho definim mitjançant filtres) On ho volem buscar? [quina de les taules de la base de dades] i què volem recuperar? [els camps seleccionats] Els llenguatges per fer cerques estructurades (StructuredQueryLanguages, SQL  llenguatge estructurat per fer bases de dades) sobre les bases de dades defineixen un conjunt de paraules clau per definir bàsicament les tres components principals d’una cerca: què volem buscar (el filtre), on ho volem buscar (les taules de la base de dades), què volem recuperar (els camps seleccionats). Les bases de dades es poden plantejar com a taules, files són entrades o registres i les columnes són les característiques associades a la informació (camps). Per poder accedir a la informació que ens interessa cal saber com fer les cerques i + imp. l’estructura de la base de dades (quines taules contenen quina informació i els camps que conformen els registres de les taules). Per facilitar l’accés a la informació emmagatzemada a les bases de dades ENSEMBL =eina per definir les cerques de manera interactiva, és un navegador genòmic. Al 2004 els desenvolupadors d’ENSEMBL van treure una aplicació web per accedir a les dades relatives als genomes i les anotacions emmagatzemades a aquesta base de dades, coneguda com ENSMART1. Més endavant es va veure que l’eina es podia adaptar a diferents estructures de bases de dades amb informació biològica, la versió genèrica que apareix el 2005 adoptà el nom de BIOMART2 3. Avui en dia, BIOMART permet integrar informació no sols d’una base de dades o d’una institució, sinó que ens permet aglutinar diferents bases de dades arreu del món a través del portal BIOMART CENTRAL4. (full a mà) ENSEMBL I BIOSMART (=ENSMART)

A partir d'Ensmart es va crear el primer sistema de petició d'informació i al 2005 es va crear l'etiqueta BIOmart. Tenim eines associades i bases de dades en les que nosaltres busquem (podem fer cerques). És una eina per fer peticions d'informació a base de dades. SRS era una eina per fer peticions d'una base de dades del laboratori EMBL, aquest sistema la gràcia que té és que si nosaltres som una entitat de bioinformàtica nosaltres podem descarregar tot el sistema BIOmart per a que les nostres consultes es fagin sempre amb aquest sistema BIOmart per acostumar-se a fer servir sempre el mateix sistema de petició. El BIOmart té un propi portal. ENSEMBL té un BIOmart. La comunitat són llocs on tenim associats l'eina BIOmart. Diferents portals tenen l'eina BIOmart associada, són diferents portals amb la mateixa estructura de petició (d'informació).

Per fer les consultes de BIOmart treballarem amb el BIOmart d'ENSEMBL. La manera de treballar, però serveix per a qualsevol BIOmart. Tenim connexió amb totes les bases de dades associades a BioMART. ****Ens ha de quedar clar el funcionament:

==>Informació general -A dalt de tot veiem una caràtula pròpia (la típica barra de color a sobre les pàgines web) de cada proveïdor. Alguns tenen coses i altres res. -Podem triar la base de dades (n'hi han 6). Tot el que està al costat del nom és la versió, sempre ens interessa triar l'última versió (sigui eina o base de dades, en aquest cas això últim).

Ens surt una pestanya a sota

-El dataset ens permet per seleccionar l'organisme, en aquest cas, sobre el qual volem treballar. P.ex: homo sapiens.

-Algunes icones abans en gris a sobre del camp on estem fent la consulta es tornen operatives. -A l'esquerra ens surten FILTRES (camps associats per fer la consulta) i ATRIBUTS (camps que jo vull obtenir). Jo formulo una qüestió a través de camps i volem obtenir camps sobre la consulta feta. A dataset tenim:

Camps que omplim Base de dades que triem Espècie A FILTRES tenim(anem clicant a cada botó):

Event’, si hi ha anotacions relacionades a altres espècies a ‘Homologs’, informació sobre polimorfismes a ‘Variation’, o fins i tot les seqüències relatives a les anotacions a ‘Sequences’. A ATRIBUTTE podem seleccionar que ens mostri anotacions (FEATURES) i si volem els transcrits, les proteïnes, ID gen a ensembl… diferents coses que en spot ensenyar del genoma o regió

Per exemple, podem escollir les seqüències flanquejants dels transcrits, en aquest cas 2000 nucleòtids sobre la regió 5’.

-Cliquem a COUNT i ens donarà el nº de registres que compleixen les nostres condicions. A més d’escollir quines seqüències volem recuperar, també podem seleccionar diferents camps que ens apareixeran a la capçalera de cada seqüència:

==>A atributs o camps a recuperar, tenim 6 grans armaris (FEATURES (anotacions), STRUCTURES, TRANSCRIPT EVENT-associat a splicings, HOMOLOGS-cal conectar-se amb un altre organisme, VARIATION- habitualment SNPs, d'un sol nucleòtid, and SEQUENCES el típic, p.ex: jo vull obtenir totes les seqüències associades al cromosoma 22, després hem de seleccionar quin tros volem obtenir del total de gens. La seq ve en format FASTA.). [Dins de cada un tenim diferents calaixos. Dintre dels calaixos estan els camps].

Finalment, al fer click sobre ‘RESULTS’ anem a un altre formulari on es pot definir com guardar les dades que em filtrat de la base de dades.

Si tornem a fer click sobre l’opció ‘Attributes’ del panell de la dreta, podem escollir altres tipus de dades amb les anotacions que encara tenim seleccionades. Per exemple, anant a ‘Structures’ podem recuperar coordenades, ja siguin dels transcrits, dels exons, etc... Si fem una nova cerca el filtre es manté però els atributs els hem de posar de nou.

En aquest cas, al fer click sobre ‘RESULTS’, obtenim una taula amb les coordenades juntament amb els altres camps que hagueu escollit

Fins i tot podem mirar si els trànscrits que hem sel·leccionat tenen algun homòleg en altres espècies amb l’opció ‘Homologs’.

Posant external podem buscar ID que tenen tots aquells gens a altres bases de dades Max. Podem posar 3 referències externes. RESULTATS: Per cada gen tenim els codis definits Clikant a Unique results only evitem que ens pugui sortir dues vegades el mateix transcrit, el mateix gen o la mateixa prot. Pot sortir repetit perquè pot ser que per un gen tinguem dues entrades. Estem creuant 2 taules; gens ensembl i gens de genbank. A ENSEMBL només tindrem unID una sola entrada, mentre k genbank tenim diferents entrades per aquella zona que en ENSEMBL només té una entrada.

Resultats de una seq. Determinada amb el filtre (cr. 22) on hem buscat la quantitat de gens, transcrits i proteïnes que hi han,en dos bases de dades ENSEMBL i genbank, on demanem ID de les tres coses, en quina cadena estan, la coordenada de cada nt que finalitza i inicia el gen, el cr. En que es troben… Mentre en ENSRMBL tenim un sol ID per un gen, i una sola entrada, a genbank tenim diferents entrades per aquell gen per la qual cosa tenim diferents ID per un gen. En ENSEMBL només tenim una única anotació: la posicio en el genoma d’aquell gen. Quan fem busqueda de transcrit (exó)si surt FASE -1 vol dir que no codifica. Quan posem GO ens ho podem descarregar i podem decidir amb quin format HTML,GFF… (diferents maneres de presentar les dades)

CDS= regió que codifica (nt de capses vermelles) UTR seq que no codifiquen. El dibuix canvia segons la regió que volem que la seleccionem a

ENSMART ens permet fer cerques simultàneament sobre dues bases de dades, el que pot ser d’utilitat quant volem fer estudis de genòmica comparada. En fer click sobre la segona opció ‘Dataset’ (la inferior), tenim a la nostra disposició més formularis per estendre la nostra cerca. Primer cal triar la base de dades del genoma de la mosca (‘Dataset’, ‘CHOOSE ADDITIONAL DATASET!Ensembl Genes 66 - Drosophila melanogaster genes (BDGP5)’). Podeu activar la secció ‘Multispecies Comparisons’ i escollir ‘Homolog filters! Orthologous Human Genes’.

el podem guardar i usar-lo per fer posterior cerca. Si aquesta cerca ta servit per la feina que fas i vols fer-la amb variants fas petites variacions de la cerca que as fet. Et guarda paràmetres de cerca PERL és un llenguatge que ens indica com crear la mateixa petició que hem fet nosaltres ara i en comptes de passar pel menú anem directament al sistema que ell té per entendre PERL, llegeixi les instruccions donades i retorni els resultats (útil per fer peticions a través de programes, fora de la web). PERL permet baixar-te programa o “dades” per fer programes que et repeteixi la cerca en diferents cr. p.e. de manera automàtica. T’ho inventes un programa (fas programació) li dones el que et dona PERL i automàticament et va fent cerques del que li demanes. Es connecta ell sol a base de dades sense entrar a navegador (directe a base de dades) i et busca tot allò que li has demanat que faci.

==>Conclussió, sempre és la mateixa idea. FILTRES  selecció zona del dna que volem ATRIBUTS  camps, columnes que volem veure (ID dels gens a la seq, SNP…) DATASETCanvia és el lloc on ho fem, base de dades.

****Exercicis

1. Feu una taula amb el nombre de gens que codifiquen per proteïnes, pels cromosomes autosòmics del genoma de Mus musculus. -->Hauríem de buscar de tots els autosomes i sumar. Seria útil el PERL per fer-ho per programació i no mecànicament. Filtrem 1 a 1 els cromosomes i hem d'indicar que codifiquin a proteïna. I així fem la taula mecànicament amb els cromosomes autosòmics. Ho mirem a COUNT perquè si anem a RESULT ens dona com a nº de files el nº de transcrits. Hauríem de desactivar aquesta opció. Fem nova cerca, posem genes, mus musculus i seleccionem a filtre els cr. Triem cr un per un posem COUNT i anem sumant el numero de gens que hi ha en cada cas.(NT_ soc seq que han anat a parar a un contig pero que no sabem de quin crom. Pertanyen). Ens podem trobar que els cr. Tinguin gaps 2. Hem de recuperar les seqüències de nucleòtids dels exons codificants (CDS) dels gens localitzats al cromosoma 4 de Drosophila melanogaster. La capçalera de les seqüències haurà d’incloure l’identificador de l’exò, el del trànscrit i el del gen, així com les coordenades sobre el cromosoma. --> "seqüències de nucleòtids dels exons codificants"-filtre o atribut (en principi hauria de donar el mateix). "localitzats al cromosoma 4"-filtre "de drosophila"-base de dades la capçalera de les seq és la header info. Cliquem a results i ens donen els atributs marcats en format FASTA separats per barres verticals. RECORDO QUE ELS ATRIBUTS NO MODIFIQUEN EL COUNT!!!!!!!!!!!!!!!!!!!!!

Drosophila esta en ENSEMBL perque es un bitxu destudi pero sino em d’anar a bioMART. Anem a : (imatge)

3. El gen MECP2 (MEthyl-Cpg-binding Protein 2), que s’uneix a regions metilades CpG, és una proteïna associada a la cromatina que pot activar o reprimir transcripció. És necessària per la maduració de les neurones i està regulada durant el desenvolupament. Mutacions en aquest gen poden causar síndrome de Rett, retard mental, encefalopaties i susceptibilitat a autisme. Sabem que es troba localitzat en el cromosoma X, a la banda citogenètica Xq28. Buscar gens que puguin estar relacionats amb malalties al seu voltant (per exemple que estiguin indexats a la base de dades OMIM i que estiguin localitzats a la mateixa banda citogenètica). També cal que trobeu quin és el codi ENSEMBL pel gen MECP Suposem qe es humà OMIM ha degenerat a MIM. MIM. Fan referencia a malalties (morbid) Morbid Accession

MIM Morbid Description

FILTERSREGION  cr. X Band Xq  GENE limit to genes  MIM (per marcar de quina base volem ID)

ATRIBUTS  FEATURESExternal References MIM MORBID

Clikant a un d’aquests resultants tronbem:

-->Filtrem cromosoma X. Fiquem la banda (igual inici i final). Aquests gens codificaran alguna cosa, a proteïna. Ara anem a buscar que estiguin a la MIM disease (la O ´se d'online), dins de la limit to genes (limita els resultats). No ens demana res més, cliquem a results. Ara bé si volem saber el nom del gen està a atributs (Ensembl, calaix de FEATURE). Ara els resultats ens donarien el nom. Si cliquem als hipervincles gene ID ens dirigirà a ENSEMBL i si cliquem a la columne referent a l'atribut nom de la malaltia ens enviarà a MIM. Cada transcrit té un identificador diferent d'ENSEMBL, igual que cada gen. L'identificador és el que surt a la primera columne de la taula dels resultats.