Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


APUNTS PRÀCTICA 4 Bioinformàtica, Apuntes de Bioinformática

Asignatura: Bioinformatica, Profesor: , Carrera: Ciències Biomèdiques, Universidad: UB

Tipo: Apuntes

2012/2013

Subido el 18/05/2013

ariadna22-1
ariadna22-1 🇪🇸

4.5

(31)

10 documentos

1 / 9

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Pràctica 4
Avís: si hi ha moltes faltes és perquè aquests apunts sagafaven directament de classe
Este estudio pretende hallar genes diferencialmente expresados entre varios tipos de tumores de cáncer de
mama: apocrinos (APO), basales (BAS) y luminales (LUMI). Los nombres vienen definidos por el tipo celular del
tejido en el que se forman los tumores. La clasificación se basa en la resistencia de los tumores a los
receptores de estrógenos y de andrógenos.
“APO” - receptores de estrógenos (ER-) + receptores de andrógenos (AR+).
“LUMI” son ER+ y AR+
“BAS” son ER y AR-.
• Los datos originales, así como información acerca del estudio, pueden obtenerse de la base de datos Gene
Expression Omnibus (GEO).
Obj: quins gens es veuen variada expressió? Microarray u permet cal interpretar llista. Sobre les anotacions de
el gen sobre expressat cal veure funció en cel. Per associar gen a malaltia. Podem fer servir MR(microarray)
quin tipus de càncer es segons gens sobre expressats) i el tractament.
Amb mostra de sang podem determinar quina malaltia té gracies a MR. Tmb podem predir que arribarà a
tenir càncer. Busquem candidats que esn expliquin molecularment patologia. Fem prova sobre gen MR pero
després cal fer cultius biòpsia. GEO tenim formats específics per enviar-li dades. MIAME format amb el qual
emmagatzemem dades per poder enviar a base de dades omnibus. GSE1561 és una entrada. Entrem en base
de dades geo en NCBI. En SUMARI posa 49 tumors es van processar AFFYMETRIX és xip estendard que ens
dona conjunt de sondes per ratolí. Les dades estan normalitzades amb sistema rma = no son dades en brut em
eliminat variabilitat deguda a manipulació mostres, microarrays, hibridacions no especifiques. Nomes tenim
variabilitat deguda a canvis dexpressió.
Mostres per separat Los datos
originales, así como información
acerca del estudio, pueden
obtenerse de la base de
datos Gene Expression Omnibus
(GEO), serie GSE1561.
pf3
pf4
pf5
pf8
pf9

Vista previa parcial del texto

¡Descarga APUNTS PRÀCTICA 4 Bioinformàtica y más Apuntes en PDF de Bioinformática solo en Docsity!

Pràctica 4

Avís: si hi ha moltes faltes és perquè aquests apunts s’agafaven directament de classe

Este estudio pretende hallar genes diferencialmente expresados entre varios tipos de tumores de cáncer de mama: apocrinos (APO), basales (BAS) y luminales (LUMI). Los nombres vienen definidos por el tipo celular del tejido en el que se forman los tumores. La clasificación se basa en la resistencia de los tumores a los receptores de estrógenos y de andrógenos.

  • “APO”  - receptores de estrógenos (ER-) + receptores de andrógenos (AR+).
  • “LUMI” son ER+ y AR+
  • “BAS” son ER – y AR-.
  • Los datos originales, así como información acerca del estudio, pueden obtenerse de la base de datos Gene Expression Omnibus ( GEO ).

Obj: quins gens es veuen variada expressió? Microarray u permet cal interpretar llista. Sobre les anotacions de el gen sobre expressat cal veure funció en cel. Per associar gen a malaltia. Podem fer servir MR(microarray) quin tipus de càncer es segons gens sobre expressats) i el tractament.

Amb mostra de sang podem determinar quina malaltia té gracies a MR. Tmb podem predir que arribarà a tenir càncer. Busquem candidats que esn expliquin molecularment patologia. Fem prova sobre gen MR pero després cal fer cultius biòpsia. GEO tenim formats específics per enviar-li dades. MIAME format amb el qual emmagatzemem dades per poder enviar a base de dades omnibus. GSE1561 és una entrada. Entrem en base de dades geo en NCBI. En SUMARI posa 49 tumors es van processar AFFYMETRIX és xip estendard que ens dona conjunt de sondes per ratolí. Les dades estan normalitzades amb sistema rma = no son dades en brut em eliminat variabilitat deguda a manipulació mostres, microarrays, hibridacions no especifiques. Nomes tenim variabilitat deguda a canvis d’expressió.

Mostres per separat Los datos originales, así como información acerca del estudio, pueden obtenerse de la base de datos Gene Expression Omnibus (GEO), serie GSE1561.

Podem clikar sobre les mostres i veure-les amb detall. A sota podem trobar un paquet que conte diferents fitxers i ES descarregable. A nosaltres sols ens interessa els dos documents oberts des del campus marcats a imatge anterior.

22283 sondes i columnes son cada MR (microarray) conjunt dels valors normalitzats. Mostres son columnes. Fitxer que podem trobar al campus = matriu d’expressió normalitzada:

Els tests estadístics ens comproven si hi han diferencies entre dos tipus de tumors. Problema: els tests estadístics ens interessa tenir mes ind. Que mostres (variables). En aquest cas tenim mes dades que ind. Caldria fer estadístic sobre una mostra (aleatòria) amb diferents individus. Però tenim al revés. Cal fer correcció per test múltiple. Els tests no son individuals provenen de mateix experiment. Cal correcció per saber quins son significatius i quins no de manera conjunta (perquè comparant 2 ind. Pot di que X gen es significatiu però fer-ho en grup no ens sortiria significació). Dades dependents entre elles. 1ª part practica cal saber com escollim test quina correcció fem. Arxiu d’informació mostral:

Cada una de les mostres a quina classe estava assignada

A no jobs found podem recuperar resultats. Son un conjunt de programes connectats amb un anàlisi predefinit. Fas nomes cerques que et permeten formulari, ja que analitzes dades amb passos estendard. Carreguem dades.

malgrat que estadísticament sempre ens interessi tenir més individus (cada microarray) que variables aleatòries (les sondes en aquest cas), quan treballem amb microarrays passa just el contrari. NumSondes  22283 NumMicroarrays  49 NumCondicions 3 Num Rèpliques per Condició: APO 6 BAS 16 LUM 27 A dalt a La dreta trobem que ens indiquen l’espai (1Gb) que queda per carregar. Podem carregar dades des de ordinador o des de bd

Tipus de dades que tenim  (imatge) Microarray  dades en brut. Calcularia l’expressió. Datamatrixho seleccionem si tenim les dades netes. Posem datamatrix expression i UPDATE. Ell processa dades per assegurar que esta en el format que li hem dit. Anàlisi de dades exploratori  eina que dona dades per exemple ens dibuixa el MR Generem conjunt de variables que ensenya variable acumulada que tenim, X1= Axa+BXb Cada X es microarray i te sèrie de dades els volem separar el màxim en una grafica de punts Xa es el que te la variància mes gran… Vull mirar si es formen grups am les dades (clusters) si les dades realment s’agrupen i tenen la mateixa variància (i per tan son un tipus de tumor determinat). Cal trova quines son les variables que ens mostrin el max de variància dependra de com es diferencien en l’expressió d’un gen (o mes) si son 2 mostres = tumor (classe) esperes poca variància entre ells i que s’agrupin. En cavi si son molt diferents els vols mol separats. Components principals : Variansa  per veure si dades son molt iguals o diferents. Si tenim un núvol que no permet fer clusters vol dir que gen determinat no ens permet determinar classes de tumors. Volem núvols de punts separats de cada tumor  ANALISI DE COMPONENTS PRINCIPALS

Anem a UTILITIES PCA graph viewer Triem CLASS etiqueta per cada càncer que forma un cluster p.e. tots els tumors que estiguin en un cluster Ho distingirem per codi si esta agrupat a mateix lloc i pel color.

Les mostres son les sondes les classes son tumor mama, tumor paracri,tumor.. Posem nom I RUN. Allà on posa 80% a la dreta es perquè molta gen usa la web i ens em d’esperar a que es carreguin les dades. Com sabrem quin MR correspon a cada mostra? No dirà nº MR sinó donarà un

codi, per saber. Clikem quan estigui verd (PCA sobre MICROARRAYS CANCER)

Cada color microarrays de tumor diferent es un clusters veiem una gràfica on ens ha separat pacients segons expressió en 3 clusters. Per confirmar si ho ha fet bé podem anar AL document Del campus i comparar l uns pacients La seva classificació segons babilon amb el fitxer del campus. Podem veure si realment a associat cada numero de microarray amb el tumor que toca. P.e. tumor A paracri (verd) tumor B basal(vermell) tumor C paracri (verd en = clustyer que A)

Ens separa dades amb 15 % de variància Altra component principal es un 8% de la variància això vol di que tenim mes components principals. 15+8  nomes acumulem aquesta variància amb microarrays. Caldrien mes eixos. 49 microarrays  49 variàncies possibles. Depenent dels valors de cada sonda multiplicades per les variables. Fem anàlisi variància i determina eina quina zona anirà del gràfic. Amb 49 MR si fem dos combinació lineals ja es suficient per separar dades (tot i que nomes explica el 23% de la variància total) cal analitzar els 49 combinacions lineals per aconseguir separar dades amb 100% variància. Estem separant dades per variància (variabilitat ) que te mostra.

X = variància microarray = en llibreta

La variància que els separa es perquè expressen diferent els gens determinats. Tot i que veiem aquestes distincions entre mostres (clusters) cal demostrar que realment les diferencies son significatives!

benjamint. Si som poc restrictius posem Pvalue mult B&H =0.

Pvalue Ttest será sempre mes petit que Pvalue mult B&H Així acceptarem H0 amb mes facilitat. Acumulem totes dades a dreta cal dir que el pvalue T−test << p val. ajustat x test multiple. Acumulem tot el que fem a la dreta

Per saber si son significatius o no ens donarà Pvalue. Tot el que tingui Pvaue més petit m-ho creure perquè son diferencies significatives.

Quan esta en verd (apocrin v.s. basal) clikem a sobre. Els noms els posem nosaltres.

Breument el resultat de l’anàlisi és la llista de gens que mostren diferencies significatives un cop ajustats Els p-valors, ordenats en sentit decreixent per valors de l’estadístic de test:

  • Primer apareixen els gens up-regulats (de més a menys diferencialment expressats) i a continuació els down-regulats (de menys a més diferencialment expressats).
  • Aquesta llista es veu reflectida en un ‘heatmap’, com el mostrat a sota.

Input parameters = paràmetres que em definit

De 10.000 termes 318 son significatius degut a l’ajustament amb el p-valor

Heat map ens marca regions més fredes més calentes que son diferencies d’expressió blau= que

s’expressa poc al basal.

Si p value es negatiu es perquè basal es mes negatiu que apo (apo – basal)

Podem clikar table… que ens sortirien tots els resultats. Tmb podem tria TOPLIST on hi ha els 20

sondes que s’expressen mes però volem saber quina funció te gens que s’expressen diferencialment.

Això ho fem amb el FATISCAN