Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


DEAD temes 1-2, Apuntes de Biotecnología

Asignatura: Disseny Experimental i Anàlisi de Dades, Profesor: Francesc Carmona, Carrera: Biotecnologia, Universidad: UB

Tipo: Apuntes

2013/2014

Subido el 02/10/2014

laura_sainz303
laura_sainz303 🇪🇸

3.8

(19)

1 documento

1 / 13

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
DEAD (16/09/14)
Situación más simple: T-Student
El objetivo es la resolución de los diseños estándar; delante de un problema real averiguar cuál
es el diseño que tenemos que aplicar.
Evaluación:
1er parcial 40% (06/11) Mínimo un 5 para que cuente (ELIMINATORIO)
2er parcial 60% o examen de síntesis (100%)
El software estadístico que vamos a utilizar es el R (lenguaje de programación), lo que haremos
es escribir y ejecutar. Ejemplo: Hacemos un escrito sobre la interacción de dos factores, luego
tendremos que modificarlo para “llevarlo” al experimento.
La ventaja de R es que (free) libre (cualquiera puede copiar y distribuir el software siempre que
cites la fuente) y gratuito. El hecho de que sea libre es importante para su desarrollo (no hay
problemas de patentes). Hay más software estadísticos como es SPSS pero tiene la dificultad
que si lo quiero utilizar en casa lo debo hacer si es pirata. Además, actualmente, el R es el más
utilizado en el mundo de la biomedicina.
Un cálculo importante de R son los gráficos y son fáciles de hacer porque se pueden programar.
El CRAN es una red de ordenadores que contienen el programa R y sus paquetes. Esta red
consiste en mirrors, es decir, todos contienen la misma información. Nosotros podemos elegir
un mirror español, catalán o el mirror especial del propio R y todos tienen la misma
información. La cosa consiste en elegir el mirror que se parezca más a nuestros datos. Para
instalar R lo primero que tenemos que elegir es el mirror, elegimos O-cloud, descargar base
(tolos y contrib son programas de desarrollo de R que NO necesitaremos instalar).
R-Studio: Es un interface de R. La ventaja del server es que los paquetes que se instalen sirven
para cualquier servidor.
Desktop: Los paquetes nos los tenemos que bajar uno a uno. Nos los bajaremos después de
haber instalado R.
A partir del > podemos escribir ej númers y nos calculará cálculos elementales. El número que
está entre corchetes [ ] la última información ocupa el número (que se encuentra entre []) de
posición. Ej [ 1 ] La información ocupa la primera línea. Cuando pone log es el neperiano.
Mean(c(__) : Media
Un escrito (scrit) es un documento donde escribiremos instrucciones y luego las enviaremos a la
consola y ahí veremos los resultados. Si ponemos plot(c(__) nos dibujará una gráfica con los
puntos que hayamos puesto.
Packages: Está el programa R propiamente con una serie de funciones básicas que se cargan de
forma automática. Algunos de los paquetes tienen un check y significa que están cargados en
memoria y por ello, sus datos están disponibles. Por ejemplo: datasets. A medida que
necesitamos nuevas funciones tenemos que cargar nuevos paquetes Ej: si queremos hacer
modelos mixtos sofisticados necesitaremos nlme. Para cargar paquetes lo podemos hacer en el
escrito y consola o simplemente chequeando (con el ratón). Escribiremos library en el escrito
(___). Los paquetes que vemos son lo que R considera básicos y que se instalan cuando R se
instala. Si queremos paquetes adicionales necesitamos buscarlos y descargarlos en el propio
ordenador. Los buscaremos en algún mirror del CRAN. Dos formas de descargar:
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Vista previa parcial del texto

¡Descarga DEAD temes 1-2 y más Apuntes en PDF de Biotecnología solo en Docsity!

DEAD (16/09/14)

Situación más simple: T-Student

El objetivo es la resolución de los diseños estándar; delante de un problema real averiguar cuál es el diseño que tenemos que aplicar.

Evaluación:

1er parcial 40% (06/11) Mínimo un 5 para que cuente (ELIMINATORIO)

2er parcial 60% o examen de síntesis (100%)

El software estadístico que vamos a utilizar es el R (lenguaje de programación), lo que haremos es escribir y ejecutar. Ejemplo: Hacemos un escrito sobre la interacción de dos factores, luego tendremos que modificarlo para “llevarlo” al experimento.

La ventaja de R es que ( free) libre (cualquiera puede copiar y distribuir el software siempre que cites la fuente) y gratuito. El hecho de que sea libre es importante para su desarrollo (no hay problemas de patentes). Hay más software estadísticos como es SPSS pero tiene la dificultad que si lo quiero utilizar en casa lo debo hacer si es pirata. Además, actualmente, el R es el más utilizado en el mundo de la biomedicina.

Un cálculo importante de R son los gráficos y son fáciles de hacer porque se pueden programar. El CRAN es una red de ordenadores que contienen el programa R y sus paquetes. Esta red consiste en mirrors, es decir, todos contienen la misma información. Nosotros podemos elegir un mirror español, catalán o el mirror especial del propio R y todos tienen la misma información. La cosa consiste en elegir el mirror que se parezca más a nuestros datos. Para instalar R lo primero que tenemos que elegir es el mirror, elegimos O-cloud, descargar base (tolos y contrib son programas de desarrollo de R que NO necesitaremos instalar).

R-Studio: Es un interface de R. La ventaja del server es que los paquetes que se instalen sirven para cualquier servidor.

Desktop: Los paquetes nos los tenemos que bajar uno a uno. Nos los bajaremos después de haber instalado R.

A partir del > podemos escribir ej númers y nos calculará cálculos elementales. El número que está entre corchetes [ ] la última información ocupa el número (que se encuentra entre []) de posición. Ej [ 1 ] La información ocupa la primera línea. Cuando pone log es el neperiano.

Mean(c(__) : Media

Un escrito (scrit) es un documento donde escribiremos instrucciones y luego las enviaremos a la consola y ahí veremos los resultados. Si ponemos plot(c(__) nos dibujará una gráfica con los puntos que hayamos puesto.

Packages: Está el programa R propiamente con una serie de funciones básicas que se cargan de forma automática. Algunos de los paquetes tienen un check y significa que están cargados en memoria y por ello, sus datos están disponibles. Por ejemplo: datasets. A medida que necesitamos nuevas funciones tenemos que cargar nuevos paquetes Ej: si queremos hacer modelos mixtos sofisticados necesitaremos nlme. Para cargar paquetes lo podemos hacer en el escrito y consola o simplemente chequeando (con el ratón). Escribiremos library en el escrito (___). Los paquetes que vemos son lo que R considera básicos y que se instalan cuando R se instala. Si queremos paquetes adicionales necesitamos buscarlos y descargarlos en el propio ordenador. Los buscaremos en algún mirror del CRAN. Dos formas de descargar:

  1. Vamos a la pestaña tolls, packages y nos ofrece un paquete (que podemos cambiar).
  2. Desde el CRAN podemos ir desde install package (está a la derecha), repository, le daremos el nombre del paquete (si son varios paquetes daremos los nombres separados por comas). Luego nos da la opción de elegir dónde queremos que se descargue el paquete. Si el paquete necesita otros paquetes le daré a install dependences.

Las funciones del paquete que he descargado si no lo chequeo no puedo utilizarlas, estará en mi ordenador pero no operativo en R. Lo activaré poniendo LIBRARY(agricolae). Si no conozco el paquete agricolae pincho “Help”. R no permite crear un paquete que no tenga “ayuda”.

Si pinchamos agricolae, veremos las diferentes funciones que éste nos ofrece. Ejemplo pinchamos en kurtosis.

La C simboliza un vector de datos, los datos se ponen entre paréntesis. NA significa un misssing, un valor que no existe, es decir, falta un dato. X será el nombre que tendrá el vector de datos, cuando ejecutamos la instrucción nos sale que el vector tiene 11 números [1:11], si creamos una base de datos, vectores etc aparecerán en el cuadro de arriba de la derecha. El símbolo de asignación es <- y yo le asigno al vector c(2,3,4,5,6) el nombre X.

Cuando queremos poner un comentario ponemos el símbolo # y esta línea no se ejecuta (aparecerá en verde).

Abrimos la pestaña R markdown (que está donde R scrip). Los resultados se presentan en forma de informe, es como hacer un artículo orientado a hacer un informe estadístico. La ventaja de utilizar esto y no Word, es que es dinámico (si cambian los datos, cambia el informe). Entre las herramientas para hacer un informe dinámico encontramos:

  • R sweave: Es la más cómoda pero más compleja. Necesitamos el programa LaTeX o LyX más el paquete sweave (que es de R, por tanto, es básico). LaTeX o Lyx son la manera de escribir informes científicos, en lugar de utilizar Word. lyX es un interface de LaTeX para facilitar su uso. BibTeX es un programa para hacer bibliografías
  • R Markdown: Es una forma de escribir documentos pero con unas herramientas mínimas, la ventaja es que puede mezclar texto, gráficos, fórmulas y códigos. Nos falta un paquete si queremos utilizarlo knitr.

Si quiero cambiar de línea debemos dejar una línea en blanco, si no hay línea en blanco no hay cambio de párrafo. Si quiero poner negrita pongo doble * al princpio y doble al final___. Se puede poner cursiva también

Com que la variança sol ser desconeguda la calculem a partir de la mostra.

Aleshores la distribució deixa de ser una normal i passa a ser una T d’student. En aquesta distribució es pot buscar a les taules els valor que limiten el càlculs a una probabilitat X.

α = 0.

Contrast d’hipotesi s’utilitza per decidir si hi ha diferència o no. La hipòtesi nul·la acostuma a ser el plantejament més simple (suposar que les poblacions no són diferents, les mitjanes són iguals). La hipòtesi alternativa és contraria i pot ser bilateral (les dues són diferents) o unilateral (la actual és més gran)

L’error més greu és l’error de tipus 1 perquè fins que no es demostri lo contrari s’ha d’acceptar la hipòtesi nul·la. Hem de controlar l’error de tipus 1.

NIVELL DE SIGNIFICACIÓ Es la probabilitat de rebutjar la hipòtesi nul·la quan aquesta és verdadeta (falsos positius). Quan sigui un cas molt extrem que s’ha d’anar amb molta cura baixarem la α fins a 0.001 per assegurar-nos que no falli.

POTENCIA D’UN TEST d’un test ´es la probabilitat de no cometre l’error de tipus II, ´es a dir, 1 − probabilitat de cometre’l.

CRITERI DE DECISIÓ es tracta de fixar un valor crític que si es supera es pugui rebutjar H que respecti el nivell de significació i garanteixi una bona potencia. Això s’aconseguiex amb el test T d’Student. Aquest valor frontera C es troba a partir de la T d’student que trobarem als valors de la taula.

La nostra decisió no es basarà en els paràmetres de la taula sinó el Pvalor.

P-VALOR quan sigui inferior al nivell de significació rebutjarem H0.

El Pvalor dona 0.097 més gran que 0,05 hauriem d’acceptar. Per què? Abans ens ha donat diferent. Això és perquè per defecte agafa els intervals dels dos costats, en aquest cas només ens interssa un costat. Hem d’especificar que només ens interessa un costat

Donat que Pvalor és inferior al nivell de significació (α = 0,05) rebutgem H0.

d 0 es la mínima diferencia significativa. Es el valor de la diferencia sota la hipòtesi nul·la.

El test suposa les variables per defecte.

t.test(varietat.A, varietat.B, var.equal = TRUE, alternative = "two.sided")

Two Sample t-test

data: varietat.A and varietat.B t = -2.5296, df = 15, p-value = 0. alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.2053781 -0. sample estimates: mean of x mean of y 4.012500 4.

95 percent confidence interval: 0.317975 7. sample estimates: ratio of variances

P valor 0.61 no tenim probes que les variàncies siguin diferents acceptem H0 que les variàncies son iguals.

Afegim l’arxiu de dades en forma de taula:

dades$Produccio

[1] 3.2 4.9 3.8 4.3 4.7 3.5 3.8 3.9 4.1 4.6 4.9 3.9 5.2 4.4 4.7 4.8 5.

t.test(Produccio ~ Varietat, data=dades, var.equal=TRUE)

Two Sample t-test

data: Produccio by Varietat

t = -2.5296, df = 15, p-value = 0.

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-1.2053781 -0.

sample estimates:

mean in group A mean in group B

4.012500 4.

Quan tenim dades aparellades per exemple un abans i després d’un tractament: Indicar dades aparellades:

abans <- c(190, 203, 185, 212, 240, 197, 189, 205, 222, 191, 203, 210)

després <- c(202, 180, 176, 191, 165, 193, 182, 213, 187, 170, 175, 179)

tResult <- t.test(abans, despres, var.equal = TRUE, paired = TRUE)

tResult

Paired t-test

data: abans and despres t = 2.9425, df = 11, p-value = 0. alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 7.598734 Inf sample estimates: mean of the differences

Primer hem guardat el t resul i despres l’hem executat, l’hem guardat per després executar aquest nom.

Calculem la diferencia i fem el t.test per la diferencia de cada parell de dades.

una altra manera de calar-ho calculem la diferència entre les dades i després fem el t.test:

diferencia <- abans - despres

t.test(diferencia, alt="greater")

exercici 3

En la chi quadrat només hi ha una regió crítica i no dues. El pvalor és la probabilitat en la zona de rebuig. Graus de llibertat: num files-1 * num de columnes -1.

La funció de distribució sempre és per la esquerra, si volem que calculi la dreta li hem de dir lower.tail=False