Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Apunts estadistica 2on, Apuntes de Estadística

Asignatura: Estadística, Profesor: , Carrera: Economia, Universidad: UPF

Tipo: Apuntes

2015/2016

Subido el 11/12/2016

mariusg0
mariusg0 🇪🇸

4

(3)

1 documento

1 / 19

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 1
Introducció
Anomenem estadística a la branca de les matemàtiques que es dedica a recollir,
presentar, analitzar i interpretar dades. A més, realitza prediccions de variables no
observades i estudia els mètodes que es fan servir per dur a terme tot això. A més, també
es tracta d'una disciplina que permet fer models i prendre decisions en entorns incerts, de
forma similar a la probabilitat.
Al seu torn, cal definir dos conceptes elementals més:
Població: El conjunt d'individus o dades que volem estudiar. Per exemple, la taxa
d'estalvi de les famílies holandeses.
Mostra: Conjunt de dades o individus que realment estudiem. Seguint amb
l'exemple, seria la taxa d'estalvi de 1000 o 10000 famílies holandeses.
En altres paraules, com estudiar o analitzar tota la població és molt costós i complex,
els estadístics només n'analitzen una part, anomenada mostra, i extrauen conclusions a
partir de les dades obtingudes. És a dir, fan servir la mostra per dur a terme conclusions
sobre la població.
La raó essencial per la qual les conclusions extretes d'una mostra serveixen per la
població és la llei dels grans nombres, que estableixen que si el nombre d'elements és
alt, la mitjana de la mostra tendeix a la mitjana de la població. Dit d'un altre forma, si la
mostra és elevada, és una bona representació de la població.
L'estadística inferencial
Com hem dit anteriorment, el nostre objectiu fonamental serà analitzar les dades d'una
mostra per extreure conclusions de la població. Per tant, farem servir fonamentalment
l'estadística inferencial, que s'ocupa d'inferir -treure conclusions- sobre les dades. Per
entendre millor la seva funció, cal explicar la seva diferència amb la probabilitat.
És a dir, mentre que la probabilitat analitzava dades completes i n'extreia dades
observades -mitjana...-, l'estadística inferencial realitza el procés invers. O sigui, a partir
de les dades observades -mostra- vol determinar aspectes sobre la població -dades
completes-.
Mostra, realització d'una mostra i distribució mostral
Matemàticament, definim una mostra com un conjunt de variables aleatòries
independents idènticament distribuïdes (v.a. iid) de X -població-. És a dir, seleccionem de
F -la població- certs elements independents -sense relació entre ells- idènticament
distribuïts -tots posseeixen la mateixa distribució, la de X-. Per contra, anomenem
realització d'una mostra a un conjunt concret de nombres generats per la mostra. En
altres paraules, l'usarem per referir-nos a uns elements determinats de la mostra . Per
il·lustrar millor això, ho expressarem matemàticament.
X = Població, els salaris d'un indret determinat.
x1, x2, x3 [...], xn: és la mostra que hem agafat.
Al seu torn, x1 i x2 són uns elements concrets de la mostra, és a dir, formen una
realització de la mateixa.
Dades completes -procés de
generació de dades- o població Dades observades o mostra
Probabilitat
Estadística inferencial
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Vista previa parcial del texto

¡Descarga Apunts estadistica 2on y más Apuntes en PDF de Estadística solo en Docsity!

Tema 1

Introducció

Anomenem estadística a la branca de les matemàtiques que es dedica a recollir, presentar, analitzar i interpretar dades. A més, realitza prediccions de variables no observades i estudia els mètodes que es fan servir per dur a terme tot això. A més, també es tracta d'una disciplina que permet fer models i prendre decisions en entorns incerts , de forma similar a la probabilitat. Al seu torn, cal definir dos conceptes elementals més:

  • Població : El conjunt d'individus o dades que volem estudiar. Per exemple, la taxa d'estalvi de les famílies holandeses.
  • Mostra : Conjunt de dades o individus que realment estudiem. Seguint amb l'exemple, seria la taxa d'estalvi de 1000 o 10000 famílies holandeses. En altres paraules, com estudiar o analitzar tota la població és molt costós i complex , els estadístics només n'analitzen una part , anomenada mostra, i extrauen conclusions a partir de les dades obtingudes. És a dir, fan servir la mostra per dur a terme conclusions sobre la població. La raó essencial per la qual les conclusions extretes d'una mostra serveixen per la població és la llei dels grans nombres , que estableixen que si el nombre d'elements és alt, la mitjana de la mostra tendeix a la mitjana de la població. Dit d'un altre forma, si la mostra és elevada, és una bona representació de la població.

L'estadística inferencial

Com hem dit anteriorment, el nostre objectiu fonamental serà analitzar les dades d'una mostra per extreure conclusions de la població. Per tant, farem servir fonamentalment l'estadística inferencial , que s'ocupa d'inferir -treure conclusions- sobre les dades. Per entendre millor la seva funció, cal explicar la seva diferència amb la probabilitat. És a dir, mentre que la probabilitat analitzava dades completes i n'extreia dades observades -mitjana...-, l'estadística inferencial realitza el procés invers. O sigui, a partir de les dades observades -mostra- vol determinar aspectes sobre la població -dades completes-.

Mostra, realització d'una mostra i distribució mostral

Matemàticament, definim una mostra com un conjunt de variables aleatòries independents idènticament distribuïdes (v.a. iid) de X -població-. És a dir, seleccionem de F -la població- certs elements independents -sense relació entre ells- idènticament distribuïts -tots posseeixen la mateixa distribució, la de X-. Per contra, anomenem realització d'una mostra a un conjunt concret de nombres generats per la mostra. En altres paraules, l'usarem per referir-nos a uns elements determinats de la mostra. Per il·lustrar millor això, ho expressarem matemàticament. X = Població , els salaris d'un indret determinat. x1, x2, x3 [...], xn : és la mostra que hem agafat. Al seu torn, x1 i x2 són uns elements concrets de la mostra , és a dir, formen una realització de la mateixa. Dades completes -procés de generació de dades- o població Dades observades o mostra Probabilitat Estadística inferencial

Al seu torn, a l'hora d'obtenir més informació sobre la mostra, cal operar amb la mateixa mitjançant estadístics. Els estadístics, simplement, són operacions amb les dades de la mostra , com mitjanes. Com l'estadístic depèn dels valors que pren la mostra, és una funció de la mateixa i, per tant, la distribució de l'estadístic rep el nom de distribució mostral. Per posar un exemple, un estadístic pot ser la mitjana de la mostra: S = ∑ xi N =Mitjana mostra Per últim, cal mencionar dues propietats que sempre es compleixen pel que fa a les mitjanes i les variàncies -sempre que N o el nombre d'elements sigui igual o major que 30-:

  1. El valor esperat de la mostra és igual al de la població : (^) E ( ∑ xi N

)= E ( X )

Atès que, com més elements agafem, la mostra serà una bona representació de la població i, per tant, les seves mitjanes coincidiran.

  1. La variància de la mostra és igual a la de la població/N : Var ( ∑ xi N

[ Var ( X )] N Atès que, com més elements agafem, la mostra serà una bona representació de la població i, per tant, menys variarà la mostra. Un exemple d'això seria la tirada d'un dau, ja que amb 2 tirades potser varia però amb més tirades la variància es va reduint.

La mitjana mostral

Si volem estimar o aproximar la mitjana d'una població concreta , E(X), usem la mitjana mostral. És a dir, calculem la mitjana de la mostra per estimar la de la població. Xn = ( x1 + x2 +[...]+ xn ) n

= E(X)

Distingim diverses propietats:

  • És un estimador sense biaix.
  • Com, pel teorema central del límit , la variància de la suma de moltes variables aleatòries independents és Var(X)/N, el seu error estàndard és: ee(θn) = √ Var^ ( θn ) √ n
  • Distribució de l'estimador : Distingim dos casos. ◦ Distribució normal : De mitjana N i variància ee(θn)² per qualsevol n ◦ Distribució assímptòticament normal : Només si n és gran -igual o major que 30- Entendrem millor totes les operacions anteriors amb un exemple. Si tenim els següents estimadors, se'ns demana calcular el biaix i l'error estàndard. En primer lloc, calculem la mitjana d'ambdós estimadors : E(XnA) =

∗[ X 1 + 3 ∗ X 2 + 5 ∗ X 3 + 3 ∗ X 4 + X 5 ]

Com el valor de X1 serà igual a la seva mitjana -el valor esperat de X1 és X1-, substituïm cada un dels termes per la seva mitjana : E(XnA) =

∗[ E ( X 1 )+ E ( 3 ∗ X 2 )+ E ( 5 ∗ X 3 )+ E ( 3 ∗ X 4 )+ E ( X 5 )]

Traiem els nombres que multipliquen fora gràcies a la propietat E(aX) = aE(X): E(XnA) =

∗[ E ( X 1 )+ 3 ∗ E ( X 2 )+ 5 ∗ E ( X 3 )+ 3 ∗ E ( X 4 )+ E ( X 5 )]

Com les variables són independents i idènticament distribuïdes -tenen la mateixa distribució-, suposem que la mitjana és igual per a totes. O sigui: E(Xn) = μ E(XnA) =

∗[ μ + 3 ∗ μ + 5 ∗ μ + 3 ∗ μ + μ ]= 13μ 13 = μ En conseqüència: BiaixA = E(θn) - θ = E(XnA) - μ = 0 Fem el mateix per a B: E(XnB) =

∗[ X 1 + 2 ∗ X 2 + 3 ∗ X 3 + 2 ∗ X 4 + X 5 ]=

[ μ + 2 ∗ μ + 3 ∗ μ + 2 ∗ μ + u ] 8

9 ∗ μ 8 En conseqüència: BiaixB= E(θn) - θ = 9 ∗ μ 8 − μ = μ 8 Com B té biaix, el descartem. Per tant, només queda trobar l'error estàndard d'A. Per fer-ho, calculem la seva variància. Recordem que:

ee(θn) = √ Var ( θn ) √ n Com N = 5, només cal calcular la variància: Variància (XnA) = Var(

∗[ X 1 + 3 ∗ X 2 + 5 ∗ X 3 + 3 ∗ X 4 + X 5 ] )

Traiem el terme que multiplica fora amb la propietat Var(ax) = a²x Variància (XnA) = (

2

  • Var( [ X (^) 1 + 3 ∗ X (^) 2 + 5 ∗ X (^) 3 + 3 ∗ X (^) 4 + X (^) 5 ] ) Realitzem la mateixa substitució que en el cas de les mitjanes: Variància (XnA) = (

2 ∗[ Var ( X (^) 1 )+ Var ( 3 ∗ X (^) 2 )+ Var ( 5 ∗ X (^) 3 )+ Var ( 3 ∗ X (^) 4 )+ Var ( X (^) 5 )] Traiem els nombres que multipliquen fora: Variància (XnA) = (^

)∗[ Var ( X (^) 1 )+ 9 ∗ Var ( X (^) 2 )+ 25 ∗ Var ( X (^) 3 )+ 9 ∗ Var ( X (^) 4 )+ Var ( X (^) 5 )] Com les variables són independents i idènticament distribuïdes -tenen la mateixa distribució-, suposem que la mitjana és igual per a totes. O sigui: Var(Xn) = ϭ Variància (XnA) = (^

)∗[ ϭ + 9 ∗ ϭ + 25 ∗ ϭ + 9 ∗ ϭ + ϭ ]= 45 ∗ ϭ 169 Conseqüentment: ee(XnA) =

45 ∗ ϭ 169 √^5

La proporció i la variància mostral

Si volem estimar o aproximar la mitjana d'una població amb distribució bernouilli , E(X), usem la proporció mostral. És a dir, calculem la mitjana de la mostra per estimar la de la població -que coincideix amb p-. Proporció Mostral [E(p')] = ( x1 + x2 +[...]+ x10 ) 10 = p ' En altres paraules, la proporció mostral és un cas específic de la mitjana mostral. Les seves propietats també són similars:

  • És un estimador sense biaix.
  • Com, pel teorema central del límit , la variància de la suma de moltes variables aleatòries independents és Var(X)/N, el seu error estàndard és: ee(θn) = √ Var^ ( θn ) √ n

√(^ p ∗(^1 −^ p )) √ n

  • Distribució assimptòticament normal Al seu torn, per estimar la variància emprem la variància mostral , que es calcula de forma idèntica a la variància. És a dir, Var(Xi) = E(Xi²) - [E(Xi)]² Variància Mostral = [( X (^) 1 − μ ) 2 +( X (^) 2 − μ ) 2 +[...]+( X (^) nμ ) 2 ] ( n − 1 ) La desviació típica mostral és, doncs, l'arrel quadrada de la variància mostral. Quant a les propietats:
  • És un estimador sense biaix.
  • Si la distribució és normal, llavors l'error estàndard és:

E(U) =

( θ + 0 ) 2

( θ ) 2

  1. Substituïm l'esperança per un terme genèric que indiqui la solució de l'equació. E(X) = W = 0, 0,4 = ( θ ) 2
  2. Aïllem el paràmetre que volem estimar. Θ = 0,4*2 = 0, Per tant, segons aquest mètode el màxim hauria de ser 0,8. Tanmateix, el terme màxim és 0,9, la qual cosa prova que hi ha un error.

Estimador de màxima versemblança

Per evitar errors com l'anterior, usem el mètode màxima versemblança, que consisteix en maximitzar la funció. D'aquesta forma, a l'exemple anterior agafaríem el 0,9 com a terme màxim. Posant un altre exemple, suposem que en una enquesta a 1000 habitants ens diuen que a un 20% la declaració de la renda els hi surt a pagar. Si volem estimar la proporció, maximitzem la funció següent : Max. F(X) = (^) px ∗( 1 − p )(^1 −^ x ) Com han pagat 200 i als altres 800 no i volem saber la probabilitat que això passi, substituïm la X per 200: P(X=200) = (^) p^200 ∗( 1 − p )^800 P'p= 200 ∗ p 199 ∗( 1 − p ) 800 − 800 ∗( 1 − p ) 799 ∗ p 200 P'p = p 199 ∗( 1 − p ) 800 − 4 ∗( 1 − p ) 799 ∗ p 200 =[ p 199 ∗( 1 − p ) 799 ]∗[( 1 − p )−4p] Igualem a zero: P'p = (^) [ p^199 ∗( 1 − p )^799 ]∗[( 1 − p )−4p]= 0 Dues opcions: 1 −5p= 0 → p =

p 199 ∗( 1 − p ) 799 = 0 → p = 0 o p = 1 Atès que alguns habitants no han pagat, descartem les dues opcions anteriors i ens quedem amb p=0,2. Aquest exemple és una mica estúpid, ja que coneixíem la proporció amb anterioritat, però serveix per fer-nos una primera idea del mètode a seguir. Al seu torn, moltes vegades resulta útil aplicar logaritmes per poder operar més fàcilment i maximitzar amb els mateixos. Tot i així, com les operacions són complexes, en aquest curs no operarem massa amb aquest tipus de mètode.

Tema 3

Introducció

A l'hora d'estimar els paràmetres, és massa dràstic donar un valor exacte per la mostra o la variància perquè pot provocar errors. Per tant, és útil aproximar a través d'intervals, ja que el resultat dels mateixos és més segur. Així doncs, diem que, per exemple, una mitjana té un interval de confiança del 95% si, al calcular la mitjana de 100 mostres diferents, 95 estan dins l'interval. Per tant, de forma general restarem a la mitjana un valor concret , que dependrà del interval de confiança que volguem tenir i de l'error estàndard de la mitjana. En altres termes: Estimació per intervals de confiança = μ±a En conseqüència, en una distribució de mitjana 0,8 i variància 1 -que usem per calcular l'error estàndard- faríem el següent: Comprovem que apareix un paràmetre desconegut que es denota per α. El seu càlcul és simple i depèn de la confiança que desitgem -normalment se n'agafa una del 95%-: α = 1 – Confiança en % Si la confiança fos del 0,95: α = 0, Si ens hi fixem bé, veiem que el terme α es divideix per dos. Això és degut a que, com treballem amb una distribució normal, “centrem” l'interval per optimitzar la confiança, ja que sinó hauríem d'emprar un valor més gran a l'hora de sumar-lo o restar-lo. Distingim, com passa a les distribucions, dos tipus d'intervals de confiança:

  • Assimptòtics : Amb mostra no normal. El terme α tendeix a 1-confiança en % quan la mostra és gran.
  • Exactes : Amb mostra normal. El terme α sempre és 1-confiança en %.

Intervals de confiança amb variància o desviació estàndard coneguda

Si coneixem la variància de la mostra o la seva desviació típica, usem la fórmula següent per calcular l'interval de confiança: Per il·lustrar millor com emprar-la, posarem un exemple. Volem calcular un interval de confiança al 98% d'una mostra de 400 individus amb mitjana 86 i desviació típica 10,. Primer, organitzem les dades:

  • α : Com l'interval de confiança és del 98%, α= 1 -0,98 = 0,
  • Nombre d'elements o N : 400, ja que la mostra és de 400 individus.
  • Mitjana o μ : 86
  • Variància : És la desviació típica al quadrat. És a dir, 104,04. Posteriorment, apliquem la fórmula:

Cn(95%) = [− 656 −1,96∗(

)]

Per tant, és molt millor aplicar Y en aquest cas ja que els valors negatius són notablement grans.

Definir la grandària d'una mostra

Sovint pot resultar útil saber de quina mida hem de fer la nostra mostra perquè compleixi certes exigències. Això ens permet, per exemple, reduir la longitud de l'interval, assegurar-nos un cert nivell de confiança... Per tant, si tenim l'interval de confiança següent: La longitud serà equivalent a: Longitud = Valor superior – valor inferior L = X (^) n + Z ( α 2 )

σn )− X (^) n + Z ( α 2 )

σn

)= Z

( α 2 )

σn

)+ Z

( α 2 )

σn

)= 2 ∗ Z

( α 2 )

σn

Si considerem una proporció, llavors l'error estàndard és: L = 2 ∗ Z ( α 2 )

p ∗(^1 −^ p ) √ n^

Que assoleix el seu valor màxim quan p=0.5: L = 2 ∗ Z ( α 2 )

√0. 2 √ n^

)= 2 ∗ Z

( α 2 )

n^

Z

( α 2 ) √ n^

Si aïllem N, ja tenim la fórmula: N =

[ Z

( α 2 )

]

2 L 2 Per tant, si volem trobar el nombre mínim d'enquestes necessari perquè l'interval tingui una longitud del 0.05 i hi hagi un interval del confiança del 95% , substituïm: N =

2

2 =^1537

Tema 4

Introducció

Fins ara, hem estudiat mètodes per aproximar o estimar el valor d'un paràmetre concret , com ara la mitjana o la variància. A més, com donar un valor exacte és massa dràstic, hem realitzat intervals de confiança per obtenir major precisió. No obstant, tot això no funciona si volem mesurar l'evidència a favor o en contra d'un fet determinat -per exemple, si un determinat material compleix certes característiques-. En aquests casos, hem d'utilitzar testos o contrastos d'hipòtesi.

Test de Walt

Una de les maneres de quantificar si un indicador és cert o fals és el test de Walt. Per exemple, si tenim cent posts de salsa on hi han d'haver 30 grams d'un producte concret i hi han 23, volem mesurar si això és molt probable. En altres paraules, volem cercar com de probable és que, si aquests posts tenien una mitjana de 30, la mitjana de la mostra hagi sortit 23. Per fer-ho, apliquem el test de Walt: W = Biaix / Error estàndard = ( Xn − 30 ) ( Sn 100

Observem que, si la mitjana mostral -Xn- fos 30, el biaix seria zero i el valor del contrast seria zero. A més, Walt seguiria una distribució normal de mitjana 0 i desviació estàndard de 1. És a dir, com més a prop de zero sigui el contrast, més probable és que la mitjana sigui 30. Així doncs, si substituïm -la desviació estàndard és 4.2-: W =

Atès que el -16,6 està molt lluny del zero, la salsa NO és autèntica.

Tipus d'hipòtesis

A l'hora de contrastar, és imprescindible determinar què volem mesurar o quantificar. O sigui, quines hipòtesis ens plantegem:

  • Hipòtesi nul·la : Que estableix que el paràmetre és igual a un nombre concret. Per exemple, en l'anterior cas era Ho: Xn =
  • Hipòtesi alternativa : Que estableix que el paràmetre NO és igual, és superior o inferior a un nombre concret. Per exemple, en l'anterior cas era Ho: Xn < 30. En cas que no especifiqui res suposem que és diferent.

El p-valor

En el cas anterior, com W tenia un valor negatiu molt gran, era fàcil saber que la hipòtesi no era certa. Tanmateix, com el terme “gran” és subjectiu, convé trobar una mesura més eficaç per determinar si una hipòtesi és certa o falsa. Aquest sistema és el p- valor. Bàsicament, el p-valor mesura la probabilitat que, si la mitjana és 30, hàgim obtingut una mitjana de 23. Per tant, mitjançant el nivell de significació - α- podem establir la probabilitat de rebutjar Ho quan és certa. O sigui, com més gran sigui α, major probabilitat hi ha de NO rebutjar Ho quan és certa -però acceptarem Ho quan és falsa més cops-. Així doncs, quan el p-valor sigui inferior al nivell de significació -la probabilitat d'acceptar H0 quan és certa-, rebutjarem la hipòtesi nul·la. Matemàticament: Si p-valor < α → Rebutgem H0. Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0.

Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0. ii. H1: Xn = μ Com en aquesta hipòtesi suposem que la mitjana és diferent , hem de calcular dos cops el p-valor : si la mitjana és inferior i si la mitjana és superior. No obstant, com la distribució és simètrica -hi ha la mateixa probabilitat als dos costats-, tan sols hem de multiplicar el p- valor per 2 : p-valor = 2pnorm(- |W|)* Novament: Si p-valor < α → Rebutgem H0. Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0. iii. H1: Xn > μ En aquest cas, hem de cercar la probabilitat de l'extrem superior. Atès que les probabilitats són simètriques: p-valor = 1- probabilitat extrem inferior = 1-pnorm(W) I apliquem el criteri habitual.

Casos especials: variància desconeguda

En cas que la distribució segueixi una distribució normal però la variància de la població sigui desconeguda , hem de calcular els p-valors d'un altre forma. És a dir, en comptes d'emprar la comanda pnorm, com desconeixem la variància, utilitzarem una distribució t d'student amb n-1 graus de llibertat. Per tant:

  • H1: Xn < μ: p-valor = pt(W, n-1)
  • H1: Xn > μ : p-valor = 1-pt(W, n-1)
  • H1: Xn = μ : p-valor = 2*pt(-|W|, n-1) El criteri utilitzat per descartar segueix sent el mateix.

Casos especials: proporció

En cas que vulguem calcular el contrast d'una població, només haurem de variar lleugerament el contrast de Walt , ja que els p-valors es calculen de la forma tradicional -amb pnorm-. Com hem dit: W = Biaix / Error estàndard Per tant, simplement, com en una distribució de Bernouilli l'error estàndard és diferent, hem de reemplaçar : W = ( PnP ) ( ( 1 − pn )∗ pn n

qnorm(α/2) (^) qnorm(-α/2) W p-valor

És a dir, tan sols canvia la forma de calcular el contrast.

Contrasts amb dues mostres

En els casos anteriors, hem estat realitzant contrastos d'una sola mostra. No obstant, en certs casos potser ens convé comparar els paràmetres de dues mostres , de manera que el procediment és bastant diferent. Primer, convé distingir les dues menes de mostra:

  • Mostres independents : No tenen relació entre elles.
  • Mostres aparellades : Pertanyen a la mateixa persona i, per tant, tenen relació entre elles. En segon lloc, un cop introduïda la classificació, explicarem el contrast per a mostres independents. La formula té certes similituds amb l'interval de confiança per diferència de mitjanes, tot i que segueix la mateixa estructura que els anteriors. En altres paraules: W = Biaix / Error estàndard = ( XnYnF ) ( Snx Nx

Sny Ny

On:

  • Xn : Mitjana mostral de X.
  • Yn : Mitjana mostral de Y.
  • F : Diferència entre els valors de les mostres. Per exemple, si X és dos punts superiors a Y posaríem un 2. Normalment serà zero -ja que suposem que les mitjanes són iguals-.
  • Snx : Desviació estàndard de X.
  • Sny : Desviació estàndard de Y.
  • Nx : Nombre d'elements de X. Ha de ser igual o major a 30.
  • Ny : Nombre d'elements de Y. Ha de ser igual o major a 30. Posant un exemple, si tenim que Xn =10, Yn=5, F=0, nx= 40, Ny=47 i les desviacions estàndards són ambdues 4, realitzaríem el següent: W = Biaix / Error estàndard = ( XnYnF ) ( Snx Nx

Sny Ny

Si hem formulat les següents hipòtesis: Ho: Ux = Uy H1: Ux > Uy Calculem el p-valor, com la hipòtesi alternativa indica que Ux és superior: p-valor =1-pnorm(27.01) = 0 Per tant, descartem Ho. En tercer lloc, quant a les mostres aparellades , el procediment canvia: W = Biaix / Error estàndard =

( D − F )

Sd N

On:

  • D = X-Y : Diferència entre les dues mostres.
  • F : El mateix paràmetre que abans. Si suposem que les mitjanes són iguals serà zero.
  • Sd : Desviació estàndard de la diferència.
  • N : Nombre d'elements. Com pertanyen a les mateixes persones, els de X i els de Y han de ser iguals.

Tema 5

Introducció

Sovint ens pot interessar saber l'impacte d'una variable sobre un altre. És a dir, podem voler si el fet que una universitat sigui pública o privada influeix en la taxa de suspensos, si un tipus de fertilitzant influeix en la producció agrària... Per dur a terme l'anterior, utilitzarem l'anàlisi de la variància o ANOVA. Fonamentalment, l'ANOVA analitza si les dades quantitatives o numèriques -producció agrària o taxa de suspensos- varien segons la variable qualitativa -tipus d'universitat o de fertilitzant-. Cal aclarir que, malgrat que en tots els casos el nostre objectiu serà analitzar la mitjana o la proporció, treballarem amb la variància atès que, si les mitjanes o les proporcions són diferents, les variàncies també. Per últim, tot i que sigui necessari realitzar l'ANOVA per confirmar-ho, una forma fàcil de tenir una primera idea del tema o la situació és f er un diagrama de caixes amb la comanda boxplot.

Test ANOVA

En primer lloc, convé presentar les dades de forma que puguem visualitzar correcta i fàcilment cada paràmetre: Mitjanes Desv.est. Tamany Mostra 1 x11 x12 ... x1n Xn1 S1 n Mostra 2 x21 x22 ... x2n Xn2 S2 n ... ... ... ... ... ... ... … Mostra k xk1 xk2 ... xkn Xnk Sk nk Xn n On:

  • Xn : Suma de tots els nombres dividit pel nombre total dels mateixos. O sigui:
  • N : Suma del nombre d'elements -ni- de totes les mostres. Un cop presentades les dades, passem a plantejar les hipòtesis : Ho: TOTES les mitjanes són iguals. O sigui, Xn1=Xn2=Xn3=[...]=XnK H1: Alguna mitjana és diferent. O sigui, Xn1=Xn2=Xn3=[...]=XnK En essència, volem mesurar, per una banda, la variabilitat entre cada mitjana del grup i la mitjana total i, per l'altre, la variabilitat o variància entre cada dada individual i la mitjana del grup. Així doncs: Variabilitat entre mitjanes (SSG) = Variabilitat entre els grups (SSW) = Com si no hi ha efecte o impacte de la variable qualitativa sobre les dades numèriques totes les mitjanes seran iguals , la variància si Ho és certa serà propera a la variància de la població. El mateix passa amb la variabilitat de les dades individuals. Un cop formulat això, hem de realitzar un altre taula per dur a terme la verificació de la nostra hipòtesi:

Font Variació GL Suma Quadrats Quadrats Mitjans F P Factor (Entre mitjanes) k-1 SSG (^) S (^) 12 = SSG /( k − 1 ) F=

S 1

2 S (^) 2 2 p-valor Error (Dins de cada grup) n-k SSW (^) S (^) 22 = SSW /( nk ) Total n-1 SST On:

  • N: Nombre dades.
  • K: Nombre grups.
  • N-1 : Suma de k-1+n-k=n-
  • SST = SSG + SSW Cal mencionar que F segueix una distribució F de Fisher de k-1 i n-k graus de llibertat, que té la forma següent: Per tant, a l'hora de calcular amb R -tot i que normalment ja ens donaran la taula-, hem de fer qf(probabilitat, k-1, n-k) o pf(valor, k-1, n-k) per la probabilitat. Atès que només tenim una hipòtesi alternativa, per quantificar el p-valor, com està a l'extrem superior, farem: p-valor = 1-pf(valor, k-1, n-k) I acceptarem Ho si és superior a alpha.

F

α

normal de mitjana 0 i variància σ². X no influeix en l'ei, o sigui, l'ei NO depèn de X. En conseqüència, el nostre objectiu és estimar els coeficients A i B. Per fer-ho, farem servir el mètode de mínims quadrats. En altres paraules, representarem totes les observacions -farem un diagrama de dispersió- i trobarem la recta que fa que la distància entre el valor predit de la recta i el real sigui mínima. És a dir, com volem que la predicció sigui l'òptima, minimitzarem la distància entre el valor predit i el real. El motiu fonamental pel que diem “mínims quadrats” és perquè elevem els errors (Valor real-valor predit) al quadrat per tal que no es “compensin” entre ells” -si tinc un error de 2 i un altre de -2 l'error és zero-. Per tant: Pendent = B = [ Covariància ( X , Y )] ( Variància de X )

[ Cov ( X , Y )] σ²x Un altre opció és: Pendent = B = Correlació ∗[ Desviació típica de Y ] ( Desviació típica de X )

p ∗[ Sn (^) y ] Snx Ordenada a l'origen = A = Valor predicció Y – B(Valor predicció X) Altres factors = ei = Valor real Y -A-B(Valor predicció X) Quant a les hipòtesis, en formulem dues:

  • Ho: B = 0 -no hi ha relació causa efecte-
  • H1: B = 0 -una variable explica en un grau concret l'altre-. Respecte a la presentació de les dades, el programa R ens mostra la taula següent: Estimació Error estàndard T valor Pr(>|T|) Intercepte o ordenada a l'origen (A) Pendent (B) A més, cal mencionar que “ multiple R- squared ” és la correlació al quadrat, i indica en quin percentatge la variable explicativa determina les variacions de la dependent. D'aquesta forma, si pren un valor de 0.5 vol dir que un 50% de les fluctuacions de la variable dependent són a causa de l'explicativa. Finalment, a l'hora d'acceptar o rebutjar hipòtesis , com l'R ens mostra també el p-valor, rebutgem Ho si el p-valor és inferior a alpha o al nivell de significació.