











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Asignatura: Estadística, Profesor: , Carrera: Economia, Universidad: UPF
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!












Anomenem estadística a la branca de les matemàtiques que es dedica a recollir, presentar, analitzar i interpretar dades. A més, realitza prediccions de variables no observades i estudia els mètodes que es fan servir per dur a terme tot això. A més, també es tracta d'una disciplina que permet fer models i prendre decisions en entorns incerts , de forma similar a la probabilitat. Al seu torn, cal definir dos conceptes elementals més:
Com hem dit anteriorment, el nostre objectiu fonamental serà analitzar les dades d'una mostra per extreure conclusions de la població. Per tant, farem servir fonamentalment l'estadística inferencial , que s'ocupa d'inferir -treure conclusions- sobre les dades. Per entendre millor la seva funció, cal explicar la seva diferència amb la probabilitat. És a dir, mentre que la probabilitat analitzava dades completes i n'extreia dades observades -mitjana...-, l'estadística inferencial realitza el procés invers. O sigui, a partir de les dades observades -mostra- vol determinar aspectes sobre la població -dades completes-.
Matemàticament, definim una mostra com un conjunt de variables aleatòries independents idènticament distribuïdes (v.a. iid) de X -població-. És a dir, seleccionem de F -la població- certs elements independents -sense relació entre ells- idènticament distribuïts -tots posseeixen la mateixa distribució, la de X-. Per contra, anomenem realització d'una mostra a un conjunt concret de nombres generats per la mostra. En altres paraules, l'usarem per referir-nos a uns elements determinats de la mostra. Per il·lustrar millor això, ho expressarem matemàticament. X = Població , els salaris d'un indret determinat. x1, x2, x3 [...], xn : és la mostra que hem agafat. Al seu torn, x1 i x2 són uns elements concrets de la mostra , és a dir, formen una realització de la mateixa. Dades completes -procés de generació de dades- o població Dades observades o mostra Probabilitat Estadística inferencial
Al seu torn, a l'hora d'obtenir més informació sobre la mostra, cal operar amb la mateixa mitjançant estadístics. Els estadístics, simplement, són operacions amb les dades de la mostra , com mitjanes. Com l'estadístic depèn dels valors que pren la mostra, és una funció de la mateixa i, per tant, la distribució de l'estadístic rep el nom de distribució mostral. Per posar un exemple, un estadístic pot ser la mitjana de la mostra: S = ∑ xi N =Mitjana mostra Per últim, cal mencionar dues propietats que sempre es compleixen pel que fa a les mitjanes i les variàncies -sempre que N o el nombre d'elements sigui igual o major que 30-:
Atès que, com més elements agafem, la mostra serà una bona representació de la població i, per tant, les seves mitjanes coincidiran.
[ Var ( X )] N Atès que, com més elements agafem, la mostra serà una bona representació de la població i, per tant, menys variarà la mostra. Un exemple d'això seria la tirada d'un dau, ja que amb 2 tirades potser varia però amb més tirades la variància es va reduint.
Si volem estimar o aproximar la mitjana d'una població concreta , E(X), usem la mitjana mostral. És a dir, calculem la mitjana de la mostra per estimar la de la població. Xn = ( x1 + x2 +[...]+ xn ) n
Distingim diverses propietats:
Com el valor de X1 serà igual a la seva mitjana -el valor esperat de X1 és X1-, substituïm cada un dels termes per la seva mitjana : E(XnA) =
Traiem els nombres que multipliquen fora gràcies a la propietat E(aX) = aE(X): E(XnA) =
Com les variables són independents i idènticament distribuïdes -tenen la mateixa distribució-, suposem que la mitjana és igual per a totes. O sigui: E(Xn) = μ E(XnA) =
∗[ μ + 3 ∗ μ + 5 ∗ μ + 3 ∗ μ + μ ]= 13μ 13 = μ En conseqüència: BiaixA = E(θn) - θ = E(XnA) - μ = 0 Fem el mateix per a B: E(XnB) =
[ μ + 2 ∗ μ + 3 ∗ μ + 2 ∗ μ + u ] 8
9 ∗ μ 8 En conseqüència: BiaixB= E(θn) - θ = 9 ∗ μ 8 − μ = μ 8 Com B té biaix, el descartem. Per tant, només queda trobar l'error estàndard d'A. Per fer-ho, calculem la seva variància. Recordem que:
ee(θn) = √ Var ( θn ) √ n Com N = 5, només cal calcular la variància: Variància (XnA) = Var(
Traiem el terme que multiplica fora amb la propietat Var(ax) = a²x Variància (XnA) = (
2
2 ∗[ Var ( X (^) 1 )+ Var ( 3 ∗ X (^) 2 )+ Var ( 5 ∗ X (^) 3 )+ Var ( 3 ∗ X (^) 4 )+ Var ( X (^) 5 )] Traiem els nombres que multipliquen fora: Variància (XnA) = (^
)∗[ Var ( X (^) 1 )+ 9 ∗ Var ( X (^) 2 )+ 25 ∗ Var ( X (^) 3 )+ 9 ∗ Var ( X (^) 4 )+ Var ( X (^) 5 )] Com les variables són independents i idènticament distribuïdes -tenen la mateixa distribució-, suposem que la mitjana és igual per a totes. O sigui: Var(Xn) = ϭ Variància (XnA) = (^
)∗[ ϭ + 9 ∗ ϭ + 25 ∗ ϭ + 9 ∗ ϭ + ϭ ]= 45 ∗ ϭ 169 Conseqüentment: ee(XnA) =
45 ∗ ϭ 169 √^5
Si volem estimar o aproximar la mitjana d'una població amb distribució bernouilli , E(X), usem la proporció mostral. És a dir, calculem la mitjana de la mostra per estimar la de la població -que coincideix amb p-. Proporció Mostral [E(p')] = ( x1 + x2 +[...]+ x10 ) 10 = p ' En altres paraules, la proporció mostral és un cas específic de la mitjana mostral. Les seves propietats també són similars:
√(^ p ∗(^1 −^ p )) √ n
( θ + 0 ) 2
( θ ) 2
Per evitar errors com l'anterior, usem el mètode màxima versemblança, que consisteix en maximitzar la funció. D'aquesta forma, a l'exemple anterior agafaríem el 0,9 com a terme màxim. Posant un altre exemple, suposem que en una enquesta a 1000 habitants ens diuen que a un 20% la declaració de la renda els hi surt a pagar. Si volem estimar la proporció, maximitzem la funció següent : Max. F(X) = (^) px ∗( 1 − p )(^1 −^ x ) Com han pagat 200 i als altres 800 no i volem saber la probabilitat que això passi, substituïm la X per 200: P(X=200) = (^) p^200 ∗( 1 − p )^800 P'p= 200 ∗ p 199 ∗( 1 − p ) 800 − 800 ∗( 1 − p ) 799 ∗ p 200 P'p = p 199 ∗( 1 − p ) 800 − 4 ∗( 1 − p ) 799 ∗ p 200 =[ p 199 ∗( 1 − p ) 799 ]∗[( 1 − p )−4p] Igualem a zero: P'p = (^) [ p^199 ∗( 1 − p )^799 ]∗[( 1 − p )−4p]= 0 Dues opcions: 1 −5p= 0 → p =
p 199 ∗( 1 − p ) 799 = 0 → p = 0 o p = 1 Atès que alguns habitants no han pagat, descartem les dues opcions anteriors i ens quedem amb p=0,2. Aquest exemple és una mica estúpid, ja que coneixíem la proporció amb anterioritat, però serveix per fer-nos una primera idea del mètode a seguir. Al seu torn, moltes vegades resulta útil aplicar logaritmes per poder operar més fàcilment i maximitzar amb els mateixos. Tot i així, com les operacions són complexes, en aquest curs no operarem massa amb aquest tipus de mètode.
A l'hora d'estimar els paràmetres, és massa dràstic donar un valor exacte per la mostra o la variància perquè pot provocar errors. Per tant, és útil aproximar a través d'intervals, ja que el resultat dels mateixos és més segur. Així doncs, diem que, per exemple, una mitjana té un interval de confiança del 95% si, al calcular la mitjana de 100 mostres diferents, 95 estan dins l'interval. Per tant, de forma general restarem a la mitjana un valor concret , que dependrà del interval de confiança que volguem tenir i de l'error estàndard de la mitjana. En altres termes: Estimació per intervals de confiança = μ±a En conseqüència, en una distribució de mitjana 0,8 i variància 1 -que usem per calcular l'error estàndard- faríem el següent: Comprovem que apareix un paràmetre desconegut que es denota per α. El seu càlcul és simple i depèn de la confiança que desitgem -normalment se n'agafa una del 95%-: α = 1 – Confiança en % Si la confiança fos del 0,95: α = 0, Si ens hi fixem bé, veiem que el terme α es divideix per dos. Això és degut a que, com treballem amb una distribució normal, “centrem” l'interval per optimitzar la confiança, ja que sinó hauríem d'emprar un valor més gran a l'hora de sumar-lo o restar-lo. Distingim, com passa a les distribucions, dos tipus d'intervals de confiança:
Si coneixem la variància de la mostra o la seva desviació típica, usem la fórmula següent per calcular l'interval de confiança: Per il·lustrar millor com emprar-la, posarem un exemple. Volem calcular un interval de confiança al 98% d'una mostra de 400 individus amb mitjana 86 i desviació típica 10,. Primer, organitzem les dades:
Cn(95%) = [− 656 −1,96∗(
Per tant, és molt millor aplicar Y en aquest cas ja que els valors negatius són notablement grans.
Sovint pot resultar útil saber de quina mida hem de fer la nostra mostra perquè compleixi certes exigències. Això ens permet, per exemple, reduir la longitud de l'interval, assegurar-nos un cert nivell de confiança... Per tant, si tenim l'interval de confiança següent: La longitud serà equivalent a: Longitud = Valor superior – valor inferior L = X (^) n + Z ( α 2 )
σ √ n )− X (^) n + Z ( α 2 )
σ √ n
( α 2 )
σ √ n
( α 2 )
σ √ n
( α 2 )
σ √ n
Si considerem una proporció, llavors l'error estàndard és: L = 2 ∗ Z ( α 2 )
√ p ∗(^1 −^ p ) √ n^
Que assoleix el seu valor màxim quan p=0.5: L = 2 ∗ Z ( α 2 )
√0. 2 √ n^
( α 2 )
√ n^
( α 2 ) √ n^
Si aïllem N, ja tenim la fórmula: N =
( α 2 )
2 L 2 Per tant, si volem trobar el nombre mínim d'enquestes necessari perquè l'interval tingui una longitud del 0.05 i hi hagi un interval del confiança del 95% , substituïm: N =
2
Fins ara, hem estudiat mètodes per aproximar o estimar el valor d'un paràmetre concret , com ara la mitjana o la variància. A més, com donar un valor exacte és massa dràstic, hem realitzat intervals de confiança per obtenir major precisió. No obstant, tot això no funciona si volem mesurar l'evidència a favor o en contra d'un fet determinat -per exemple, si un determinat material compleix certes característiques-. En aquests casos, hem d'utilitzar testos o contrastos d'hipòtesi.
Una de les maneres de quantificar si un indicador és cert o fals és el test de Walt. Per exemple, si tenim cent posts de salsa on hi han d'haver 30 grams d'un producte concret i hi han 23, volem mesurar si això és molt probable. En altres paraules, volem cercar com de probable és que, si aquests posts tenien una mitjana de 30, la mitjana de la mostra hagi sortit 23. Per fer-ho, apliquem el test de Walt: W = Biaix / Error estàndard = ( Xn − 30 ) ( Sn 100
Observem que, si la mitjana mostral -Xn- fos 30, el biaix seria zero i el valor del contrast seria zero. A més, Walt seguiria una distribució normal de mitjana 0 i desviació estàndard de 1. És a dir, com més a prop de zero sigui el contrast, més probable és que la mitjana sigui 30. Així doncs, si substituïm -la desviació estàndard és 4.2-: W =
Atès que el -16,6 està molt lluny del zero, la salsa NO és autèntica.
A l'hora de contrastar, és imprescindible determinar què volem mesurar o quantificar. O sigui, quines hipòtesis ens plantegem:
En el cas anterior, com W tenia un valor negatiu molt gran, era fàcil saber que la hipòtesi no era certa. Tanmateix, com el terme “gran” és subjectiu, convé trobar una mesura més eficaç per determinar si una hipòtesi és certa o falsa. Aquest sistema és el p- valor. Bàsicament, el p-valor mesura la probabilitat que, si la mitjana és 30, hàgim obtingut una mitjana de 23. Per tant, mitjançant el nivell de significació - α- podem establir la probabilitat de rebutjar Ho quan és certa. O sigui, com més gran sigui α, major probabilitat hi ha de NO rebutjar Ho quan és certa -però acceptarem Ho quan és falsa més cops-. Així doncs, quan el p-valor sigui inferior al nivell de significació -la probabilitat d'acceptar H0 quan és certa-, rebutjarem la hipòtesi nul·la. Matemàticament: Si p-valor < α → Rebutgem H0. Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0.
Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0. ii. H1: Xn = μ Com en aquesta hipòtesi suposem que la mitjana és diferent , hem de calcular dos cops el p-valor : si la mitjana és inferior i si la mitjana és superior. No obstant, com la distribució és simètrica -hi ha la mateixa probabilitat als dos costats-, tan sols hem de multiplicar el p- valor per 2 : p-valor = 2pnorm(- |W|)* Novament: Si p-valor < α → Rebutgem H0. Si p-valor = α → Acceptem H0. Si p-valor > α → Acceptem H0. iii. H1: Xn > μ En aquest cas, hem de cercar la probabilitat de l'extrem superior. Atès que les probabilitats són simètriques: p-valor = 1- probabilitat extrem inferior = 1-pnorm(W) I apliquem el criteri habitual.
En cas que la distribució segueixi una distribució normal però la variància de la població sigui desconeguda , hem de calcular els p-valors d'un altre forma. És a dir, en comptes d'emprar la comanda pnorm, com desconeixem la variància, utilitzarem una distribució t d'student amb n-1 graus de llibertat. Per tant:
En cas que vulguem calcular el contrast d'una població, només haurem de variar lleugerament el contrast de Walt , ja que els p-valors es calculen de la forma tradicional -amb pnorm-. Com hem dit: W = Biaix / Error estàndard Per tant, simplement, com en una distribució de Bernouilli l'error estàndard és diferent, hem de reemplaçar : W = ( Pn − P ) ( ( 1 − pn )∗ pn n
qnorm(α/2) (^) qnorm(-α/2) W p-valor
És a dir, tan sols canvia la forma de calcular el contrast.
En els casos anteriors, hem estat realitzant contrastos d'una sola mostra. No obstant, en certs casos potser ens convé comparar els paràmetres de dues mostres , de manera que el procediment és bastant diferent. Primer, convé distingir les dues menes de mostra:
Sny Ny
On:
Sny Ny
Si hem formulat les següents hipòtesis: Ho: Ux = Uy H1: Ux > Uy Calculem el p-valor, com la hipòtesi alternativa indica que Ux és superior: p-valor =1-pnorm(27.01) = 0 Per tant, descartem Ho. En tercer lloc, quant a les mostres aparellades , el procediment canvia: W = Biaix / Error estàndard =
Sd N
On:
Sovint ens pot interessar saber l'impacte d'una variable sobre un altre. És a dir, podem voler si el fet que una universitat sigui pública o privada influeix en la taxa de suspensos, si un tipus de fertilitzant influeix en la producció agrària... Per dur a terme l'anterior, utilitzarem l'anàlisi de la variància o ANOVA. Fonamentalment, l'ANOVA analitza si les dades quantitatives o numèriques -producció agrària o taxa de suspensos- varien segons la variable qualitativa -tipus d'universitat o de fertilitzant-. Cal aclarir que, malgrat que en tots els casos el nostre objectiu serà analitzar la mitjana o la proporció, treballarem amb la variància atès que, si les mitjanes o les proporcions són diferents, les variàncies també. Per últim, tot i que sigui necessari realitzar l'ANOVA per confirmar-ho, una forma fàcil de tenir una primera idea del tema o la situació és f er un diagrama de caixes amb la comanda boxplot.
En primer lloc, convé presentar les dades de forma que puguem visualitzar correcta i fàcilment cada paràmetre: Mitjanes Desv.est. Tamany Mostra 1 x11 x12 ... x1n Xn1 S1 n Mostra 2 x21 x22 ... x2n Xn2 S2 n ... ... ... ... ... ... ... … Mostra k xk1 xk2 ... xkn Xnk Sk nk Xn n On:
Font Variació GL Suma Quadrats Quadrats Mitjans F P Factor (Entre mitjanes) k-1 SSG (^) S (^) 12 = SSG /( k − 1 ) F=
2 S (^) 2 2 p-valor Error (Dins de cada grup) n-k SSW (^) S (^) 22 = SSW /( n − k ) Total n-1 SST On:
α
normal de mitjana 0 i variància σ². X no influeix en l'ei, o sigui, l'ei NO depèn de X. En conseqüència, el nostre objectiu és estimar els coeficients A i B. Per fer-ho, farem servir el mètode de mínims quadrats. En altres paraules, representarem totes les observacions -farem un diagrama de dispersió- i trobarem la recta que fa que la distància entre el valor predit de la recta i el real sigui mínima. És a dir, com volem que la predicció sigui l'òptima, minimitzarem la distància entre el valor predit i el real. El motiu fonamental pel que diem “mínims quadrats” és perquè elevem els errors (Valor real-valor predit) al quadrat per tal que no es “compensin” entre ells” -si tinc un error de 2 i un altre de -2 l'error és zero-. Per tant: Pendent = B = [ Covariància ( X , Y )] ( Variància de X )
[ Cov ( X , Y )] σ²x Un altre opció és: Pendent = B = Correlació ∗[ Desviació típica de Y ] ( Desviació típica de X )
p ∗[ Sn (^) y ] Snx Ordenada a l'origen = A = Valor predicció Y – B(Valor predicció X) Altres factors = ei = Valor real Y -A-B(Valor predicció X) Quant a les hipòtesis, en formulem dues: