




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El proceso de estimación de parámetros en modelos lineales mediante el uso de métodos de mínimos cuadrados ordinarios (mqo) y la obtención de intervalos de confianza para cada parámetro. Además, se presentan los cálculos para realizar contrastes de hipótesis sobre los parámetros. El documento incluye ejemplos con datos y se utiliza la distribución f de snedecor para comprobar los resultados.
Tipo: Apuntes
1 / 142
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





























































































2 Notes sobre Estadística II
Sou lliure de:
copiar, distribuir i comunicar públicament l'obra fer-ne obres derivades
Amb les condicions següents: Reconeixement: Heu de reconèixer els crèdits de l'obra de la manera especicada per l'autor o el llicenciador (però no d'una manera que suggereixi que us donen suport o rebeu suport per l'ús que feu l'obra). No comercial: No podeu utilitzar aquesta obra per a nalitats comercials. Compartir Igual: Si altereu o transformeu aquesta obra, o en genereu obres derivades, només podeu distribuir l'obra ge- nerada amb una llicència idèntica a aquesta.
Entenent que: Renuncia Es pot renunciar a alguna d'aquestes condicions si obteniu el permís del titular dels drets d'autor. Domini Públic Aquesta llicència no afecta a la situació de l'obra o algun dels seus elements quan es trobi en el domini públic, segons la legislació vigent aplicable. Altres drets Els drets següents no queden afectats de cap manera per la llicència: Els vostres drets de repartiment just o ús just; Els drets morals de l'autor; Drets que altres persones poden ostentar sobre l'obra o sobre l'ús que se'n fa, com per exemple drets de publicitat o privacitat. Avís Quan reutilitzeu o distribuïu l'obra, heu de deixar ben clar els termes de la llicència de l'obra.
Copyright © 1998-2015 Xavier Vilà. Això és un resum fàcilment llegible del text legal (la llicència comple- ta) que podeu trobar a http://creativecommons.org/licenses/ by-nc-sa/3.0/legalcode
Imagineu un investigador que pretén explicar algun fet del món real. Per exem- ple, podem imaginar a Newton intentant explicar perquè cauen les pomes o, com a cas més familiar, un economista intentant explicar perquè hi ha atur. Normalment, el que un investigador fa es pot desglossar en tres parts:
El paper de l'Estadística resulta de vital importància pel primer d'aquests tres passos^1.
Efectivament, per tal d'estudiar un problema cal observar el món real i veure com es manifesta aquest problema. D'altra banda, no és difícil comprendre que un investigador no pot observar tota la realitat. Newton no pot observar totes les pomes que cauen ni un economista pot entrevistar tota la població activa d'un determinat país. Així doncs cal fer un resum de la realitat, però cal fer-ho de tal manera que aquest resum sigui prou representatiu de la realitat com per que les conclusions que es puguin treure d'ell siguin aplicables amb abilitat a la realitat concreta que es vol estudiar.
(^1) Moltes vegades, en el primer d'aquests passos no s'obté cap informació concreta de la realitat mitjançant tècniques estadístiques, sinó que tan sols s'observen pautes generals. A partir d'aquest coneixement l'investigador pot crear una teoria abstracta per tal d'explicar el problema que s'estudia. Això és, per exemple, el què va fer Newton o el què fa la Teoria Econòmica. Un cop es té aquesta teoria abstracta construïda, es poden utilitzar diverses tècniques estadístiques per tal de comprovar si aquesta teoria s'ajusta a la realitat, com veurem en el Capítol 5.
La inferència estadística és un conjunt de tècniques l'objectiu de les quals és treure conclusions sobre una realitat concreta a partir de l'estudi d'un resum d'aquesta realitat.
En el que segueix estudiarem amb detall aquest procés.
En el primer capítol estudiarem com es fa, de forma rigorosa, el resum de la realitat esmentat abans i quines característiques tenen els resultats de les anàlisis que es fan a partir d'aquest resum.
En el segon capítol veurem una primera aproximació a com es poden treure conclusions sobre la realitat que volem estudiar a partir del resum que d'ella es fa.
El tercer i quart capítol presenten tècniques més sosticades per a poder fer inferència sobre la realitat a partir dels resultats més elementals estudiats en el capítol 2.
Finalment, el cinquè capítol constitueix una introducció a l'anàlisi de la regressió lineal, una tècnica d'anàlisi estadística amplament utilitzada en economia (i d'altres disciplines) per a estudiar la relació que existeix entre un parell de variables.
Val a dir que el contingut d'aquest primer capítol és de vital importància tant per la bona comprensió dels capítols que el segueixen com per a formar-se una idea global del mètode d'anàlisi de la inferència estadística. Per aquest motiu, es recomana vivament que l'estudi d'aquest capítol es faci amb cura i que els seus continguts s'assimilin correctament abans d'abordar l'estudi dels altres capítols.
Resulta important entendre que l'estadística es basa en eines matemàtiques probabilístiques. Així doncs, les conclusions que es puguin extreure de l'estudi d'aquest resum no seran certes per tota la realitat amb total seguretat, sinó que ho seran amb una determinada probabilitat. Per exemple, quan es fa una enquesta electoral és clar que els resultats de l'enquesta no es corresponen exac- tament al resultat nal de les eleccions. No obstant això, si l'enquesta està ben feta, és a dir, el resum de la realitat (què en aquest cas correspon al conjunt de gent que s'ha entrevistat) és prou representatiu de la realitat en el seu conjunt (en aquest cas tot el cens electoral), hi haurà una alta probabilitat de que el resultat nal de les votacions sigui molt semblant al que prediu l'enquesta.
En les seccions que segueixen veurem quins són els components bàsics de qualse- vol anàlisi estadística i les característiques matemàtiques (probabilístiques) que tenen.
1.1 Inferència estadística: denició i mètodes d'in-
ferència
Denirem i descriurem a continuació els quatre conceptes que conguren la base de la inferència estadística. Aquests conceptes estan molt relacionats entre si, i resulta de vital importància el comprendre aquesta relació i no confondre'ls.
Exemple 1.1.12 Quina és la proporció de xips Intel dels 25 que hem seleccionat d'entre tots els produïts en un dia concret que surten defectuosos.
A partir d'aquests conceptes bàsics, el procés de la inferència estadística opera de la següent manera:
Aquest procés es pot representar amb el gràc de la Figura 1.1.
Poblacio
Mostra
Parametre (desconegut)
Estadistic (conegut)
Inferencia Mostreig Estadistica
Figura 1.1: El procés de la inferència Estadística
Així doncs, fent servir la terminologia que acabem d'introduir, podem re-denir la inferència estadística de manera més precisa a la feta a la introducció
Denició 1.1.13 la inferència Estadística és una disciplina l'objectiu de la qual és treure conclusions sobre una població a partir de l'estudi d'una mostra mitjançant tècniques probabilístiques.
1.2 Denició de mostra aleatòria simple i propi-
etats
Veurem en què consisteix un mostratge, és a dir, com es pot extreure una mostra a partir d'una població. És important notar que aquest procés no es pot fer de qualsevol manera si el que pretenem és fer servir l'estudi d'aquesta mostra per a treure conclusions sobre la població original. En aquest sentit
existeixen tècniques rigoroses i sistemàtiques dissenyades a l'efecte. Presenta- rem a continuació les tècniques més bàsiques, ja que l'estudi en profunditat del mostreig és una disciplina extensa que s'escapa de l'abast d'aquestes notes. La següent denició explica en què consisteix un mostratge
Denició 1.2.1 Un mostratge consisteix en una tècnica sistemàtica per a ex- treure una mostra a partir d'una població donada de forma que resulti repre- sentativa d'aquesta població
La paraula clau en aquesta denició és la de representativa. Efectivament, si pretenem que l'estudi de la mostra ens serveixi per a treure conclusions ables sobre la població, voldrem que aquesta mostra sigui (en la seva estructura) el més del a la població original. Per exemple, si volem fer una enquesta electoral i preguntem la intenció de vot només als veïns d'un barri ric, és clar que les seves respostes no seran representatives de la intenció de vot del conjunt de la població.
Hi ha diferents tipus de mostratge, depenent de les característiques de l'estudi que es vulgui realitzar. Els més importants són:
És el més aleatori de tots els mostratges i el que prendrem com a referència. Consisteix en que tots els elements de la població tenen la mateixa probabilitat de forma part de la mostra. És a dir, la mostra es realitza totalment a l'atzar. Si pensem en totes les possibles mostres diferents d'una determinada mida que es poden obtindre d'una població donada, cada una d'aquestes mostres té la mateixa probabilitat de ser la mostra seleccionada per l'estudi.
Exemple 1.2.2 Considerem la població formada per només quatre elements
Poblacio = {A, B, C, D}
Si volem extreure una mostra de mida 2, per exemple, trobem que hi ha 6 mostres possibles (Taula 1.1)
Mostra 1 Mostra 2 Mostra 3 Mostra 4 Mostra 5 Mostra 6 {A, B} {A, C} {A, D} {B, C} {B, D} {C, D}
Taula 1.1: Possibles mostres
Així doncs, en un Mostratge Aleatori Simple (MAS), cada una d'aquestes mos- tres té la mateixa probabilitat de ser la mostra seleccionada, 16 en aquest cas.
De forma equivalent podem dir que cada un dels quatre elements de la població té la mateixa probabilitat de formar part de la mostra seleccionada. Efectivament, donat que cada un d'ells apareix en 3 de les possibles mostres i cada mostra té probabilitat 16 de ser la mostra seleccionada, aleshores la probabilitat de que qualsevol d'ells formi part de la mostra seleccionada és 16 + 16 + 16 = 12.
Aquesta probabilitat de 12 que té cada element de la població de formar part de la mostra seleccionada també es podria entendre com que cada element de la
Exemple 1.2.4 Imaginem que es vol realitzar una enquesta d'intenció de vot a la ciutat de Barcelona. Se sap que la intenció de vot està molt correlacionada amb el districte de la ciutat on es viu. D'aquesta manera, un votant del districte de Pedralbes té una probabilitat més alta de votar conservador que un votant del Poble Sec, què probablement votarà més progressista. Per tal d'evitar que un MAS ens seleccioni molts votants del mateix barri i pocs d'un altre, la mostra que es vol obtenir (de mida n) se subdivideix en varies submostres (una per a cada districte de la ciutat) de forma que la suma d'aquestes submostres sigui exactament n. Per a obtenir cada una d'aquestes submostres es realitza un MAS independentment a cada districte de la ciutat. El resultat d'aquest tipus de mostratge és més representatiu dels diferents votants de la ciutat, ja que cada districte segur que està representat a la mostra. L'únic problema és que cal tenir més informació de la que requereix un MAS. En aquest exemple caldria conèixer quin pes té la població de votants de cada districte de la ciutat amb respecte de la població total de votants a Barcelona. Un cop això es coneix, el pes de les diferents submostres amb respecte a la mostra total hauria d'ajustar-se al pes que cada districte de la ciutat té amb respecte al total de Barcelona.
És una variació més del MAS que es realitza quan l'estructura de la població és tal que la realització directa d'un MAS resultaria molt costosa. El següent exemple il·lustra com funciona aquest tipus de mostratge.
Exemple 1.2.5 Imaginem que es vol realitzar una enquesta sobre la situació de les escoles públiques a Catalunya. Donada la complexitat d'aquesta enquesta, cal desplaçar-se a cada una de les escoles públiques seleccionades a la mostra i entrevistar al seu director. En aquest context, un MAS podria seleccionar una mostra formada per escoles molt disseminades per tot el territori, el que suposaria una gran despesa en viatges. Per tal d'evitar això, el procediment que es realitza és el següent:
D'aquesta manera s'ha seleccionat una mostra de 200 escoles públiques de tot Catalunya per visitar reduint-se el cost dels desplaçaments (si el comparem amb el que sortiria d'un MAS) en estar concentrades en només 10 comarques. El problema d'aquest mostratge és que la mostra obtinguda d'aquesta manera és menys representativa del conjunt de Catalunya, ja que moltes comarques no apareixen a la mostra.
En algunes circumstàncies, l'obtenció de la mostra es realitza sense que l'atzar intervingui en cap moment (per exemple, demanant voluntaris per a experi- mentar un nou tractament mèdic). Aquests tipus de tècniques resulten habi- tualment en mostres poc representatives del conjunt de la població. A més, donat que no hi intervé cap component aleatòria, no es poden fer servir instru- ments probabilístics pel seu estudi, per la qual cosa les tècniques de la inferència estadística no poden ser aplicades correctament.
En el que segueix, suposarem sempre que el mostratge utilitzat per a obtenir la mostra és un MAS.
1.3 Distribució dels principals estadístics mostrals:
mitjana, variància i proporció.
Un cop s'ha obtingut una mostra (suposarem que mitjançant un MAS), comença el procés de treballar amb ella, analitzar-la i treure conclusions.
En aquest sentit, la principal tasca a fer és l'obtenció d'un estadístic, un dels elements bàsics de la inferència estadística presentats en la secció anterior, que ens servirà per a treure conclusions sobre el paràmetre de la població en el que estem interessats.
La següent denició formal ens recorda en què consisteix el concepte d'estadístic introduït en la secció anterior. A continuació es deneix el concepte d'estimació. Cal remarcar què, tot i que són conceptes molt semblants i relacionats, cal no confondre'ls.
Denició 1.3.1 Un estadístic, (estadígraf o estimador)^4 , és una fórmula en la què se substitueixen els valors (observacions) mostrals per a obtenir una apro- ximació del valor d'algun paràmetre poblacional desconegut.
Denició 1.3.2 Una estimació és un valor concret d'un estimador obtingut a partir d'una mostra concreta.
Així doncs, un estadístic no és un número sinó una fórmula, mentre que una es- timació si que és un número que s'obté aplicant aquesta fórmula (l'estadístic) als valors concrets de la mostra que hem obtingut.
És important entendre que quan la mostra que serveix de base pel càlcul de l'estadístic prové d'un mostratge aleatori (mostra aleatòria), l'estadístic serà una variable aleatòria: l'estadístic pot prendre valors diferents amb probabilitats diferents, depenent de quina sigui la mostra obtinguda. En aquest sentit, una estimació és una realització concreta d'aquesta variable aleatòria. El següent exemple pretén claricar aquest fet.
(^4) El fet de que el mateix concepte pugui rebre diferents noms no ha de confondre. Normal- ment s'utilitza un o l'altre depenent del tipus d'anàlisi que es realitza. En aquest sentit, en el Capítol 2 parlarem d'Estimador, mentre que en els Capítols següents parlarem d'Estadístic. Sempre ens referirem al mateix concepte, però l'utilitzarem de manera diferent en cada cas.
estadistic =
2 p = (^16)
3 p = (^13)
Així doncs, veiem com el nostre estadístic pot prendre diferents valors (4 en aquest cas) amb diferents probabilitats. Per tant, l'estadístic és una variable aleatòria, tal com havíem indicat abans.
Resultarà, doncs, d'utilitat el poder conèixer les distribucions de probabilitat dels estadístics més comunament estudiats.
Els principals estadístics o estimadors que s'estudien són la mitjana mostral, la variància mostral i la proporció mostral.
En la presentació d'aquests estadístics suposarem que hem obtingut una mostra de n elements mitjançant un MAS i que els seus elements són
{x 1 , x 2 , · · · xn}
Així mateix, suposarem que aquesta mostra s'ha obtingut d'una població que segueix una determinada distribució. Aquesta distribució de la població original és important ja que afecta als possibles valors de la mostra i, per tant, als possibles valors dels estadístics que apliquem a la mostra, tal com hem vist a l'exemple anterior. Efectivament, en aquest exemple hem vist que la població està distribuïda de forma que hi ha 1 element amb un cotxe, 2 elements amb 2 cotxes i 1 element amb 4 cotxes. Per tant, si l'element xi de la mostra s'obté a l'atzar d'aquesta població tindrem que:
p(xi = a) =
1 41 si^ a^ = 1 21 si^ a^ = 2 4 si^ a^ = 4 0 per qualsevol altre valor de a
Aquesta és, en aquest cas, la distribució de la població. Gràcament aquesta distribució apareix a la Figura 1.
En general^5 , suposarem que la nostra mostra s'ha obtingut mitjançant un MAS a partir d'una població que es distribueix Normalment amb una certa mitjana poblacional μ i una determinada variància poblacional σ^2.
Què vol dir això? Doncs vol dir que, per a qualsevol parell de números a i b, tindrem que per a qualsevol element xi de la mostra,
p(a ≤ xi ≤ b) = p(a − μ ≤ xi − μ ≤ b − μ) = (^5) Hi ha casos especials que considerarem en el seu moment
0 1 2 3 4 x
p
Figura 1.2: Població de l'exemple 1.3.
= p(
a − μ σ
xi − μ σ
b − μ σ
) = p(
a − μ σ
b − μ σ
on Z representa a la distribució Normal estàndard (o Normal tipicada), ha- bitualment denotada per N (0, 1), les probabilitats de les qual podem trobar tabulades. La Figura 1.3 mostra la representació gràca.
Passem a continuació a veure quines són les distribucions dels principals estadís- tics què, com hem vist, depenen de quina sigui la distribució de la població de la que s'ha obtingut la mostra. Trobarem també en cada cas quina és l'esperança i la variància d'aquests estimadors.
La mitjana mostral, denotada per X¯, és l'estadístic que s'obté de la mostra mitjançant la formula:
X^ ¯ =^1 n
∑^ n
i=
xi
i que s'utilitza habitualment per a fer inferència sobre la mitjana poblacional μ. La seva distribució depèn de les característiques de la població i de la mostra:
2 n
n
∑^ n
i=
xi) =
n^2
∑^ n
i=
xi) =
n^2
∑^ n
i=
V (xi) =
n^2
∑^ n
i=
σ^2 =
n^2
nσ^2 =
σ^2 n
Per tant, en el cas de la mitjana mostral X¯ tenim que
E( X¯) = μ V ( X¯) =
σ^2 n
La variància mostral, denotada per S^2 , és l'estadístic que s'obté mitjançant la formula:
S^2 =
n − 1
(xi − X¯)^2
i que s'utilitza habitualment per a fer inferència sobre la variància poblacional σ^2. La seva distribució també depèn de les característiques de la població:
(n − 1)S^2 σ^2
∼ χ^2 n− 1
on χ^2 n− 1 és la distribució khi-quadrat amb n − 1 graus de llibertat, que també es troba tabulada. (Aquesta distribució correspon a la suma de n − 1 Normals estàndard elevades al quadrat).
Donat que només coneixerem la distribució de la variància mostral si la població és Normal, farem servir el fet que en aquest cas tenim una distribució χ^2 n− 1 per trobar l'esperança i la variància d'aquest estadístic de forma més simple. Per fer-ho utilitzarem les propietats conegudes de l'esperança i la variància d'una variable aleatòria χ^2 , concretament que E(χ^2 n− 1 ) = n− 1 i que V (χ^2 n− 1 ) = 2(n− 1). Suposarem per tant que la mostra s'ha obtingut d'una població Normal amb mitjana poblacional μ i variància poblacional σ^2. És a dir, que xi ∼ N (μ σ^2 ) per a qualsevol element xi de la mostra i en conseqüència
(n − 1)S^2 σ^2
∼ χ^2 n− 1
aleshores tindrem que
(n − 1)S^2 σ^2
) = n − 1 ⇒
(n − 1) σ^2
E(S^2 ) = n − 1 ⇒ E(S^2 ) = σ^2
(n − 1)S^2 σ^2
) = 2(n − 1) ⇒ (n − 1)^2 (σ^2 )^2
V (S^2 ) = 2(n − 1) ⇒ V (S^2 ) = 2 σ^4 n − 1
La proporció mostral és un cas especial. S'utilitza quan estem interessats en conèixer quina és la proporció d'elements d'una població que tenen una deter- minada característica. Per exemple, podríem estar interessats en conèixer quina és la proporció de fumadors entre els estudiants de 2on de la facultat (en aquest cas, la característica que ens interessa és la de si un estudiant fuma o no), o quina és la proporció de xips Intel que surten defectuosos en un dia concret (en aquest cas, la característica que ens interessa és la de si un xip és defectuós o no)
La proporció mostral, denotada per ˆπ, és l'estadístic que s'obté mitjançant la formula:
π ˆ =
∑^ n
i=
xi n
on xi = 1 si l'i-èssim element de la mostra posseeix la característica que s'està estudiant i xi = 0 si no la té.
La proporció mostral πˆ s'utilitza habitualment per a fer inferència sobre la pro- porció poblacional π. En aquest cas, la població no serà mai Normal, ja que cada observació xi prové d'una variable de Bernoulli. Efectivament, suposem per exemple que estudiem una població de 100 individus dels quals 45 són fu- madors, és a dir, la proporció poblacional és del 45 % o π = 0. 45. D'aquesta població en traiem una mostra de mida 10. És fàcil veure que per a qualsevol element xi d'aquesta mostra tindrem que:
p(xi = 1) =
p(xi = 0) =
En conseqüència, veiem que cada valor de la mostra xi segueix una distribució Bernoulli de paràmetre π (on π és l'autèntica proporció poblacional que és desconeguda)
Pot demostrar-se aleshores que πˆ =
∑n i=1 xi/n^ és una variable aleatòria Bino- mial. Tanmateix, donat que es pot aproximar la Binomial per una Normal, podem dir que en general:
π ˆ ∼ N (π,
π(1 − π) n
Aquesta aproximació per la Normal és tant més bona quant més a prop de 0 , 5 estigui π.