Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estimación de Parámetros en Modelos Lineales: Intervalos de Confianza y Contrastes, Apuntes de Estadística

El proceso de estimación de parámetros en modelos lineales mediante el uso de métodos de mínimos cuadrados ordinarios (mqo) y la obtención de intervalos de confianza para cada parámetro. Además, se presentan los cálculos para realizar contrastes de hipótesis sobre los parámetros. El documento incluye ejemplos con datos y se utiliza la distribución f de snedecor para comprobar los resultados.

Tipo: Apuntes

2015/2016

Subido el 13/01/2016

font_fran
font_fran 🇪🇸

3.4

(23)

10 documentos

1 / 142

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Notes sobre Estadística II
Xavier Vilà
Universitat Autònoma de Barcelona
Curs 2014-2015
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga Estimación de Parámetros en Modelos Lineales: Intervalos de Confianza y Contrastes y más Apuntes en PDF de Estadística solo en Docsity!

Notes sobre Estadística II

Xavier Vilà

Universitat Autònoma de Barcelona

Curs 2014-

2 Notes sobre Estadística II

Reconeixement-NoComercial-CompartirIgual 3.0 No

adaptada (CC BY-NC-SA 3.0)

Sou lliure de:

ˆ copiar, distribuir i comunicar públicament l'obra ˆ fer-ne obres derivades

Amb les condicions següents: ˆ Reconeixement: Heu de reconèixer els crèdits de l'obra de la manera especicada per l'autor o el llicenciador (però no d'una manera que suggereixi que us donen suport o rebeu suport per l'ús que feu l'obra). ˆ No comercial: No podeu utilitzar aquesta obra per a nalitats comercials. ˆ Compartir Igual: Si altereu o transformeu aquesta obra, o en genereu obres derivades, només podeu distribuir l'obra ge- nerada amb una llicència idèntica a aquesta.

Entenent que: ˆ Renuncia  Es pot renunciar a alguna d'aquestes condicions si obteniu el permís del titular dels drets d'autor. ˆ Domini Públic  Aquesta llicència no afecta a la situació de l'obra o algun dels seus elements quan es trobi en el domini públic, segons la legislació vigent aplicable. ˆ Altres drets  Els drets següents no queden afectats de cap manera per la llicència:  Els vostres drets de repartiment just o ús just;  Els drets morals de l'autor;  Drets que altres persones poden ostentar sobre l'obra o sobre l'ús que se'n fa, com per exemple drets de publicitat o privacitat. ˆ Avís  Quan reutilitzeu o distribuïu l'obra, heu de deixar ben clar els termes de la llicència de l'obra.

Copyright © 1998-2015 Xavier Vilà. Això és un resum fàcilment llegible del text legal (la llicència comple- ta) que podeu trobar a http://creativecommons.org/licenses/ by-nc-sa/3.0/legalcode

  • 1 Introducció a l'estadística inferencial
    • 1.1 Inferència estadística: denició i mètodes d'inferència
    • 1.2 Denició de mostra aleatòria simple i propietats
      • 1.2.1 Mostratge Aleatori Simple (MAS).
      • 1.2.2 Mostratge sistemàtic.
      • 1.2.3 Mostratge estraticat.
      • 1.2.4 Mostratge per etapes.
      • cia i proporció. 1.3 Distribució dels principals estadístics mostrals: mitjana, variàn-
      • 1.3.1 Mitjana mostral
      • 1.3.2 La Variància mostral
      • 1.3.3 La Proporció mostral
    • 1.4 Teorema Central del Límit
  • 2 Estimació
    • 2.1 Objectiu de l'estimació estadística
    • 2.2 Denició i característiques d'un estimador
    • 2.3 Propietats dels estimadors: biaix, eciència i consistència
      • 2.3.1 Biaix
      • 2.3.2 Eciència
        • 2.3.2.1 Estimadors no esbiaixats
        • 2.3.2.2 Estimadors esbiaixats
      • 2.3.3 Consistència
        • 2.3.3.1 Estimadors asimptòticament inesbiaixats
        • 2.3.3.2 Estimadors consistents
      • dels moments 2.4 Mètodes d'estimació puntual: màxima versemblança i mètode
      • 2.4.1 Estimació per màxima versemblança 4 ÍNDEX
      • 2.4.2 Estimació pel mètode dels moments
    • 2.5 Mètodes d'estimació per Intervals
      • 2.5.1 Interval de conança per la mitjana
        • 2.5.1.1 Cas de població Normal (o mostra gran) i σ^2 conegut
        • 2.5.1.2 Cas de població Normal (o mostra gran) i σ
          • desconegut
      • 2.5.2 Interval de conança per la variància
      • 2.5.3 Interval de conança per la proporció
  • 3 Contrastos d'hipòtesis paramètriques - nativa 3.1 Concepte de contrast paramètric: hipòtesi nul·la i hipòtesi alter-
    • 3.2 Estadístic de prova i tipus d'error
    • 3.3 Contrastos sobre la mitjana, la variància i la proporció poblacional
      • 3.3.1 Test de la mitjana (μ)
      • 3.3.2 Test de la variància (σ^2 )
      • 3.3.3 Test de la proporció poblacional (π)
    • 3.4 Contrastos de diferències
      • 3.4.1 Contrast sobre la diferència de mitjanes
      • 3.4.2 Contrast sobre la diferència de variàncies
      • 3.4.3 Contrast sobre la diferència de proporcions
    • 3.5 Anàlisi de la Variància
      • 3.5.1 Marc bàsic
      • 3.5.2 Contrast
      • 3.5.3 Estadístic de contrast
      • 3.5.4 Resultat del contrast
      • 3.5.5 La taula ANOVA
  • 4 Anàlisi de la bondat d'ajust i de la relació entre variables
    • 4.1 El contrast de la bondat d'ajust.
      • 4.1.1 Contrast de la bondat d'ajust de la χ^2 per variables discretes
        • variables contínues 4.1.2 Contrast de la bondat d'ajust de Kolmogorov-Smirnov per
    • 4.2 Tipus de relació entre variables
    • 4.3 El Contrast d'independència entre variables qualitatives.
      • de correlació i contrast d'hipòtesi 4.4 L'anàlisi de la correlació entre variables quantitatives: coecient
  • ÍNDEX
  • 5 Introducció al model de regressió
    • 5.1 Objectiu del model
    • 5.2 Hipòtesis per l'especicació del model
      • pietats 5.3 Estimació per Mínims Quadrats Ordinaris (MQO) i les seves pro-
      • 5.3.1 Dades en diferències amb respecte de la mitjana
      • 5.3.2 Obtenció dels estimadors MQO
      • 5.3.3 Estimació de la variància del terme d'error
      • 5.3.4 Propietats dels estimadors MQO
        • 5.3.4.1 Propietats de βˆ
        • 5.3.4.2 Propietats de βˆ
    • 5.4 Contrastació del model
      • 5.4.1 Intervals de conança per β 1 i β
      • 5.4.2 Contrasts d'hipòtesis per β 1 i β
      • nàlisi de la regressió 5.5 Coecient de Bondat de l'ajust i relació entre la correlació i l'a-
      • 5.5.1 El Coecient de determinació (o de Bondat d'ajust)
      • 5.5.2 Relació entre la correlació i l'anàlisi de la regressió
    • 5.6 Previsió
      • 5.6.1 Estimació puntual de Yn+1
      • 5.6.2 Estimació per intervals de Yn+1
  • A Apèndix: Taules Estadístiques
    • A.1 Distribució Normal estàndard
    • A.2 Distribució t − student
    • A.3 Distribució χ^2 (khi-quadrat)
    • A.4 Distribució F de Snedecor
    • A.5 Valors pel contrast Kolmogorov-Smirnov

Capítol 1

Introducció a l'estadística

inferencial

Imagineu un investigador que pretén explicar algun fet del món real. Per exem- ple, podem imaginar a Newton intentant explicar perquè cauen les pomes o, com a cas més familiar, un economista intentant explicar perquè hi ha atur. Normalment, el que un investigador fa es pot desglossar en tres parts:

  1. Observar la realitat per tal de concretar el problema a estudiar i obtenir-ne informació.
  2. Reexionar sobre el problema.
  3. Oferir una explicació o Teoria sobre el problema.

El paper de l'Estadística resulta de vital importància pel primer d'aquests tres passos^1.

Efectivament, per tal d'estudiar un problema cal observar el món real i veure com es manifesta aquest problema. D'altra banda, no és difícil comprendre que un investigador no pot observar tota la realitat. Newton no pot observar totes les pomes que cauen ni un economista pot entrevistar tota la població activa d'un determinat país. Així doncs cal fer un resum de la realitat, però cal fer-ho de tal manera que aquest resum sigui prou representatiu de la realitat com per que les conclusions que es puguin treure d'ell siguin aplicables amb abilitat a la realitat concreta que es vol estudiar.

(^1) Moltes vegades, en el primer d'aquests passos no s'obté cap informació concreta de la realitat mitjançant tècniques estadístiques, sinó que tan sols s'observen pautes generals. A partir d'aquest coneixement l'investigador pot crear una teoria abstracta per tal d'explicar el problema que s'estudia. Això és, per exemple, el què va fer Newton o el què fa la Teoria Econòmica. Un cop es té aquesta teoria abstracta construïda, es poden utilitzar diverses tècniques estadístiques per tal de comprovar si aquesta teoria s'ajusta a la realitat, com veurem en el Capítol 5.

8 CAPÍTOL 1. INTRODUCCIÓ A L'ESTADÍSTICA INFERENCIAL

La inferència estadística és un conjunt de tècniques l'objectiu de les quals és treure conclusions sobre una realitat concreta a partir de l'estudi d'un resum d'aquesta realitat.

En el que segueix estudiarem amb detall aquest procés.

En el primer capítol estudiarem com es fa, de forma rigorosa, el resum de la realitat esmentat abans i quines característiques tenen els resultats de les anàlisis que es fan a partir d'aquest resum.

En el segon capítol veurem una primera aproximació a com es poden treure conclusions sobre la realitat que volem estudiar a partir del resum que d'ella es fa.

El tercer i quart capítol presenten tècniques més sosticades per a poder fer inferència sobre la realitat a partir dels resultats més elementals estudiats en el capítol 2.

Finalment, el cinquè capítol constitueix una introducció a l'anàlisi de la regressió lineal, una tècnica d'anàlisi estadística amplament utilitzada en economia (i d'altres disciplines) per a estudiar la relació que existeix entre un parell de variables.

Val a dir que el contingut d'aquest primer capítol és de vital importància tant per la bona comprensió dels capítols que el segueixen com per a formar-se una idea global del mètode d'anàlisi de la inferència estadística. Per aquest motiu, es recomana vivament que l'estudi d'aquest capítol es faci amb cura i que els seus continguts s'assimilin correctament abans d'abordar l'estudi dels altres capítols.

Resulta important entendre que l'estadística es basa en eines matemàtiques probabilístiques. Així doncs, les conclusions que es puguin extreure de l'estudi d'aquest resum no seran certes per tota la realitat amb total seguretat, sinó que ho seran amb una determinada probabilitat. Per exemple, quan es fa una enquesta electoral és clar que els resultats de l'enquesta no es corresponen exac- tament al resultat nal de les eleccions. No obstant això, si l'enquesta està ben feta, és a dir, el resum de la realitat (què en aquest cas correspon al conjunt de gent que s'ha entrevistat) és prou representatiu de la realitat en el seu conjunt (en aquest cas tot el cens electoral), hi haurà una alta probabilitat de que el resultat nal de les votacions sigui molt semblant al que prediu l'enquesta.

En les seccions que segueixen veurem quins són els components bàsics de qualse- vol anàlisi estadística i les característiques matemàtiques (probabilístiques) que tenen.

1.1 Inferència estadística: denició i mètodes d'in-

ferència

Denirem i descriurem a continuació els quatre conceptes que conguren la base de la inferència estadística. Aquests conceptes estan molt relacionats entre si, i resulta de vital importància el comprendre aquesta relació i no confondre'ls.

10 CAPÍTOL 1. INTRODUCCIÓ A L'ESTADÍSTICA INFERENCIAL

Exemple 1.1.12 Quina és la proporció de xips Intel dels 25 que hem seleccionat d'entre tots els produïts en un dia concret que surten defectuosos.

A partir d'aquests conceptes bàsics, el procés de la inferència estadística opera de la següent manera:

  1. A partir de la població que es vol estudiar, i mitjançant tècniques de mostratge que explicarem més endavant, s'obté una mostra.
  2. A partir de la mostra obtinguda es realitzen els càlculs necessaris per l'obtenció d'un estadístic.
  3. A partir d'aquest estadístic, i mitjançant alguna tècnica d'inferència esta- dística de les què veurem en els altres capítols, es treuen conclusions sobre el paràmetre poblacional desconegut que representa la característica de la població que volíem estudiar.

Aquest procés es pot representar amb el gràc de la Figura 1.1.

Poblacio

Mostra

Parametre (desconegut)

Estadistic (conegut)

Inferencia Mostreig Estadistica

Figura 1.1: El procés de la inferència Estadística

Així doncs, fent servir la terminologia que acabem d'introduir, podem re-denir la inferència estadística de manera més precisa a la feta a la introducció

Denició 1.1.13 la inferència Estadística és una disciplina l'objectiu de la qual és treure conclusions sobre una població a partir de l'estudi d'una mostra mitjançant tècniques probabilístiques.

1.2 Denició de mostra aleatòria simple i propi-

etats

Veurem en què consisteix un mostratge, és a dir, com es pot extreure una mostra a partir d'una població. És important notar que aquest procés no es pot fer de qualsevol manera si el que pretenem és fer servir l'estudi d'aquesta mostra per a treure conclusions sobre la població original. En aquest sentit

1.2. DEFINICIÓ DE MOSTRA ALEATÒRIA SIMPLE I PROPIETATS 11

existeixen tècniques rigoroses i sistemàtiques dissenyades a l'efecte. Presenta- rem a continuació les tècniques més bàsiques, ja que l'estudi en profunditat del mostreig és una disciplina extensa que s'escapa de l'abast d'aquestes notes. La següent denició explica en què consisteix un mostratge

Denició 1.2.1 Un mostratge consisteix en una tècnica sistemàtica per a ex- treure una mostra a partir d'una població donada de forma que resulti repre- sentativa d'aquesta població

La paraula clau en aquesta denició és la de representativa. Efectivament, si pretenem que l'estudi de la mostra ens serveixi per a treure conclusions ables sobre la població, voldrem que aquesta mostra sigui (en la seva estructura) el més del a la població original. Per exemple, si volem fer una enquesta electoral i preguntem la intenció de vot només als veïns d'un barri ric, és clar que les seves respostes no seran representatives de la intenció de vot del conjunt de la població.

Hi ha diferents tipus de mostratge, depenent de les característiques de l'estudi que es vulgui realitzar. Els més importants són:

1.2.1 Mostratge Aleatori Simple (MAS).

És el més aleatori de tots els mostratges i el que prendrem com a referència. Consisteix en que tots els elements de la població tenen la mateixa probabilitat de forma part de la mostra. És a dir, la mostra es realitza totalment a l'atzar. Si pensem en totes les possibles mostres diferents d'una determinada mida que es poden obtindre d'una població donada, cada una d'aquestes mostres té la mateixa probabilitat de ser la mostra seleccionada per l'estudi.

Exemple 1.2.2 Considerem la població formada per només quatre elements

Poblacio = {A, B, C, D}

Si volem extreure una mostra de mida 2, per exemple, trobem que hi ha 6 mostres possibles (Taula 1.1)

Mostra 1 Mostra 2 Mostra 3 Mostra 4 Mostra 5 Mostra 6 {A, B} {A, C} {A, D} {B, C} {B, D} {C, D}

Taula 1.1: Possibles mostres

Així doncs, en un Mostratge Aleatori Simple (MAS), cada una d'aquestes mos- tres té la mateixa probabilitat de ser la mostra seleccionada, 16 en aquest cas.

De forma equivalent podem dir que cada un dels quatre elements de la població té la mateixa probabilitat de formar part de la mostra seleccionada. Efectivament, donat que cada un d'ells apareix en 3 de les possibles mostres i cada mostra té probabilitat 16 de ser la mostra seleccionada, aleshores la probabilitat de que qualsevol d'ells formi part de la mostra seleccionada és 16 + 16 + 16 = 12.

Aquesta probabilitat de 12 que té cada element de la població de formar part de la mostra seleccionada també es podria entendre com que cada element de la

1.2. DEFINICIÓ DE MOSTRA ALEATÒRIA SIMPLE I PROPIETATS 13

Exemple 1.2.4 Imaginem que es vol realitzar una enquesta d'intenció de vot a la ciutat de Barcelona. Se sap que la intenció de vot està molt correlacionada amb el districte de la ciutat on es viu. D'aquesta manera, un votant del districte de Pedralbes té una probabilitat més alta de votar conservador que un votant del Poble Sec, què probablement votarà més progressista. Per tal d'evitar que un MAS ens seleccioni molts votants del mateix barri i pocs d'un altre, la mostra que es vol obtenir (de mida n) se subdivideix en varies submostres (una per a cada districte de la ciutat) de forma que la suma d'aquestes submostres sigui exactament n. Per a obtenir cada una d'aquestes submostres es realitza un MAS independentment a cada districte de la ciutat. El resultat d'aquest tipus de mostratge és més representatiu dels diferents votants de la ciutat, ja que cada districte segur que està representat a la mostra. L'únic problema és que cal tenir més informació de la que requereix un MAS. En aquest exemple caldria conèixer quin pes té la població de votants de cada districte de la ciutat amb respecte de la població total de votants a Barcelona. Un cop això es coneix, el pes de les diferents submostres amb respecte a la mostra total hauria d'ajustar-se al pes que cada districte de la ciutat té amb respecte al total de Barcelona.

1.2.4 Mostratge per etapes.

És una variació més del MAS que es realitza quan l'estructura de la població és tal que la realització directa d'un MAS resultaria molt costosa. El següent exemple il·lustra com funciona aquest tipus de mostratge.

Exemple 1.2.5 Imaginem que es vol realitzar una enquesta sobre la situació de les escoles públiques a Catalunya. Donada la complexitat d'aquesta enquesta, cal desplaçar-se a cada una de les escoles públiques seleccionades a la mostra i entrevistar al seu director. En aquest context, un MAS podria seleccionar una mostra formada per escoles molt disseminades per tot el territori, el que suposaria una gran despesa en viatges. Per tal d'evitar això, el procediment que es realitza és el següent:

  1. Realitzar un MAS entre totes les comarques de Catalunya de forma que se seleccionin 10 comarques per visitar.
  2. Dins de cada una de les 10 comarques seleccionades, realitzar un altre MAS per seleccionar 20 municipis per visitar. (El que dona un total de 200 municipis per visitar)
  3. Dins de cada un dels 200 municipis seleccionats, realitzar un MAS per a seleccionar 1 escola pública de cada municipi per visitar. (El que dóna un total de 200 escoles)

D'aquesta manera s'ha seleccionat una mostra de 200 escoles públiques de tot Catalunya per visitar reduint-se el cost dels desplaçaments (si el comparem amb el que sortiria d'un MAS) en estar concentrades en només 10 comarques. El problema d'aquest mostratge és que la mostra obtinguda d'aquesta manera és menys representativa del conjunt de Catalunya, ja que moltes comarques no apareixen a la mostra.

14 CAPÍTOL 1. INTRODUCCIÓ A L'ESTADÍSTICA INFERENCIAL

En algunes circumstàncies, l'obtenció de la mostra es realitza sense que l'atzar intervingui en cap moment (per exemple, demanant voluntaris per a experi- mentar un nou tractament mèdic). Aquests tipus de tècniques resulten habi- tualment en mostres poc representatives del conjunt de la població. A més, donat que no hi intervé cap component aleatòria, no es poden fer servir instru- ments probabilístics pel seu estudi, per la qual cosa les tècniques de la inferència estadística no poden ser aplicades correctament.

En el que segueix, suposarem sempre que el mostratge utilitzat per a obtenir la mostra és un MAS.

1.3 Distribució dels principals estadístics mostrals:

mitjana, variància i proporció.

Un cop s'ha obtingut una mostra (suposarem que mitjançant un MAS), comença el procés de treballar amb ella, analitzar-la i treure conclusions.

En aquest sentit, la principal tasca a fer és l'obtenció d'un estadístic, un dels elements bàsics de la inferència estadística presentats en la secció anterior, que ens servirà per a treure conclusions sobre el paràmetre de la població en el que estem interessats.

La següent denició formal ens recorda en què consisteix el concepte d'estadístic introduït en la secció anterior. A continuació es deneix el concepte d'estimació. Cal remarcar què, tot i que són conceptes molt semblants i relacionats, cal no confondre'ls.

Denició 1.3.1 Un estadístic, (estadígraf o estimador)^4 , és una fórmula en la què se substitueixen els valors (observacions) mostrals per a obtenir una apro- ximació del valor d'algun paràmetre poblacional desconegut.

Denició 1.3.2 Una estimació és un valor concret d'un estimador obtingut a partir d'una mostra concreta.

Així doncs, un estadístic no és un número sinó una fórmula, mentre que una es- timació si que és un número que s'obté aplicant aquesta fórmula (l'estadístic) als valors concrets de la mostra que hem obtingut.

És important entendre que quan la mostra que serveix de base pel càlcul de l'estadístic prové d'un mostratge aleatori (mostra aleatòria), l'estadístic serà una variable aleatòria: l'estadístic pot prendre valors diferents amb probabilitats diferents, depenent de quina sigui la mostra obtinguda. En aquest sentit, una estimació és una realització concreta d'aquesta variable aleatòria. El següent exemple pretén claricar aquest fet.

(^4) El fet de que el mateix concepte pugui rebre diferents noms no ha de confondre. Normal- ment s'utilitza un o l'altre depenent del tipus d'anàlisi que es realitza. En aquest sentit, en el Capítol 2 parlarem d'Estimador, mentre que en els Capítols següents parlarem d'Estadístic. Sempre ens referirem al mateix concepte, però l'utilitzarem de manera diferent en cada cas.

16 CAPÍTOL 1. INTRODUCCIÓ A L'ESTADÍSTICA INFERENCIAL

estadistic =

  1. 5 p = (^13)

2 p = (^16)

  1. 5 p = (^16)

3 p = (^13)

Així doncs, veiem com el nostre estadístic pot prendre diferents valors (4 en aquest cas) amb diferents probabilitats. Per tant, l'estadístic és una variable aleatòria, tal com havíem indicat abans.

Resultarà, doncs, d'utilitat el poder conèixer les distribucions de probabilitat dels estadístics més comunament estudiats.

Els principals estadístics o estimadors que s'estudien són la mitjana mostral, la variància mostral i la proporció mostral.

En la presentació d'aquests estadístics suposarem que hem obtingut una mostra de n elements mitjançant un MAS i que els seus elements són

{x 1 , x 2 , · · · xn}

Així mateix, suposarem que aquesta mostra s'ha obtingut d'una població que segueix una determinada distribució. Aquesta distribució de la població original és important ja que afecta als possibles valors de la mostra i, per tant, als possibles valors dels estadístics que apliquem a la mostra, tal com hem vist a l'exemple anterior. Efectivament, en aquest exemple hem vist que la població està distribuïda de forma que hi ha 1 element amb un cotxe, 2 elements amb 2 cotxes i 1 element amb 4 cotxes. Per tant, si l'element xi de la mostra s'obté a l'atzar d'aquesta població tindrem que:

p(xi = a) =

1 41 si^ a^ = 1 21 si^ a^ = 2 4 si^ a^ = 4 0 per qualsevol altre valor de a

Aquesta és, en aquest cas, la distribució de la població. Gràcament aquesta distribució apareix a la Figura 1.

En general^5 , suposarem que la nostra mostra s'ha obtingut mitjançant un MAS a partir d'una població que es distribueix Normalment amb una certa mitjana poblacional μ i una determinada variància poblacional σ^2.

Què vol dir això? Doncs vol dir que, per a qualsevol parell de números a i b, tindrem que per a qualsevol element xi de la mostra,

p(a ≤ xi ≤ b) = p(a − μ ≤ xi − μ ≤ b − μ) = (^5) Hi ha casos especials que considerarem en el seu moment

1.3. DISTRIBUCIÓ DELS PRINCIPALS ESTADÍSTICS MOSTRALS: MITJANA, VARIÀNCIA I PROPORCIÓ.

0 1 2 3 4 x

p

Figura 1.2: Població de l'exemple 1.3.

= p(

a − μ σ

xi − μ σ

b − μ σ

) = p(

a − μ σ

≤ Z ≤

b − μ σ

on Z representa a la distribució Normal estàndard (o Normal tipicada), ha- bitualment denotada per N (0, 1), les probabilitats de les qual podem trobar tabulades. La Figura 1.3 mostra la representació gràca.

Passem a continuació a veure quines són les distribucions dels principals estadís- tics què, com hem vist, depenen de quina sigui la distribució de la població de la que s'ha obtingut la mostra. Trobarem també en cada cas quina és l'esperança i la variància d'aquests estimadors.

1.3.1 Mitjana mostral

La mitjana mostral, denotada per X¯, és l'estadístic que s'obté de la mostra mitjançant la formula:

X^ ¯ =^1 n

∑^ n

i=

xi

i que s'utilitza habitualment per a fer inferència sobre la mitjana poblacional μ. La seva distribució depèn de les característiques de la població i de la mostra:

  1. Si la població és Normal (hipòtesi de Normalitat), és a dir, Xi ∼ N (μ, σ^2 ) ∀i, aleshores X^ ¯ ∼ N (μ, σ

2 n

1.3. DISTRIBUCIÓ DELS PRINCIPALS ESTADÍSTICS MOSTRALS: MITJANA, VARIÀNCIA I PROPORCIÓ.

V ( X¯) = V (

n

∑^ n

i=

xi) =

n^2

V (

∑^ n

i=

xi) =

n^2

∑^ n

i=

V (xi) =

n^2

∑^ n

i=

σ^2 =

n^2

nσ^2 =

σ^2 n

Per tant, en el cas de la mitjana mostral X¯ tenim que

E( X¯) = μ V ( X¯) =

σ^2 n

1.3.2 La Variància mostral

La variància mostral, denotada per S^2 , és l'estadístic que s'obté mitjançant la formula:

S^2 =

n − 1

(xi − X¯)^2

i que s'utilitza habitualment per a fer inferència sobre la variància poblacional σ^2. La seva distribució també depèn de les característiques de la població:

  1. Si la població és Normal, (Xi ∼ N (μ, σ^2 ) ∀i), aleshores:

(n − 1)S^2 σ^2

∼ χ^2 n− 1

on χ^2 n− 1 és la distribució khi-quadrat amb n − 1 graus de llibertat, que també es troba tabulada. (Aquesta distribució correspon a la suma de n − 1 Normals estàndard elevades al quadrat).

  1. Si la població no és Normal, aleshores es desconeix la distribució sigui quin sigui el mida de la mostra.

Donat que només coneixerem la distribució de la variància mostral si la població és Normal, farem servir el fet que en aquest cas tenim una distribució χ^2 n− 1 per trobar l'esperança i la variància d'aquest estadístic de forma més simple. Per fer-ho utilitzarem les propietats conegudes de l'esperança i la variància d'una variable aleatòria χ^2 , concretament que E(χ^2 n− 1 ) = n− 1 i que V (χ^2 n− 1 ) = 2(n− 1). Suposarem per tant que la mostra s'ha obtingut d'una població Normal amb mitjana poblacional μ i variància poblacional σ^2. És a dir, que xi ∼ N (μ σ^2 ) per a qualsevol element xi de la mostra i en conseqüència

(n − 1)S^2 σ^2

∼ χ^2 n− 1

aleshores tindrem que

E(

(n − 1)S^2 σ^2

) = n − 1 ⇒

(n − 1) σ^2

E(S^2 ) = n − 1 ⇒ E(S^2 ) = σ^2

V (

(n − 1)S^2 σ^2

) = 2(n − 1) ⇒ (n − 1)^2 (σ^2 )^2

V (S^2 ) = 2(n − 1) ⇒ V (S^2 ) = 2 σ^4 n − 1

20 CAPÍTOL 1. INTRODUCCIÓ A L'ESTADÍSTICA INFERENCIAL

1.3.3 La Proporció mostral

La proporció mostral és un cas especial. S'utilitza quan estem interessats en conèixer quina és la proporció d'elements d'una població que tenen una deter- minada característica. Per exemple, podríem estar interessats en conèixer quina és la proporció de fumadors entre els estudiants de 2on de la facultat (en aquest cas, la característica que ens interessa és la de si un estudiant fuma o no), o quina és la proporció de xips Intel que surten defectuosos en un dia concret (en aquest cas, la característica que ens interessa és la de si un xip és defectuós o no)

La proporció mostral, denotada per ˆπ, és l'estadístic que s'obté mitjançant la formula:

π ˆ =

∑^ n

i=

xi n

on xi = 1 si l'i-èssim element de la mostra posseeix la característica que s'està estudiant i xi = 0 si no la té.

La proporció mostral πˆ s'utilitza habitualment per a fer inferència sobre la pro- porció poblacional π. En aquest cas, la població no serà mai Normal, ja que cada observació xi prové d'una variable de Bernoulli. Efectivament, suposem per exemple que estudiem una població de 100 individus dels quals 45 són fu- madors, és a dir, la proporció poblacional és del 45 % o π = 0. 45. D'aquesta població en traiem una mostra de mida 10. És fàcil veure que per a qualsevol element xi d'aquesta mostra tindrem que:

p(xi = 1) =

p(xi = 0) =

En conseqüència, veiem que cada valor de la mostra xi segueix una distribució Bernoulli de paràmetre π (on π és l'autèntica proporció poblacional que és desconeguda)

Pot demostrar-se aleshores que πˆ =

∑n i=1 xi/n^ és una variable aleatòria Bino- mial. Tanmateix, donat que es pot aproximar la Binomial per una Normal, podem dir que en general:

  1. Si la mostra és gran (nπ(1 − π) ≥ 5), aleshores (de forma aproximada):

π ˆ ∼ N (π,

π(1 − π) n

Aquesta aproximació per la Normal és tant més bona quant més a prop de 0 , 5 estigui π.

  1. Si la mostra no és gran, aleshores l'aproximació per la Normal és molt inexacta.