Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estimación de Parámetros Estadísticos: Estimador, Estimación y Contrast de Hipótesis - Pro, Apuntes de Estadística Matemática

El concepto de estimador estadístico, su objetivo de aproximar un parámetro desconocido, y la diferencia entre estimación y estimabilidad. Además, se presenta el proceso de contraste de hipótesis y su importancia para verificar la validez de una hipótesis nula. Se consideran casos específicos de parámetros poblacionales como proporción, desviación típica, varianza y diferencia de mitjas, y se calculan intervalos de confianza para estimar estos parámetros.

Tipo: Apuntes

Antes del 2010

Subido el 22/06/2007

xequebo2
xequebo2 🇪🇸

4

(212)

406 documentos

1 / 24

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Tema 2. Introducció a les tècniques d'inferència estadística i les
seues aplicacions.
2.1.- Estimació puntual.
2.2.- Estimació per intervals.
2.3.-Contrastos d'hipòtesi.
2.4.- Alguns exemples reals.
2.0.- Preliminars.
Recordem que
PARÀMETRES valors numèrics sobre característiques de la població:
µ , F 0
7 3
² , Quartils,...
Ens els problemes d’Estadística la població és desconeguda, es a dir no es coneix
exactament fX (x).
No coneixem la distribució que determina la població
No coneixem algunes de les seues característiques
Com analitza l’Estadística aquestes situacions? Utlitza conjunts de dades numèriques
(MOSTRES) per a obtenir inferències sobre la població basades en el càlcul de
probabilitats.
OBJECTIU: Generalitzar a la població els resultats mostrals.
Aprenem sobre una població quan
)i Li assignem un model probabilístic
)ii Si ja coneixem el model probabilístic però no els seus paràmetres, assignem
valors als paràmetres.
)iii Si no es pot conèixer el model, al menys podem conèixer algunes de les
seues mesures característiques.
2.1.- Estimació puntual.
L’estimació puntual és el problema de Inferència Estadística que per objectiu
aproximar el valor desconegut del paràmetre.
Si un paràmetre és desconegut li assignem un valor aproximat, a partir d’una mostra de
dades
Si F 0
5 1
és l’espai paramètric (espai de valors del paràmetre F 0
7 1
, un estimador és una
aplicació:
T: F 0
6 3
n------- > F 0
5 1
,
que a cada mostra (X1, X2, ...Xn) assigna un valor possible del paràmetre
Com és funció de la mostra aleatòria, varia de mostra a mostra l’estimador és una
variable aleatòria amb una distribució en el mostreig pròpia.
Es tracta doncs d’un estadístic especial, l’objectiu del qual és aproximar el valor de F 0
7 1
Representem l’estimador com el paràmetre però amb l’accent sobre ell
Cal distingir:
ESTIMADOR: Estadístic que s’empra en l’estimació d’un paràmetre (com és un
estadístic, serà una variable aleatòria)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Vista previa parcial del texto

¡Descarga Estimación de Parámetros Estadísticos: Estimador, Estimación y Contrast de Hipótesis - Pro y más Apuntes en PDF de Estadística Matemática solo en Docsity!

Tema 2. Introducció a les tècniques d'inferència estadística i les

seues aplicacions.

2.1.- Estimació puntual. 2.2.- Estimació per intervals. 2.3.-Contrastos d'hipòtesi. 2.4.- Alguns exemples reals.

2.0.- Preliminars.

Recordem que PARÀMETRES valors numèrics sobre característiques de la població: μ , F 07 3² , Quartils,...

Ens els problemes d’Estadística la població és desconeguda, es a dir no es coneix exactament f (^) X (x).

  • No coneixem la distribució que determina la població
  • No coneixem algunes de les seues característiques Com analitza l’Estadística aquestes situacions? Utlitza conjunts de dades numèriques (MOSTRES) per a obtenir inferències sobre la població basades en el càlcul de probabilitats. OBJECTIU: Generalitzar a la població els resultats mostrals.

Aprenem sobre una població quan )i Li assignem un model probabilístic )ii Si ja coneixem el model probabilístic però no els seus paràmetres, assignem valors als paràmetres. )iii Si no es pot conèixer el model, al menys podem conèixer algunes de les seues mesures característiques.

2.1.- Estimació puntual.

L’estimació puntual és el problema de Inferència Estadística que té per objectiu aproximar el valor desconegut del paràmetre.

Si un paràmetre és desconegut li assignem un valor aproximat , a partir d’una mostra de dades Si F 05 1 és l’espai paramètric (espai de valors del paràmetre F 07 1, un estimador és una aplicació:

T:

F 0 6 3n------- > F 05 1,

que a cada mostra ( X (^) 1, X (^) 2, ...X (^) n ) assigna un valor possible del paràmetre

Com és funció de la mostra aleatòria, varia de mostra a mostra l’estimador és una variable aleatòria amb una distribució en el mostreig pròpia. Es tracta doncs d’un estadístic especial, l’objectiu del qual és aproximar el valor de F 07 1 Representem l’estimador com el paràmetre però amb l’accent sobre ell Cal distingir: ESTIMADOR: Estadístic que s’empra en l’estimació d’un paràmetre (com és un estadístic, serà una variable aleatòria)

Exemple : la mitjana mostral, , és un estimador de la mitjana poblacional, F 06 D:

En aquest tema considerarem els següents casos:

Paràmetre poblacional

Estimador= Estadístic Proporció (^) π Desviació típica (^) σ Variança (^) σ^2 Mitjana (^) μ Quocient de Variances (^) σ 2 1/^ σ^^2 2 Diferència de Mitjanes (^) F 0 6 4=μ^ 1-^ μ^2

ESTIMACIÓ: Càlcul d’un valor numèric a partir d’una mostra, a fi d’assignar un valor a un paràmetre desconegut que siga el més precís possible. Es a dir: Aproximació del valor d’una característica poblacional (PARÀMETRE) mitjançant la mostra

EXEMPLE. CREIXEMENT DE PLANTES DE SOIA

Com a part d’un estudi sobre el creixement de la planta, un fisiòleg vegetal va plantar individualment 13 plantes de soia del tipus Wells II. Es va mesurar la longitud de la tija (en cm) per a cada planta després de 16 dies.

Longitud de la tija (cm)

20,2 22,9 23,3 20,0 19,

22,0 22,1 22,0 21,9 21,

19,7 21,5 20,

F 0 2 D = 21,3385^ s = 1,

μ = longitud mitjana de la tija de les plantes de soia Wells II que han crescut en condicions específiques.

σ = DT de les longituds de les tiges de les plantes de soia Wells II que han crescut en condicions específiques.

F 0 2 D = 21,34^ és una estimació^ de^ μ. s = 1,22 és una estimació de σ. En el formulari:

Que és l’error estàndard de?

  • L’Error és sempre una “diferència” o DESVIACIÓ entre el valor exacte ( paràmetre ) y l’aproximació ( estimació ).

PERÒ ara tenim. Si representem la distribució en el mostreig d’aquest estadístic observem:

on df(degree of freedom=graus de llibertat)=gl =n- Quina és la distribució de?

LA DISTRIBUCIÓ T-STUDENT AMB n-1 GRAUS DE LLIBERTAT

Com afecta als càlculs utilitzar SE F 0 2 D en lloc de F 07 3F 0 2 D?

Pera obtenir un interval de confiança per a la mitjana d’una població normal:

Obtenim límits aleatoris: que tenen probabilitat 0.95 de contenir el verdader valor

de F 06 D.

Es a dir: de cada 100 mostres aleatòries obtingudes de la població, com a màxim 5

poden donar límits que no contenen el verdader valor de F 06 D.

Amb el formulari:

I anàlogament per als altres problemes d’estimació per intervals de diversos paràmetres:

EXEMPLE:. CREIXEMENT DE PLANTES DE SOIA

Els graus de llibertat són: gl = n - 1 = 13 - 1 = 12

i de la taula s’obté: t0,975 = 2,

L’interval de confiança al 95 % és: 21,3385 ± 2,179 · 21,3385 ± 2,179 · 0, 21,3385 ± 0, 21,34 ± 0, (20,6, 22,1) 20,6 cm < F 06 D < 22,1 cm

Si volem un interval al 90%

De la taula, per a gl = 12, s’obté: t0,95 = 1,

Així, l’interval de confiança al 90 % és: 21,3385 ± 1,782 · 21,385 ± 1,782 · 0, 21,385 ± 0, (20,7, 21,9) 20,7 < F 06 D < 21,

Exemple: Si Y = nivell total de proteïnes mesurades en una analítica de la sang d’aquest adult que estudiem

Suposem , F 06 D serà el seu nivell de proteïnes mitjà.

Volem saber si

CONTRAST D’HIPÒTESIS: Problema que tracta d’indagar quina de dues hipòtesis incompatibles és la correcta. Quines Hipòtesis es poden plantejar? MOLTES, per exemple:

PERÒ no totes són incompatibles. Anomenem: HIPÒTESI NUL·LA la hipòtesi de la qual partim (STATUS QUO) La representem H 0 i treballem suposant que és correcta ( H 0 SEMPRE conté la igualtat:=, ≤, F 0B 3)

Anomenem: HIPÒTESI ALTERNATIVA, ( H 1 ), una hipòtesi incompatible amb H 0 , que els resultats experimentals (MOSTRA) poden recolzar com la correcta.

En l’exemple : F 0B 9

H 0 : Partim de que es tracta d’un adult sa.

H 1 : Pot ser NO es tracta d’un adult sa.

Com que no ens indiquen si el problema consisteix en un dèficit o un excés, considerem la hipòtesi alternativa com Com podem RESOLDRE UN CONTRAST D’HIPÒTESIS?

Farem un experiment, observarem els resultats i a la vista de la mostra

La resposta sols podrà ser : El nivell total de proteïnes és 7,25 (NO REBUTGEM H0)

o El nivell total de proteïnes NO és 7,25 (REBUTGEM H (^) 0)

i com són incompatibles: Sols una de les dues pot ser correcta. Quines conclusions tindrem depenent de

la decisió que prenem i la realitat desconeguda Realitat Desconeguda

Decidim H 0 és correcta H 1 és correcta

REBUTJAR H 0 ERROR I

NO REBUTJAR H 0ERROR II

Es considera més greu l’error de tipus I que l’error de tipus II i es FIXA UN NIVELL

DE CONFIANÇA EN EL MÈTODE DE DECISIÓ ( TEST )

F 0 6 1 = Probabilitat de fer^ ERROR I F 0 6 1 = P(REBUTJAR H^0 │H^0 és correcta )

Però anem a REBUTJAR H 0 quan la mostra siga contrària a H (^0)

Per exemple si és molt diferent de 7, F 0 6 1 = P(REBUTJAR H 0 │H^0 és correcta )=^ P(│^

F 0 6 D=7,25 )

Com fem els càlculs? F 0E 0Amb

Per exemple, per a F 06 1 = 0,

F 0 6 1 =0.05= P(REBUTJAR H^0 │H^0 és correcta )=

P(│ F 06 D=7,25 )=

Si quan obtenim la mostra i calculem la mitjana i desviació típica mostrals, el valor de

està en la regió d’ombra rebutgem H 0 a nivell F 06 1 =0.

Es a dir, rebutgem quan

Equivalentment, rebutgem quan

Però aquest és el radi de l’interval de confiança al 95% que està centrat en

En aquest cas, rebutgem H 0 a nivell F 06 1 =0.05 quan el valor que ens indica la hipòtesi nul·la no està dins de l’interval al 95%: 7,25 F 0C FI0.95( F 06 D)

En l’exemple:

Càlcul dels estadístics de la mostra: F 02 D = 7,268, s = 0,

Estadístic de contrast: t (^) s = F 02 DF 0A 4 = F 0A 4 = 1,

p-valor

t (^) 0.975=2-2,365 t (^) s=-1,756 t (^) s=-1,756 t (^) 0.975=2,

H0: F 06 D=7,25 F 0E 0 t (^) s= H 1 H 1

Com el p-valor és l’àrea sota la corba, des del valor de t (^) s=-1,756 en la direcció (direccions, en aquest cas) de H 1 per a determinar més aquest valor, busquem a la taula el valor més aproximat, o bé l’acotem:

Per a cada quantil t (^) 1- F 0 6 1/2, l’àrea de les dues cues serà F 06 1

Els quantils que acoten el t (^) s obtingut són: 1,4515 <1,756 < 1,

Àrea de les dues cues serà en cada cas: 0,20 0,

0,10 < P-valor < 0,

Com p-valor>0.05= F 06 1 , la decisió seria no rebutjar la hipòtesi nul·la:

CONCLUSIÓ: F 0E 0No tenim proves per a afirmar que μ F 0B 9 7,

Tests unilaterals.

EXEMPLE: El Departament de Salut dels Estats Units ha fixat en 70 el nombre mitjà de bacteris per centímetre cúbic d’aigua que constitueix un nivell màxim acceptable per a les aigües en què es practica la recollida de cloïsses. Un nivell mitjà superior a 70 és perillós, perquè menjar cloïsses pescades en aquestes aigües pot causar hepatitis. S’ha pres una mostra de 9 observacions, amb els valors següents: 69 74 75 70 72 73 71 73 68

S’ha de prohibir la pesca de cloïsses en aquestes aigües?

Ens plantegem si les aigües no són perilloses ( F 06 D≤70) o ho són ( F 06 D>70)

Hipòtesis:

Ara, la hipòtesi alternativa sols marca una direcció (>)

Tenim un Contrast d’hipòtesis direccional : p-valor = Probabilitat de que l’estadístic de contrast ens done valors més allunyats d’allò que indica H 0 en la direcció de H 1 , que els que dóna el nostre estadístic t (^) s.

Treballem igual que en el cas anterior:

p-valor = Probabilitat de que l’estadístic de contrast ens done valors més allunyats d’allò que indica H 0 en la direcció de H 1 (en aquest cas la direcció és cap a la dreta) ,

que el nostre t (^) s, per tant si t (^) s coincideix amb un quantil, el p-valor= 1-l’ordre del quantil

Càlcul dels estadístics de la mostra: F 02 D = 71,7 s = 2,

Estadístic del contrast: t (^) s = F 02 DF 0A 4 = = 2,

Observant la taula,

1.860<2.22<2. La cua superior tindrà un àrea: 0.05 0.

La cua superior a partir de 2,22 donaria un àrea entre 0.025 i 0.

És a dir: 0,025 < P-valor < 0,

Per tant, la decisió seria rebutjar la hipòtesi nul·la a nivell 0.05:

Per als altres casos d’inferència sobre altres paràmetres es raonaria de forma

anàloga, seguint el formulari:

COMPLIMENT DE LES CONDICIONS DE VALIDESA

Considerem tres poblacions diferents i calculem, per a cada mostra de cada població, intervals mitjançant les fórmules de construcció d’intervals de confiança de nivell 1- F 06 1.

Per a cada interval que obtenim, calculem el verdader nivell de confiança

(a) Interval de confiança al 95 %

Grandària mostral 2 4 8 16 32 64 Molt gran Població 1 0,95 0,95 0,95 0,95 0,95 0,95 0, Població 2 0,94 0,93 0,94 0,94 0,95 0,95 0, Població 3 0,87 0,53 0,57 0,80 0,88 0,92 0,

Si n és petita , la distribució de la població ha de ser aproximadament normal

Si n és gran, no cal que la distribució de la població siga aproximadament normal

( b ) Interval de confiança al 99 %

Grandària mostral 2 4 8 16 32 64 Molt gran Població 1 0,99 0,99 0,99 0,99 0,99 0,99 0, Població 2 0,99 0,98 0,98 0,98 0,99 0,99 0, Població 3 0,97 0,82 0,60 0,81 0,93 0,96 0,

Planificació d’un estudi per a estimar la mitjana poblacional.

EXEMPLE. CREIXEMENT DE PLANTES DE SOIA

Les dades de la longitud de la tija en les plantes de soia proporcionen els estadístics següents:

F 0 2 D = 21,34 cm s = 1,22 cm SE F 0 2 D = 0,34 cm

Suposem que l’investigador planifica un nou estudi del creixement de la soia i ha decidit que seria desitjable que el SE F 0 2 D no fóra superior a 0,25 cm. Com a previsió de la

DT utilitzarà el valor de l’estudi anterior. Així, la grandària mostral ha de satisfer la relació següent:

0,25 =

Aquesta equació es resol amb n = 23,8, i el nou experiment ha d’incloure 23 o 24 plantes.

Si el SE F 0 2 D desitjat fóra 0,125, la relació seria:

el resultat de la qual és n = 95,3, i caldria considerar 95 o 96 plantes.

b) A la vista de l'interval de l'apartat anterior, hi ha alguna indicació que l'additiu té algun efecte en el nombre de km recorreguts per litre de gasolina?

6. Un supervisor de control de qualitat en una fàbrica d’envasar sap que la quantitat exacta en cada llanda varia, perquè hi ha certs factors impossibles de controlar que afecten la quantitat d'ompliment. L'ompliment mitjà per llanda és important, però igualment important és la variació σ 2 de la quantitat d’ompliment. Si σ 2 és gran, algunes llandes contindran molt poc i altres massa. A fi d'estimar la variació de l'ompliment en la fàbrica d'envasat, el supervisor tria a l'atzar 9 llandes i pesa el contingut de cada una, obtenint el següent pes (en unces): 7.96 7.90 7.98 8.01 7.97 8.03 8.02 8.04 8. Obtín un interval de confiança de 90% per a la verdadera variació de l'ompliment de llandes en la fàbrica d'envasat. 7. Un centre comercial vol estimar l'edat mitjana dels clients que visiten la botiga de productes dietètics. El gerent assumeix que l'edat d'aquests clients segueix una distribució Normal amb una desviació típica desconeguda. a) Si el gerent vol estimar l'edat mitjana d'aquests clients amb un error d'estimació (amplitud de l'interval) no superior a 2 anys amb un nivell de confiança del 95%, quin seria la grandària mostral necessària? Utilitza per a això que el gerent suposa que la desviació típica poblacional és de 5 anys. b) S'han triat aleatòriament 40 d'aquests clients, observant una edat mitjana de 29 anys i una desviació típica de 4.8 anys. Calcular un interval de confiança del 99% per a l'edat mitjana poblacional. c) En una mostra aleatòria de 10 clients s'ha obtingut una edat mitjana de 29 anys amb una quasivarianza de 24. Analitzar si la desviació típica igual a 5 assumida pel gerent és acceptable, utilitzant una significativitat de 0.1. d) En la mostra de 40 clients, 18 eren menors de 30 anys. Construeix un interval de confiança del 85% per a la proporció poblacional de clients menors de 30 anys. Podem concloure que el 50% dels clients són menors de 30 anys? 8. Un constructor està considerant dos llocs alternatius per a la construcció d'un centre comercial regional. Com els ingressos de les llars de la comunitat són una consideració a tindre en compte en aqueixa selecció, desitja provar la hipòtesi nul·la de què no hi hi ha diferència significativa entre l'ingrés mitjana per llar de les dues comunitats. Consistent amb aquesta hipòtesi, suposa que la desviació típica de l'ingrés per llar és també igual, encara que desconeguda, en les dues comunitats. Per a una mostra de 13 llars de la primera comunitat, obté que l'ingrés mitjana és de 35500 dòlars i una desviació típica de 1900 dòlars. Per a una mostra de 16 llars de la segona comunitat l'ingrés mitjana és de 34600 dòlars amb una desviació típica de 2050 dòlars. a) Contrasta, al nivell de significació de 5%, la hipòtesi d'igualtat d'ingressos mitjana en les dues comunitats. Precisa les hipòtesis assumides. b) Contrasta, al nivell de significació d'1%, la hipòtesi que la mitjana d'ingressos en la primera comunitat és superior al de la segona (pren com a hipòtesi alternativa H1: μ 1 > μ 2). Precisa les hipòtesis assumides. 9. Un article de la revista “Consumer Reports”, de novembre de 1983, va comparar diversos tipus de bateries. La mitjana de duració de bateries AA alcalines marca Duracell i de bateries AA alcalines marca Eveready Energizer es denoten com μ∋ ι 1 μ 2 , respectivament. Suposem aquestes les mitjanes de duració poblacionals.

a) Es pren una mostra de 19 bateries marca Duracell la duració mitjana de la qual és de 4,4 hores i desviació típica 1.2 hores. Contrasta la hipòtesi nul·la de què la desviació típica poblacional de les bateries marca Duracell és d'1.8 hores a un nivell de significació de 5%, indicant els supòsits necessaris per a realitzar tal contrast. b) Un majorista jogueter està interessat a demostrar que la mitjana de duració de les bateries marca Duracell supera en més d'una hora a la duració mitjana de les bateries marca Eveready, ja que li ixen més barates les primeres. Per a això, pren una mostra de 100 bateries de cada una d'aqueixes marques obtenint els resultats següents: Duració mitjana de les 100 bateries Duracell = 4.3 hores, desviació típica = 1.5 hores. Duració mitjana de les 100 bateries Eveready = 4.1 hores, desviació típica = 1.7 hores. Hi ha evidència suficient per a acceptar la hipòtesi del jogueter?

10. L'euro ha portat a la nostra vida diària moltes dades noves per a analitzar. Anem a fixar-nos en com es van desenvolupar els pagaments i les devolucions en els primers dies de la implantació de l'euro. Es disposa d'una mostra aleatòria simple de compres realitzades en distints punts d'Espanya, obtenint les dades següents:

Grans superfícies Xicotet comerç Es paga i es torna en euros 150 50 Es paga en pessetes i es torna en euros 200 150 Es paga en pessetes i es torna en pessetes 50 100

a) Estima la proporció de compres amb pagament i devolució en euros de la mostra. b) Es desitja estimar la mateixa proporció que en l'apartat anterior amb una confiança del 95%. Si l'error d'estimació (semilongitud de l'interval) no ha de ser superior a 0.03 quina grandària mostral garanteix aquest supòsit?, s'aconsegueix aquest supòsit amb una mostra de 700 compres? c) La premsa afirmava que almenys el 75% de les compres es realitzava en euros ( pagaments i devolucions). Hi ha evidència mostral per a no acceptar aquesta hipòtesi amb les nostres dades?

11. Per a conéixer els nivells de calci en sang en individus sans es va prendre una mostra aleatòria simple de 1000 individus observant el seu valor de calci, en mg per decilitre de sang. Com resultat es va obtindre una mitjana mostral de 9.5 i una desviació típica mostral de 0.5. Suposant normalitat troba intervals de confiança al 95% i al 99% per a la mitjana poblacional. 12. En l'estudi sanguini d'un individu es va trobar que, d'un total de 200 glòbuls blancs comptabilitzats, 125 eren neutròfils. a) Proposa una estimació puntual de la proporció de neutròfils entre els glòbuls blancs de l'individu. b) Obtín un interval de confiança al 90% per a aqueixa proporció. c) En un individu sa el percentatge de neutròfils està entre el 60 i el 70%. Segons l'interval de l'apartat anterior, hi hi ha evidència de desequilibri de neutròfils en aquest individu?