Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Estadística Bloque 1, Apuntes de Estadística Inferencial

Bloque 1 de Estadística Inferencial, Udl

Tipo: Apuntes

2020/2021

Subido el 03/01/2021

anna-bravo-1
anna-bravo-1 🇪🇸

2 documentos

1 / 31

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
BLOC 1 FONAMENTS D’ESTADÍSTICA INFERENCIAL
C1. DE L'ESTADÍSTICA DESCRIPTIVA A L‘ESTADÍSTICA INFERENCIAL.
INTRODUCCIÓ AL PROGRAMARI ESTADÍSTIC.
En aquest punt de l’assignatura ens situem en un Escenari:
Competència en Metodologia i Disseny d’estudis.
Competència en Estadís<ca descrip<va.
Paral·lelament començareu a adquirir competències informà<ques en jamovi.
Se us suposa coneixements de disseny d’estudis cienFfics i de treballar amb els valors registrats
de diferents <pus de variables. Variables que hem classificat de diferents maneres, bàsicament
en funció de l’escala de mesura, i el paper en la relació que te amb les altres variables
(causalitat, ...).
L’Estadís<ca és alguna cosa relacionada amb la Probabilitat, l’Estadís<ca Descrip<va u<litza els
càlculs de probabilitat per descriure el comportament de les variables a posteriori.
Per exemple: El 82% d’alumnes matriculats a un curs són noies.
En canvi l’EstadísIca Inferencial és la manera de comparar valors descrits en una mostra, amb
el valor esperat segons alguna teoria o l’observació empírica, especificats mitjançant una
Hipòtesi EstadísIca.
Per exemple: Posar a prova una teoria sobre les preferències professionals en funció del
gènere, o una simple expecta<va empírica de qui la planteja, com seria el cas de comprovar
que la Probabilitat observada del 82% de noies en un grup d’alumnes d’una Universitat és tant
diferent al que s’observa en el conjunt d’altres Universitats (P=67%), que jo m’arrisco a afirmar
que en el grup de 82% passa alguna cosa que el fa diferent.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f

Vista previa parcial del texto

¡Descarga Estadística Bloque 1 y más Apuntes en PDF de Estadística Inferencial solo en Docsity!

BLOC 1 FONAMENTS D’ESTADÍSTICA INFERENCIAL

C1. DE L'ESTADÍSTICA DESCRIPTIVA A L‘ESTADÍSTICA INFERENCIAL.

INTRODUCCIÓ AL PROGRAMARI ESTADÍSTIC.

En aquest punt de l’assignatura ens situem en un Escenari :

  • Competència en Metodologia i Disseny d’estudis.
  • Competència en Estadís<ca descrip<va.
  • (^) Paral·lelament començareu a adquirir competències informà<ques en jamovi. Se us suposa coneixements de disseny d’estudis cienFfics i de treballar amb els valors registrats de diferents <pus de variables. Variables que hem classificat de diferents maneres, bàsicament en funció de l’escala de mesura, i el paper en la relació que te amb les altres variables (causalitat, ...). L’Estadís<ca és alguna cosa relacionada amb la Probabilitat , l’Estadís<ca Descrip<va u<litza els càlculs de probabilitat per descriure el comportament de les variables a posteriori. Per exemple: El 82% d’alumnes matriculats a un curs són noies. En canvi l’ EstadísIca Inferencial és la manera de comparar valors descrits en una mostra, amb el valor esperat segons alguna teoria o l’observació empírica, especificats mitjançant una Hipòtesi EstadísIca. Per exemple: Posar a prova una teoria sobre les preferències professionals en funció del gènere, o una simple expecta<va empírica de qui la planteja, com seria el cas de comprovar que la Probabilitat observada del 82% de noies en un grup d’alumnes d’una Universitat és tant diferent al que s’observa en el conjunt d’altres Universitats (P=67%), que jo m’arrisco a afirmar que en el grup de 82% passa alguna cosa que el fa diferent.

Con<nuem amb l’exemple anterior: Com comparo la Probabilitat observada del 82% amb les altres que en conjunt tenen una P=67%?

CONEIXENT LA DISTRIBUCIÓ D’AQUESTES PROBABILITATS!

Com podem passar d’afirmar que en el grup de 82% passa alguna cosa que el fa diferent, a dir que la culpa és l’estructura social del territori on viuen els alumnes del grup del 82% que és diferent a la dels altres territoris? Havent fet un disseny d’estudi que permeI fer aquesta afirmació, és a dir, sorInt fora del camp de l’EstadísIca! Qui em diu quina és la distribució de la variable estudiada?

VISIÓ FREQÜENTISTA

Interpretar les probabilitats que apareixen en una taula estadís<ca descrip<va d’una variable aleatòria dona a entendre que les proporcions són fonamentals per treballar en estadís<ca. Tot i això, cal veure en base a que es plantegen les hipòtesis, tal i com ho fa l’Estadís<ca Inferencial. Nosaltres generem o observem experiments aleatoris, llençar un dau i observar un 5 en la cara superior del dau, però això no ens serveix per establir el comportament del dau. Necessitem repe<r molts cops l’esdeveniment per entendre que la probabilitat de les 6 cares acaba igualant-se a 1/6, o que la probabilitat de cara i creu en una moneda acaba igualant-se (1/2). Així doncs, la visió freqüen<sta planteja que la probabilitat d’un esdeveniment és l’es<mació de la freqüència rela<va quan el nombre d’observacions tendeix a infinit. A la imatge, Distribució de Probabilitats de la suma de 2 daus:

VISIÓ BAYESIANA

La visió Bayesiana de la probabilitat, anomenada sovint visió subjec<vista, ha estat una visió minoritària entre estadís<cs però està guanyant terreny durant les úl<mes dècades. Hi ha moltes definicions bàsiques, cosa que fa digcil dir exactament què és la “visió bayesiana”. La manera més u<litzada és pensar que la probabilitat subjec<va és el grau de creença que una persona intel·ligent i racional assignaria a un esdeveniment. Per tant, cal opera<vitzar el terme "grau de creença". Suposem que crec que demà hi ha un 60% de probabilitat de pluja. Si algú m’ofereix una aposta que si plou demà, guanyo 5€, i si no plou, perdo 5€, des de la meva perspec<va, aquesta és una bona aposta. D'altra banda, si penso que la probabilitat de pluja és només del 40%, és una mala aposta. De manera que podem operar la noció de "probabilitat subjec<va" en termes de les apostes que es<c disposat a acceptar. (De fet és molt més complicat, cal el compliment dels axiomes de probabilitat de Kolmogorov). Avantatge de l’aproximació Bayesiana: Permet assignar probabilitats a qualsevol esdeveniment que es desitgi ( A Priori , encara que no <nguem moltes observacions). Desavantatge (per a moltes persones) de l’aproximació Bayesiana: No podem ser purament objec<us. Especificar una probabilitat “A priori” es basa en una “creença”. Quina visió uIlitzarem: Raonament pragmà<c! si volem entendre les eines estadís<ques u<litzades majoritàriament en Ciències de la Salut, cal una bona comprensió dels Mètodes FreqüenIstes.

L‘Estadís<ca Inferencial proporciona aquestes eines que necessitem per entendre bé el que ens diuen els números. I la teoria de la inferència estadís<ca es basa sobre la teoria de la probabilitat. Tot i les discrepàncies entre visions Freqüen<sta i Bayesiana, s’està d’acord en les regles de probabilitat a seguir. I com con<nuem amb una visió pragmà<ca, aquí ens centrarem en el concepte clau per avançar en el nostre raonament i argument, el concepte de Variable Aleatòria. A par<r d’un experiment aleatori , ens podem plantejar moltes hipòtesis que impliquen una interpretació dels resultats. Per exemple, si hi ha apostes, em puc preguntar quan ha guanyat un jugador que apostava al 27 en una ruleta, quan ha tardat a sor<r el primer número més gran de 24, o quan han sor<t dos cops seguits el mateix número. Així, cada cop, ens fixarem en un sol aspecte dels molFssims que es donen en conjunt en acabar un experiment aleatori. Si voleu veure algun exemple de quan<tat impensable de resultats dels qual es calcula i analitza la probabilitat associada, aneu a alguna web de Beisbol, NBA, NFL, o altres lligues americanes. Per exemple, quant val la probabilitat que un equip hagi remuntat un 3 a 1 en dos play-offs de final de conferència, en dues temporades seguides. Volia posar un exemple d’apostes clàssiques, les angleses, però m’ha fet por que m’acusessin d’apologia de la ludopa<a. De fet, el sector de les apostes ja és el principal patrocinador del futbol europeu. Exercici 1 Suposem que fem un experiment aleatori que consisteix a observar quantes persones s’han contagiat per COVID-19 entre els 25 joves que resideixen en un mateix edifici. Quines hipòtesis podríem fer sobre alguna de les caracterís<ques de les persones i el resultat a la prova PCR aplicada als 25 alumnes. Podríem plantejar-nos infinites preguntes, per exemple registrar la variable aleatòria:

  • Nombre de vegades que cada alumne ha sor<t de casa.
  • Nombre de vegades que cadascú ha estat a menys de 2 metres d’una altra persona.
  • Nombre de posi<us.
  • ... Proveu de fer-ne 10, us anirà bé per pensar en el <pus d’hipòtesis que se us demana que feu amb la de base de dades que presentareu a l’Ac<vitat 1a. Exercici 1: Informació que ens arriba Suposem que classifiquem la informació que transmet una emissora de radio en 6 categories (no compta la publicitat), i vull establir la probabilitat de que quan engegui la radio del cotxe, cada maF en sor<r de casa cap a la feina, em sur< una o altra categoria. Faig un estudi durant 6 mesos i estableixo les següents probabilitats Freqüen<stes: Corrupció polí<ca 25% Crisis humanitàries 12% Futbol 20% Tenis 15%

Pandèmia 19% Pronòs<c temps 9% Evidentment, alguns de vosaltres haureu anat a comprovar un principi bàsic de la teoria de probabilitats, la suma ha de donar 100% (molts cops treballarem amb proporcions, llavors cal sumar 1). Això s’anomena Llei de probabilitat total. I el que tenim a la taula és una Distribució de probabilitat de la variable <pus d’informació, on es mostra cada esdeveniment elemental que pot donar-se (o valor que la variable aleatòria pot prendre). Preguntes:

  • Quina probabilitat tenim d’escoltar una noFcia d’esports? Probabilitat d’escoltar música?
  • Un estudi durant 6 mesos és millor que un que registra només una setmana? Si heu u<litzat el terme Llei dels grans nombres , segurament ho haureu fet bé!

SÍNTESI DEL TEMA

Aquesta presentació només vol ser un exercici de recuperar els termes clau del curs passat per poder començar a presentar l’Estadís<ca Inferencial. Els con<nguts pròpiament de Teoria de Probabilitat pertanyen al temari d’Estadís<ca Descrip<va, que ja se us suposen i que heu de repassar si creieu que cal. Fins aquí, el Con<ngut 1 del Bolc 1. A par<r d’ara, funcionant en base a la metodologia de classe inversa, presentarem una ac<vitat inicial per introduir el següent tema. Recordeu que a Internet hi ha molt material per recuperar conceptes com ara simulacions: hsp://digitalfirst.bfwpub.com/stats_applet/stats_applet_10_prob.html I no només els directes de l’AuronPlay, Rubius, Willyrex, Wismichu, Stephen Hawking, ...

C2DISTRIBUCIONS DE PROBABILITAT DISCRETES I CONTINUES.

DISTRIBUCIÓ MOSTRAL ACTIVITAT INICIAL

L’exercici, triat expressament per ser de l’es<l que més rellevància té per un professional de la Psicologia ja que parla de l’elecció d’un o altre <pus d’intervenció, podria incloure una sèrie de preguntes sobre Disseny i Bibliometria per assegurar que hem entès aspectes de Metodologia. Tot i això, les obviarem per anar directament a l’objec<u específic de fer l’exercici en aquest apartat. Pregunta 1 :Quines són i amb quina escala de mesura s’han registrat les principals variables de l’estudi? Variable Dependent principal:

Com us podeu imaginar, les distribucions de probabilitat varien enormement. Poc tenen a veure la distribució de la variable )pus de no,cia que puc sen)r en una emissora de radio i la variable resposta dels subjectes al test Pa)ent Health Ques)onnaire-9 (PHQ-9). Hi ha un gran ventall de distribucions, però no totes són igual d’importants. De fet, la gran majoria dels escenaris que tractarem aquí es basen en una de cinc distribucions: la distribució Binomial , la distribució Normal , la distribució t , la distribució χ^2 (Khi-quadrat) i la distribució F. A les properes seccions farem una breu introducció a totes cinc, centrant-nos primerament en la Binomial i la Normal. Quan han decidit que l’eficàcia, per exemple, segueix una distribució Normal, fet que deduïm de que ens donen els paràmetres de la funció de densitat d’aquesta distribució? Com us podeu imaginar, de distribucions de probabilitat n’hi ha d’haver de formes molt diverses. Ja que poc tenen a veure la distribució de la variable <pus de noFcia que puc sen<r en una emissora de radio i la variable resposta dels subjectes al test Pa<ent Health Ques<onnaire-9 (PHQ-9). Hi ha un gran ventall de distribucions, però no totes són igual d’importants. De fet, la gran majoria dels escenaris que tractarem aquí es basen en cinc distribucions:

  • la distribució Binomial
  • (^) la distribució Normal
  • (^) la distribució t
  • la distribució χ2 (Khi-quadrat) i
  • la distribució F. A les properes seccions les descrivim i aprenem a calcular-ne probabilitats.

DISTRIBUCIÓ BINOMIAL

Només farem càlculs de Probabilitat Binomial amb una calculadora estadís<ca web. Tema ja vist! Experiment binomial Un experiment binomial és un experiment estadís<c que té les següents propietats:

  • L'experiment consisteix en n proves repeIdes.
  • (^) Cada assaig pot resultar en només 2 resultats possibles. Anomenem a un, èxit i a l'altre, fracàs. Cada assaig de l’experiment Binomial es coneix com a experiment de Bernuolli.
  • La probabilitat d'èxit, que es denota per p, és el mateix en cada prova. •Els assaigs són independents ; és a dir, el resultat d'un assaig no afecta els altres resultats. Exercici: Tirar una moneda 2 cops i comptar el nombre de cares, és un experiment binomial?
  • (^) L'experiment consisteix en la repe<ció de proves. Llancem una moneda 2 cops.
  • (^) Cada assaig pot resultar en només dos resultats possibles: cara o creu.
  • La probabilitat d'èxit és constant: 0,5 a cada prova.
  • Els assaigs són independents; és a dir, que sur< cara no afecta el fet obtenir creu en altres assajos. Notació x: Nombre d'èxits que resulten de l'experiment binomial. n: Nombre d'assajos en l'experiment binomial. p: Probabilitat d'èxit en un assaig individual. q: Probabilitat de fallada a un assaig individual (igual a 1-p). n!: Factorial d’n (també conegut com n factorial). b(x,n,p) Probabilitat Binomial - la probabilitat que d’n resultats a l'experiment binomial on exactament hi hagi x èxits, sent la probabilitat d'èxit en un assaig individual igual a p. nCr: Nombre de combinacions de n elements, presos de r en r. Exercici 1. Associar els càlculs manuals amb els càlculs amb calculadora web. calculadora: hsp://stasrek.com/online- calculator/binomial.aspx Suposem que un dau es llança 5 vegades. Quina és la probabilitat d'obtenir exactament 2 quatres? Solució: El nombre d'assaigs és igual a 5, el nombre d'èxits és igual a 2, i la probabilitat d'èxit en un únic assaig és 1/6 o al voltant de 0.167. Per tant, la Probabilitat Binomial és: b(2; 5, 0,167) = 5C2 · (0.167) 2 · (0.833) 3= b(2; 5, 0,167) = 10 · (0.167) 2 · (0.833) 3= 0, Quadra?

PROBABILITAT BINOMIAL ACUMULADA

És la probabilitat que la variable aleatòria es<gui dins d'un rang de valors. Per exemple: més gran d’un límit inferior, o menor o igual a un límit superior. Exercici 2. Calcular la probabilitat binomial acumulada d'obtenir 45 o menys creus en 100 llançaments d'una moneda. Solució: Suma de totes les probabilitats binomials individuals incloses en el rang de 0 a 45: b(x ≤ 45; 100, 0,5) = b(x = 0; 100, 0,5) + b(x = 1; 100, 0,5) + ... + b(x = 44; 100, 0,5) + b(x = 45; 100, 0,5) b(x ≤ 45; 100, 0,5) = 0. Exercici 3. La probabilitat que un estudiant sigui acceptat en una Universitat de pres<gi és 0,3. Si hi apliquen 5 estudiants de la mateixa escola, quina és P(x ≤ 2)?

Exercici 1. Suposem que <rem una moneda repe<dament i comptem el nombre de cares (èxits). Si con<nuem <rant la moneda fins que sur<n 2 cares, estem realitzant un experiment Binomial Nega<u. La variable aleatòria binomial nega<va és la quan<tat de monedes <rades fins aconseguir 2 cares. En aquest exemple, el nombre de <rades de moneda és una variable aleatòria que pot assumir qualsevol valor entre 2 i més infinit. A con<nuació es presenta la distribució de probabilitat binomial nega<va d'aquest exemple.

DISTRIBUCIÓ BINOMIAL

NEGATIVA

Exercici 2. Suposem que tenim una probabilitat de contagi de COVID de 0.4 entre els nostres pacients i que només en podem confinar 3, ja que al 4rt ens tanquen la consulta segons una llei. Portem 10 visites a pacients i en visitar el 10è, l’hem hagut de confinat i és el tercer. Quina probabilitat tenim que en arribar al 10è pacient sigui el tercer a confinar? Algú se li ocorre una conclusió a treure si ens passa el resultat d’aquest exercici?

DISTRIBUCIÓ HIPERGEOMÈTRICA

Una distribució hipergeomètrica és una distribució de probabilitat que té les caracterís<ques principals:

• Selecció aleatòria sense reemplaçament, un subconjunt d'elements d'una població

finita.

• La probabilitat no es manté constant a causa de la no reposició i la població finita.

• Quan N tendeix a infinit la Hipergeomètrica esdevé una Binomial.

• Cada element es pot classificar com a èxit o fracàs (Bernoulli).

Exercici 1. Suposem que seleccionem aleatòriament 5 alumnes d'una classe de 52 matriculats. I ens preguntem: Quina és la probabilitat de que totes 5 persones hagin fet una prova PCR?

Sabem que la meitat dels individus de la classe (considerada població i no mostra) han passat per una PCR. En aquest exemple, la selecció d'una persona que si ha fet una PCR (26 de 52 alumnes) es classificarà com a èxit. Les probabilitats associades a cada resultat possible són un exemple d'una distribució hipergeomètrica, com es mostra a con<nuació.

DISTRIBUCIÓ DE POISSON

Un experiment de Poisson té les següents propietats:

  • L'experiment produeix resultats que es poden classificar com a èxit o fracàs.
  • Es coneix la mitjana d'èxits (μ) que es produeixen en una situació determinada.
  • La probabilitat d’èxit és proporcional a la mida del conjunt on treballem a cada situació.
  • La probabilitat d’èxit és molt baixa. Notació:
  • μ: el nombre mitjà d'èxits que es produeixen en una regió especificada.
  • x: el nombre d'èxits que es produeixen en una regió especificada.
  • P (x; μ): la probabilitat de que exactament x esdeveniments es produeixen en un experiment de Poisson, quan el nombre mitjà d'èxits és μ. Donat el nombre mitjà d'èxits (μ) que es produeixen en una regió determinada, podem calcular la probabilitat de Poisson segons la següent fórmula: P (x; μ) = (e-μ)·(μx ) / x! Sent x és el nombre real d'èxits que es deriva de l'experiment. La distribució de Poisson té les següents propietats:
  • La mitjana de la distribució és igual a μ.
  • La variància també és igual a μ. Exercici 1. Suposem que la mitjana de lleons que es veuen en un safari d’1 dia és 5. Quina és la probabilitat que els turistes vegin menys de quatre lleons en el pròxim safari d’1 dia? Solució: es tracta d'un experiment de Poisson en què sabem el següent:
  • μ = 5; ja que es veuen 5 lleons per safari, de mitjana.
  • x = 0, 1, 2 o 3; ja que volem trobar la probabilitat que els turistes vegin menys de 4 lleons. Per solucionar aquest problema, hem de trobar la probabilitat que els turistes vegin 0, 1, 2 o 3 lleons. Per tant, cal calcular la suma de quatre probabilitats: P (0; 5) + P (1; 5) + P (2; 5) + P (3; 5). Per calcular aquesta suma, fem servir la fórmula de Poisson: P (x <3, 5) = P (0; 5) + P (1; 5) + P (2; 5) + P (3; 5)P (x <3, 5) = [(e-5) (50) / 0! ] + [[e-5] (51) / 1! ] + [(e-5) (52) / 2! ] + [[e-5] (53) / 3! ] P (x <3, 5) = [0.0067] + [0.03369] + [0.084224] + [0.140375] = 0. Per tant, la probabilitat de veure no més de 3 lleons, és de 0.2650.

DISTRIBUCIÓ NORMAL ESTÀNDARD

La distribució Normal estàndard és un cas especial de la distribució Normal. Exactament quan té una mitjana de zero i una desviació estàndard d'1. S’anomena puntuació estàndard o puntuació z. Cada variable aleatòria X normal es pot transformar en una puntuació z a través de la següent equació: Cas 1. Probabilitat acumulada d'una puntuació P (Z< 1,31) = 0,9049. Cas 2. Probabilitat acumulada d'una puntuació nega<va. Per exemple, z = -1.31, anirem a l’encreuament entre la fila 1.3 i la columna que conté 0,01. La taula mostra que la probabilitat que una variable aleatòria normal estàndard serà menor que 1,31 és 0.9049, però com que volem l’acumulada de z= -1.31, aquesta és igual a 1 menys l’acumulada de z=1.31= -9049=0,0951; és a dir, P (Z <-1,31) = 0, Cas 3. Probabilitat P(Z>a). Com la taula mostra P(Z<a). P(Z>a)=1- P(Z<a).Per exemple, que volem calcular P(z>3,00). A par<r de la taula, ens trobem amb que P (Z <3,00) = 0,9987. Per tant, P(Z>3,00) = 1-P(Z <3,00) = 1-0,9987 = 0.0013. Cas 4. Probabilitat que z es trobi entre dos valors. P(a <Z <b) = P (Z <b) - P (Z <a). Per exemple, suposem que volem saber la probabilitat que una puntuació z sigui més gran que -1.40 i menor de -1.20. A par<r de la taula, trobem que P (Z <-1.20) = 0,1151; i P (Z <-1.40) = 0,0808. Per tant, P(-1,40<Z<-1,20) = P(Z<-1,20) - P(Z<-1,40) = 0,1151- 0,0808 = 0,

DISTRIBUCIÓ T D’STUDENT

La distribució t d’Student és una distribució de probabilitat que s'u<litza per es<mar els paràmetres de població quan la mida de la mostra és pe<ta i/o quan la variància de la població és desconeguda. D'acord amb el teorema del límit central, la distribució mostral d'un estadís<c (com ara mitjana de la mostra) seguirà una distribució Normal, sempre que la mida de la mostra sigui prou gran. Per tant, si sabem la desviació estàndard de la població, podem calcular una puntuació z, i u<litzarem la distribució Normal per avaluar les probabilitats juntament amb la mitjana de la mostra. Tot i això, pot passar dues coses:

  • La mida de la mostra és pe<ta.
  • No sabem la desviació estàndard de la població. La distribució t ens permet fer càlculs de probabilitat quan els conjunts de dades no són apropiats per aplicar-hi la distribució Normal. I per fer-los hem de fer la transformació següent: Graus de llibertat En realitat, hi ha moltes distribucions t diferents, i la forma par<cular la determina els graus de llibertat. Els graus de llibertat es refereix al nombre d'observacions independents en un conjunt de dades. Quan s'es<ma una puntuació mitjana o una proporció d'una mostra, el nombre d'observacions independents és igual a la mida de la mostra menys un. Per tant, la distribució de l'estadís<c t de mostres de grandària 8 es descriu mitjançant una distribució t que té 8-1 = 7 graus de llibertat. L'estadís<c t produït per aquesta transformació estarà associada amb la probabilitat acumulada que representa la probabilitat de trobar una mitjana de la mostra menor o igual a x, donada una mostra aleatòria de grandària n.

Per trobar la probabilitat associada amb un estadís<c t en par<cular, u<litzarem la calculadora de la distribució t. U<litzarem t(1-α) per denotar el valor de t del qual volem saber-ne la probabilitat associada. Exercici 1. IKEA fabricant de bombetes, afirma que una bombeta té una durada mitjana de 300 dies. Un inves<gador selecciona a l'atzar a 15 bombetes per fer una prova. I observa que les bombetes de la mostra tenen una durada mitjana de 290 dies, amb una desviació estàndard de 50 dies. Si l'afirmació d’IKEA és certa, quina és la probabilitat que 15 bombetes a l'atzar <nguin una vida mitjana de 290 dies o menys? Hi ha dues maneres de resoldre aquest problema. Solució A: Calculant primer l'estadís<c t, d'acord amb la següent equació (t score): Solució B: Treballant directament amb les dades brutes del problema (Sample mean). Seleccionar "Sample mean" al quadre desplegable i entrem les següents dades:

  • Els graus de llibertat són 15 - 1 = 14.
  • La mitjana de la població és igual a 300.
  • La mitjana de la mostra és igual a 290.
  • La desviació estàndard de la mostra és 50. La calculadora mostra la probabilitat acumulada: 0.2257. Per tant, arribem a la mateixa conclusió.

DISTRIBUCIÓ KHI

Suposem que duem a terme el següent experiment estadís<c. Seleccionem una mostra aleatòria de grandària n d'una població Normal, amb desviació estàndard σ, on observem una desviació estàndard mostral S. Tenint en compte aquestes dades, podem definir un estadís<c, anomenat Khi-quadrat, u<litzant la següent equació: A la següent figura, la corba vermella mostra la Funció de Densitat de la distribució dels valors de 𝜒𝜒2 calculat a par<r de totes les mostres possibles de mida 3, on els graus de llibertat són n-1=3-1=2. De manera similar, la corba verda mostra la distribució de mostres de mida 5 (graus de llibertat =4); i la corba blava, per a mostres de mida 11. La distribució 𝜒2 té les següents propietats:

  • La mitjana de la distribució és igual al nombre de graus de llibertat: μ = 𝜈𝜈.

Si us heu fixat en la fórmula, F és un quocient de Variàncies mostrals i poblacionals. I de matemà<ques de 1er d’ESO sabem que un quocient = 1, significa que numerador i denominador són idèn<cs. Llavors la lògica de la probabilitat de la funció F té a veure amb la probabilitat de que les variàncies de numerador i denominador siguin iguals. Aquesta funció distribució té aplicació directa a càlcul de probabilitats estadís<ques, no de valors observats d’una variable o valors d’estadís<cs calculats en una mostra, com totes les anteriors. Solució a l’exercici (numerador dades dons): Pas 1 càlcul Pas 2 calculadora Conclusió: un 0.78 de Probabilitat d’observar valors com 1,68 o menors.

C3 ESTIMACIÓ DE PARÀMETRES. INTERVALS DE CONFIANÇA

El propòsit de l’Estadís<ca Inferencial és treure conclusions sobre el que no sabem d’una població a par<r del que estudiem en una mostra. Per fer-ho necessitem:

  • Una mostra representa<va.
  • Conèixer els procediments bàsics de càlcul de probabilitats.
  • (^) Conèixer la distribució de les variables aleatòries estudiades a la mostra. Si és així, tenim l’escenari adient per fer les dues principals accions inferencials: **- EsImació de paràmetres
  • Proves d'hipòtesi** En aquest capítol introduirem la primera d'aquestes idees generals, la tècnica de l'es<mació

MOSTRES, POBLACIONS I MOSTREIG

La primera assumpció cal prendre per arribar a fer es<macions de paràmetres té a veure amb la mostra. No podem fer un estudi amb tota la població, fins i tot perquè, molts cops, només implica una definició teòrica.

Exemple : el concepte estudiant universitari, si jo vaig a secretaria i demano que m'imprimeixin el llistat de matriculats avui, tenim una definició clara. Però imagineu que l’estudi implica seguiment. Com he de respondre als següents dubtes per definir la població estudiant universitari català entre 2020 i 2022?

  • Que en faig dels que només compleixen la condició 3 quadrimestres dels 4 que inclou 2 cursos?
  • (^) I dels re-assignats al cap de 2 mesos?
  • (^) I dels que no es presenten a examen a la meitat d’assignatures?
  • I dels que canvien de grau, o en fan 2 alhora, o fan doble grau, o avaluació alterna<va, o ho suspenen tot? Altres condicionants:
  • La teoria estadís<ca suposa la u<lització de mostreig aleatori simple. I no sempre és així, l’estra<ficació pot suposar sobremostreig d’estrats. Bola-de-neu i conveniència no cal ni parlar-ne.
  • La majoria d’estudis impliquen mostreig sense reemplaçament (quantes distribucions de les vistes són així?).
  • Només admetem error aleatori, no sistemà<c! Suposem que parlem de puntuacions d’IQ. Per a un psicòleg, la població d’interès és “humans reals que tenen puntuacions d’IQ”. La figura (a) mostra la distribució d’aquesta variable, concretament les proves d’IQ estan dissenyades de manera que la mitjana sigui de 100, la SD de 15 i la distribució d’IQ sigui Normal. Aquests valors es coneixen com a paràmetres de la població. Ara suposem que realitzo un experiment aleatori i selecciono 100 persones a l’atzar i administro un test d’IQ. De manera que si faig un histograma de la mostra, figura (b), l'histograma té aproximadament la forma correcta, però no del tot. Si u<litzo una mostra molt més gran, l’histograma resultant (c) s’assemblarà molt més a l’original (a).

ERROR ALEATORI ERROR SISTEMÀTIC

**1. ImpredicIble

  1. Simètric
  2. Inevitable, però esImable
  3. Equival a falta de precisió**
    1. Predicible
    2. Asimètric
    3. Corregible
    4. Equival a falta de validesa

n=5! En defini<va al llibre de jamovi hi ha més exemples per acabar-vos de convèncer però suposem que ho estem... Aprofitem doncs per entendre 2 coses més:

  • Nosaltres^ no farem inferències a par<r de les puntuacions dels individus^ de la mostra, farem inferències a par<r dels estadís<cs (M i SD p.e.) mostrals. Per tant, la distribució que ens interessa és la de les mostres.
  • La^ distribució mostral, p.e. de la mitjana, en mostres de mida n, depèn de 3 arguments, i n. I com acabem de veure als 3 histogrames inferiors (variació de la distribució a mesura que augmenta la n), aquesta n esdevé, un concepte clau a par<r d’ara, els graus de llibertat , el paràmetre que veruem a les taules de les distribucions com la F, t i Khi^2. Bé, si heu fixat, sempre hem fet anar un únic exemple, l’IQ. I sembla evident que podem arribar a la conclusió que a mesura que augmenta la n mostral, la SD de la distribució mostral, a la que anomenem Error estàndard (SEM) , és més pe<ta que el paràmetre poblacional. Com de més peIta? ... així: Per tant tenim que:
  • La mitjana de la distribució mostral és la mateixa que la mitjana de la població.
  • La SEM de la distribució mostral es redueix respecte la poblacional en augmentar la mida de la mostra.
  • La forma de la distribució mostral esdevé Normal a mesura que augmenta la mida de la mostra. I si la distribució a la població no és Normal, quina afirmació podem fer de la distribució mostral (if any)? Doncs aquí rau la importància que faci estona que arrosseguem el Ftol de Teorema del Límit Central i encara no n’haguem dit res: Fins i tot en distribucions molt diferents a la Normal, la Distribució de la mitjana mostral s’aproxima a una Normal. Figura (a): Distribució no Normal. Figura (b): Distribució mostral n=2 de les dades que han generat la figura (a). La Figura (c) i (d), el mateix però amb n=4 i n=8, respec<vament. Com podeu veure, tot i que la distribució original de la població no és normal, la distribució mostral de la mitjana s’aproxima Normal fins i tot amb mostres de 4 observacions. μ , σ

ESTIMACIÓ

Aprofitant totes aquests propietats que hem vist de les distribucions mostrals d’estadís<cs, sobretot com la SEM va fent-se pe<ta, o com esdevenen Normals en augmentar la n i les rèpliques. Hem u<litzat l’exemple d’IQ perquè té trampa i, a més, hem fet trampa. L’IQ té M=100 i SD=15, perquè algú va jugar fins aconseguir-ho (ja ho veureu) i l’escenari habitual de treball estadís<c implica desconèixer els valors d’M i d’SD. Fins i tot si els sabéssim, la recerca implica estudiar normalment mostres no representa<ves de la població. Estudiem si els professionals sanitaris (Frontline Healthcare Workers) tenen més problemes de son durant la pandèmia, i això no és representa<u de cap població! Un estadís<c mostral és una descripció de les dades, mentre que l'es<mació és una conjectura sobre la població. Però acabem de veure que podem demostrar que la mitjana de la mostra (representats indis<ntament per M o ) té el mateix valor que (paràmetre poblacional) si es compleixen unes condicions mínimes. Llavors, podem esImar a parIr d’ i dir: Però diríem, segurament, AL VOLTANT de 98.3 , si acabéssim de fer un estudi sobre IQ en una mostra n=50 i M=98.3. Per tant, sembla ser que falta alguna manera millor d’acabar de polir la resposta: EsImació per Interval

ESTIMACIÓ PER INTERVAL

Anem a veure com s’ha acordat de presentar l’es<mació d’un paràmetre a par<r d’un estadís<c mostral.

  1. Sabem que
  2. Sabem que
  3. Algú ha establert que tenir una probabilitat alta per exemple un 95% d’encert que la veritable mitjana es<gui entre dos valors que establirem, és la millor manera de fer l’es<mació. Doncs ja sabem el que hem de fer: calcular els límits d’un interval que incloguin amb una probabilitat gran, el veritable valor del paràmetre. Veureu definicions més matemà<ques al llibre us la poso V.O.S.: “ if we replicated the experiment over and over again and computed a 95% confidence interval for each replica)on, then 95% of those intervals would contain the true mean.” (copiat del llibre de Navarro) Però amb la versió senzilla, la operacional, la de perquè acabem u<litzant l’interval, ja n’hi ha prou! Per cert, a aquest <pus d'interval (no és l’únic), a aquest l’anomenarem Interval de Confiança. x ¯ μ ^ μ x ¯ μ^ ^ = M μ^ ^ = M SEM = σ n