Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Fondamenti di Statistica Descrittiva e Inferenziale, Appunti di Statistica

Una panoramica completa dei concetti fondamentali della statistica descrittiva e inferenziale. Partendo dalla definizione di inferenza e dati, esplora le unità statistiche, le popolazioni e i campioni. Approfondisce le analisi statistiche descrittive e inferenziali, evidenziando l'importanza della forma della distribuzione, delle misure di tendenza centrale (media, mediana, moda) e della variabilità dei dati. Vengono inoltre trattati i percentili, i quartili, la deviazione standard e il coefficiente di variazione, fornendo esempi pratici e spiegazioni dettagliate per una comprensione approfondita dei concetti chiave. Infine, vengono introdotti i concetti di probabilità, distribuzioni di probabilità per variabili discrete e continue, e la distribuzione normale, essenziali per l'inferenza statistica. Il documento si conclude con una panoramica delle distribuzioni campionarie e delle stime puntuali, fornendo una solida base per l'analisi statistica dei dati.

Tipologia: Appunti

2021/2022

In vendita dal 20/05/2025

Jay-jonnie
Jay-jonnie 🇮🇹

4.3

(4)

9 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica 2021/2022
INTRODUZIONE ALLA STATISTICA: Capitolo 1.
La sta&s&ca è l'insieme dei metodi per
1. Proge&are: pianificare come devono essere raccol& i da& necessari per le ricerche
2. Descrivere: sinte&zzare i da&
3. Inferire: formulare previsioni basate sui da& raccol&
Da/: osservazioni (raccolta di informazioni) prese su determinate caraBeris&che di interesse
unità sta/s/che: en&tà che vengono osservate in una ricerca
Popolazione: totale dei soggeE di interesse in uno studio (questa può essere reale o conce)uale/ipote/ca)
Campione: soBoinsieme della popolazione di riferimento
Parametro: sintesi numerica delle caraBeris&che della popolazione
Sta/s/ca: una sintesi numerica dei da& campionari
(Nelle applicazioni, il principale obbieEvo è quello di conoscere il valore assunto dai parametri)
Un’analisi sta&s&ca viene classificata come: (a seconda del suo obbieEvo principale)
Descri<va: obbieEvo della sta&s&ca è descrivere, è impiegata per sinte&zzare le informazioni raccolte in un’indagine
Inferenziale: obbieEvo della sta&s&ca è fare previsioni, è impiegata per oBenere previsioni su una popolazione sulla
base di informazioni raccolte su un campione selezionato da essa.
CAMPIONAMENTO E MISURAZIONE: Capitolo 2.
Matrice dei Da/
Ciascuna riga con&ene le osservazioni riferite ad un
par&colare soggeBo del campione (unità sta&s&che).
Ciascuna colonna con&ene le osservazioni raccolte nel
campione per ognuna delle caraBeris&che esaminate.
Variabile: qualunque caraBeris&ca misurata su un
ciascun soggeBo. Assume valori diversi tra le unità
sta&s&che/soggeE del campione o della popolazione.
Possiamo dividere le variabili in due principali soBogruppi:
Var. Quan/ta/ve sono quelle i cui valori osserva&
sono numeri.
Se le modalità di una variabile sono registrate in un
dataset con dei numeri non è deBo che sia una Vab
quan&ta&va (like numero di matricola o CAP di
residenza).
Var. Qualita/ve o Categoriali sono categorie,
espressioni verbali.
È possibile calcolare la media per una variabile
quan&ta&va ma non per una qualita&va.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Fondamenti di Statistica Descrittiva e Inferenziale e più Appunti in PDF di Statistica solo su Docsity!

Statistica 2021/

INTRODUZIONE ALLA STATISTICA: Capitolo 1.

La sta&s&ca è l'insieme dei metodi per

  1. Proge&are : pianificare come devono essere raccol& i da& necessari per le ricerche
  2. Descrivere : sinte&zzare i da&
  3. I nferire : formulare previsioni basate sui da& raccol&

Da/: osservazioni (raccolta di informazioni) prese su determinate caraBeris&che di interesse

unità sta/s/che: en&tà che vengono osservate in una ricerca

Popolazione : totale dei soggeE di interesse in uno studio (questa può essere reale o conce)uale/ipote/ca )

Campione: soBoinsieme della popolazione di riferimento

Parametro : sintesi numerica delle caraBeris&che della popolazione

Sta/s/ca: una sintesi numerica dei da& campionari

(Nelle applicazioni, il principale obbieEvo è quello di conoscere il valore assunto dai parametri)

Un’analisi sta&s&ca viene classificata come: (a seconda del suo obbieEvo principale)

Descri<va: obbieEvo della sta&s&ca è descrivere, è impiegata per sinte&zzare le informazioni raccolte in un’indagine

Inferenziale: obbieEvo della sta&s&ca è fare previsioni, è impiegata per oBenere previsioni su una popolazione sulla

base di informazioni raccolte su un campione selezionato da essa.

CAMPIONAMENTO E MISURAZIONE: Capitolo 2.

Matrice dei Da/

Ciascuna riga con&ene le osservazioni riferite ad un

par&colare soggeBo del campione (unità sta&s&che).

Ciascuna colonna con&ene le osservazioni raccolte nel

campione per ognuna delle caraBeris&che esaminate.

Variabile: qualunque caraBeris&ca misurata su un

ciascun soggeBo. Assume valori diversi tra le unità

sta&s&che/soggeE del campione o della popolazione.

Possiamo dividere le variabili in due principali soBogruppi:

Var. Quan/ta/ve sono quelle i cui valori osserva&

sono numeri.

Se le modalità di una variabile sono registrate in un

dataset con dei numeri non è deBo che sia una Vab

quan&ta&va (like numero di matricola o CAP di

residenza).

Var. Qualita/ve o Categoriali sono categorie,

espressioni verbali.

È possibile calcolare la media per una variabile

quan&ta&va ma non per una qualita&va.

Scala di INTERVALLI: viene formata dai possibili valori numerici assun& da una variabile quan&ta&va. Sono

caraBerizzate da specifiche distanze numeriche (intervalli). Per le variabili misurate su questa scala possiamo

effeBuare confron& considerando quanto una di esse è più grande o più piccola di un’altra.

Variabili categoriali formano due /pi di scale:

Scala NOMINALE: Due osservazioni possono essere uguali o diverse se vengono misurate con lo stesso termine

verbale o meno. Like Maschio e Femmina sono diversi, Laureato e Laureato sono uguali. La scala è deBa nominale in

quanto il confronto tra due osservazioni si concentra solo sul faBo che le stesse appartengono o meno alla stessa

categoria. Nel caso delle var. Nominali non possiamo stabilire che una certa var. è più grande o più piccola.

Scala ORDINALE: (via di mezzo tra le prime due scale): è formata da una scala di var. Che ha un ordinamento naturale

dei suoi valori. Si usa per variabili categoriali per le quali è possibile confrontare le categorie in termini di maggiore e

minore (like gradi militari o classe sociale).

Vab .DISCRETE: quando i suoi possibili valori formano un conteggio (like n. di auto possedute)

Vab. CONTINUE: quando può assumere come valori ogni possibile numero reale incluso in un con&nuum infinito (like

reddito).

CAMPIONAMENTO: quando si ha la necessità di effeBuare un'indagine su una popolazione ma si u&lizza solo una

parte di essa. Per scegliere un buon campione viene usata la casualizzazione: meccanismo/principio per conseguire

una buona rappresenta&vità del campione.

Un campione casuale SEMPLICE è tale se a ogni possibile campione di pari numerosità che poteva essere

estraBo esso ha la stessa probabilità di selezione. Per poi scegliere uno dei possibili campioni si deve fare una

lista di campionamento che elenchi tuE i soggeE della popolazione e assegnarli un n., l’impiego di n.casuali

per la selezione del campione garan&sce che ogni soggeBo della popolazione abbia un’eguale probabilità di

essere selezionato.

Nel Campione STRATIFICATO la popolazione viene suddivisa in gruppi dis&n& chiama& stra&;

successivamente da ogni strato viene selezionato un campione casuale da ogni strato.

Gli STRATI sono gruppi di soggeE dis&n& per opportune caraBeris&che.

(vantaggio principale rispeBo ad un campione casuale semplice è che con il campionamento stra&ficato si

oBengono s&me più efficien&.

Camp.str. proporzionale : i gruppi sono presenta& con lo stesso peso che hanno nella popolazione

Camp.str. non proporzionale : le proporzioni campionarie non corrispondono a quelle della

popolazione. È u&le quando si vuole rappresentare in modo numericamente rilevante uno strato

poco rappresentato a livello di popolazione.

Campione a GRAPPOLO si applicano quando si devono effeBuare delle rilevazioni in determinate aree

geografiche. Per la selezione di un campione a grappolo la popolazione deve essere suddivisa in un gran

numero di grappoli e poi si seleziona un campione casuale di ques& grappoli e si impiegano nello studio tuE i

soggeE contenu& nel grappolo.

Talvolta il campione a grappolo non è applicabile, data la numerosità unità interne a ciascun grappolo. Si parla di

campione a PIÙ STADI se i momen& di rilevazione sono più di due.

Raccolta dei da/ a)raverso:

Un’ INDAGINE CAMPIONARIA: viene selezionato e intervistato un campione di individui da una popolazione.

La rilevazione dei da& può avvenire secondo alcune modalità:

Intervista faccia a faccia

Per i da/ categoriali, la rappresentazione tabellare

prevede un elenco delle categorie della variabile con

accanto la frequenza assoluta: cioè il n. di osservazioni

che hanno presentato quel valore/categoria della

variabile nel colleEvo.

Per rendere più agevole il controllo fra le categorie

possiamo riportare nella tabella anche le rispeEve

frequenze rela/ve ( proporzioni) e le frequenze

percentuali ( percentuali ).

o Proporzione= n.di osservazioni in una categoria diviso il

n.totale di osservazioni

o Percentuale = proporzione mol&plicata per 100.

Distribuzione di frequenze: è una lista di tuE i possibili

valori di una variabile a ciascuno dei quali è associato un n.

che rappresenta quante volte quel valore viene osservato nei

da& in esame.

Per oBenere una più competa percezione delle informazioni

di una distribuzione è u&le rappresentare le frequenze rela&ve con un grafico like:

GRAFICO A BARRE: l’altezza di ciascuna barra indica la frequenza rela&va.

Le barre sono tra loro separate neBamente per enfa&zzare che la variabile è

categoriale piuBosto che quan&ta&va: la composizione delle famiglie è una

variabile nominale, non esiste alcun ordinamento naturale fra le categorie.

ISTOGRAMMA: ogni intervallo viene rappresentato con una barra la cui area

rappresenta il n. di osservazioni nell’intervallo.

FORMA della distribuzione, descrivere la forma di un campione o di una popolazione:

A mano a mano che l'ampiezza campionaria aumenta le proporzioni campionarie in ciascun intervallo si

approssimano sempre di più alle vere proporzioni della popolazione: la distribuzione dei da& campionari diventa

sempre più simile alla distribuzione di popolazione.

Distribuzioni SIMMETRICHE : lato sx e dx della distribuzione sono uguali

Distribuzioni ASIMMETRICA POSITIVA o ASIMMETRICA NEGATIVA

Esempio di istogrammi che corrispondono a distribuzioni asimmetriche

Descrivere il CENTRO dei da 5.

Misure di tendenza centrale: servono per sinte&zzare la distribuzione dei da&, sono sta&s&che che descrivono il

dentro di una distribuzione di frequenze definita per una variabile quan&ta&va, mostrano la /picità della

distribuzione: MEDIA,MEDIANA,MODA

Più usata misura del centro di una distribuzione è la MEDIA : somma dei valori assun& dalle osservazioni

divisa per il totale delle osservazioni.

La numerosità campionaria è indicata con “n.”.

Le n. osservazioni di una variabile Y vengono indicate con y1 per la prima

osservazione, Y2 per la seconda è così via..

La media della variabile è indicata con y (y-barrato)

La media di una variabile

rappresenta il valore di quella variabile che ogni unità sta&s&ca assumerebbe in caso di perfe)a uguaglianza

nella distribuzione della variabile stessa (assenza di variabilità) lasciando inalterato il totale.

La MEDIANA divide in due par& il campione ordinato in maniera crescente, ciascuna parte con&ene un

iden&co numero di osservazioni.

È il valore della variabile assunto dall’osservazione centrale del campione ordinato.

o Quando l’ampiezza campionaria n è pari, si hanno due osservazioni centrali e la mediana è il valore

centrale tra i due

Cara 4 eris 5 che della media:

Il calcolo della media è appropriato

solo per le variabili quan/ta/ve

Il valore assunto dalla media può

essere notevolmente influenzato da

un’osservazione che assume un

valore molto al di soBo o al di sopra

di quello assunto dalla maggioranza

delle restan& osservazioni, tale

valore si chiama outlier ( valore

anomalo ).

La media tende a spostarsi nella

direzione della coda più lunga della

distribuzione.

La media è il punto di equilibrio

nella linea in cui sono riporta& tuE i

valori di una distribuzione.

Campo di variazione (range): è la differenza tra il valore più

grande (alto) e quello più piccolo (basso) di una distribuzione.

È il modo più semplice per descrivere la variabilità.

Il campo di variazione non è sensibile ad altre caraBeris&che

della variabilità dei da&.

Un altro modo per descrivere una distribuzione è aBraverso le misure di posizione , queste forniscono

informazioni sul valore al di soBo del quale ricade una certa percentuale di osservazioni della distribuzione.

La mediana è una grandezza che appar&ene a un insieme di misure di posizione chiamate Percen/li

Il p-esimo percen/le è il valore nella distribuzione al di soBo del quale ricade p% delle osservazioni e al di

sopra del quale ricade il (100 – p)% delle osservazioni

Il 25esimo percen&le è chiamato primo quar/le e il 75esimo percen&le terzo quar/le. Un quarto delle

osservazioni ricade al di soBo del primo quar&le e un quarto ricade al di sopra del terzo.

Lo scarto Interquar/le descrive la dispersione delle osservazioni

centrali della distribuzione ed è la differenza tra il terzo e primo

quar&le della distribuzione.

A differenza del campo di variazione non è influenzato dai valori

anomali perché scarta il 25% più basso e il 25% più alto della

distribuzione + indica la variazione massima osservata nel 50%

centrale della distribuzione.

Deviazioni standard. Un altro modo per misurare una posizione in

una distribuzione è di contare quante deviazioni standard dalla media ricade una certa osservazione.

La deviazione di un’osservazione Yi dalla media campionaria y-barrato è la differenza tra i due valori.

Ogni osservazione ha una deviazione

Si ha una deviazione posi/va quando l’osservazione ha un valore al di sopra della media. La somma di tuBe

le deviazioni dalla media è pari a zero. Per questo mo&vo le misure di variabilità usato i valori

assolu& delle deviazioni o dei loro quadra&.

Proprietà della deviazione standar:

Come tuBe le misure di variabilità, s ≥ 0 e s = 0 solo quando tuBe le

osservazioni hanno lo stesso valore.

Più grande è la variabilità intorno alla media, maggiore è il valore di s.

La deviazione standard (standard devia&on, sd) viene spesso chiamata

anche scarto quadra&co medio (sqm)

La ragione per cui si u&lizza (n - 1) piuBosto che n nel denominatore di s (e di s2)

riguarda l'inferenza per i parametri della popolazione.

Quando abbiamo da& riferi& ad un'intera popolazione, sos&tuiamo (n - 1) con l'effeEva ampiezza della

popolazione, n: la varianza della popolazione è, allora, esaBamente la media delle deviazioni al quadrato.

in tal caso, la deviazione standard non può essere più grande della metà del campo di variazione

Se sui da& viene effeBuata una trasformazione di scala (es., si passa da reddi& misura& in dollari a reddi&

misura& in migliaia di dollari), anche le deviazioni standard vengono trasformate.

Esempio di calcolo con deviazione standard

Interpretare la grandezza s

Regola Empirica : Se l'istogramma della distribuzione ha una forma approssima&vamente campanulare:

  1. Circa il 68% delle osservazioni assume valori compresi tra y – s e y + s
  2. Circa il 95% delle osservazioni assume valori compresi tra y – 2s e y + 2s
  3. La quasi totalità delle osservazioni assume valori compresi tra y – 3s e y + 3s

Coefficiente di Variazione CV

Uno svantaggio della deviazione standard (e della varianza) è che non può essere usata per confrontare la

variabilità di variabili misurate con diverse unità di misura (es. reddi& e altezze) ma anche su diverse scale

(cioè se le medie sono diverse). Per questo si ricorre al coefficiente di variazione:

CV è una misura la variabilità rela&va rispeBo alla media.

È un numero puro (espresso in % ma non ha massimo)

Consente il confronto tra la variabilità di fenomeni:

- in unità di misura non omogenee (es. in una popolazione c’è più variabilità nelle altezze o nei reddi&?)

  • con diverso ordine di grandezza (es. riguardo ai reddi&, c’è più variabilità tra gli italiani o i nigeriani?)

STATISTICHE DESCRITTIVE BIVARIATE

L’obieEvo principale di una analisi mul/variata è quello di studiare

l’associazione fra variabili: esiste associazione fra due variabili se una variabile

tende ad assumere cer& valori allorché l’altra variabile cambia il suo valore

Analisi Bivariata in quanto coinvolge 2 variabili.

Una variabile assume il ruolo di variabile indipendente ( o var. esplica/va ): i

suoi valori definiscono i i gruppi che meEamo a confronto per valutare le

differenze che esistono tra loro rispeBo ai valori assun& dalla var. Risposta /

l’altra è la variabile dipendente (o var. risposta ): i suoi valori vengono

confronta& per i diversi valori assun& dall’altra variabile.

La Tabella di Con/ngenza (o a doppia entrata ) mostra, per due variabili

categoriali, quante osservazioni vengono registrate per le diverse combinazioni di valori delle variabili. In queste

tabelle per ogni combinazione di modalità di due variabili categoriche si riporta la frequenza assoluta o rela&va.

Le frequenze rela&ve (o percentuali) possono essere calcolate su totale generale, sui totali di colonna o su quelli di

riga.

SCATTERPLOT (o diagramma a dispersione )

Sono usa& per osservazioni accoppiate rela&ve a due variabili

numeriche. Una variabile viene rappresentata sull’asse ver&cale e

l’altra variabile viene rappresentata sull’asse orizzontale. Serve per

dare un’idea sulla possibile relazione (lineare) esistente tra le due

variabili.

STATISTICHE CAMPIONARIE descrive una caraBeris&ca del

campione mentre un parametro descrive una caraBeris&ca della popolazione da cui quel campione è stato estraBo.

La deviazione standard descrive la variabilità delle osservazioni della popolazione intorno alla media.

Le le)ere minuscole greche sono u&lizzate per indicare i parametri di una popolazione mentre le le)ere la/ne per le

sta&s&che campionarie.

Le leBere greche mi è sigma indicano la media è la deviazione standard di una variabile nella popolazione.

INTRODUZIONE AL CALCOLO DELLE PROBABILITÀ E ALLE VARIABILI ALEATORIE: Cap. 4

Esperimento aleatorio: processo che porta ad un risultato prevedibile con certezza like giochi di sorte (es lancio

moneta), esperimen/ di laboratorio, misurazioni fisiche (temperatura minima in un certo momento), fenomeni

economici e sociali (n.di pc prodoE da un impresa).

Evento elementare: possibile risultato di un esperimento aleatorio

Spazio campionario: è l’insieme di tuE i possibili risulta& di un esperimento aleatorio

Evento : qualsiasi soBoinsieme di even& elementari di uno spazio campionario

Spazio campionario: in un esperimento aleatorio, lo s.c., è l'insieme S di tuE i possibili risulta/. Tali possibili risulta&

sono deE even/ elementari. (Es. Esempio: lanciando una moneta S = {T, C}).

Even/: Dato uno spazio campionario S, un evento è un soBoinsieme di S, quindi è cos&tuito da uno o più even&

elementari (a parte il caso dell’evento impossibile, denotato con il simbolo dell’insieme vuoto (Ø).

Un evento E si verifica (si realizza) quando il risultato dell’esperimento casuale è un qualsiasi evento elementare di E;

in caso contrario E non si verifica. (Es. lanciando un dado S = {1, 2, ...,6}, alcuni dei possibili even& sono: – A =

{Numero pari} = {2,4,6}; – B = {Numero minore o uguale a 3} = {1,2,3}; se ad esempio esce il 4: A si verifica, B non si

verifica

Diagramma di Venn:

Lo spazio campionario S è rappresentato da un reBangolo è un

evento E è rappresentato da una figura ivi contenuta.

Probabilità: per un campione o esperimento casuale, la probabilità di un ossservazione è la proporzione di volte in cui

essa dovrebbe verificarsi in una lunghissima sequenza di osservazioni, è la la possibilità che un evento incerto si

manifes& (sempre tra 0 e 1).

Un evento può essere una modalità di una variabile o un insieme di

modalità (ad esempio intervalli di valori).

Nella definizione classica la probabilità è vista come rapporto tra casi favorevoli su casi possibili.

È basata su una conoscenza delle caraBeris&che dell’esperimento indipendentemente dalla sua effeEva

realizzazione.

Es. nel lancio di un dado, qual è la probabilità che esca un numero pari? A = {2,4,6}

Un evento può essere una modalità di una variabile o un insieme di modalità (ad esempio intervalli di valori)

Approccio classico a priori: assumendo che ogni risultato possibile abbia la stessa probabilità (cioè che il dado sia

bilanciato) e che abbiano stessa probabilità gli even& elementari dello spazio campionario S={1,2,3,4,5,6}:

Probabilità di un numero pari = 3 / 6 = 0.

Definizione frequen/sta: è basata sulla sola osservazione dei da/ , in assenza di informazioni preesisten& sulle

modalità dell’esperimento. In questo caso, dato un numero elevato di prove, la probabilità di un’osservazione è

calcolata come frequenza rela/va : numero di prove in cui si verifica quella osservazione diviso il totale delle prove

faBe.

Probabili come lunga serie di frequenze rela/ve : Per un campione casuale o un esperimento casuale, la probabilità

di un’osservazione è la proporzione di volte in cui essa dovrebbe verificarsi in una lunghissima sequenza di

osservazioni. Quanto più il numero di osservazioni è elevato, tanto più la frequenza rela&va tenderà ad approssimare

bene la probabilità.

Es. pensate al lancio di una moneta. Quante più volte si lancia la moneta, tanto più la frequenza rela&va di «teste»

tenderà a 0.5 che è il vero valore della probabilità (nel caso di una moneta bilanciata).

LEGGI PROBABILISTICHE DI BASE

Sia P(A) probabilità di un possibile evento o di un insieme di even& indica& dalla leBera A, allora:

P(nonA) = 1-P(A)

se la probabilità del verificarsi di un evento è nota, allora la probabilità che esso non si verifichi è pari a 1

meno quella probabilità.

Se A e B sono due possibili risulta/ (che non si sovrappongono ovvero non si verificano mai insieme),

allora P(A oB) = P(A) + P(B)

Es.: Siano A e B, rispeEvamente, l'uscita di 2 e di 4 nel lancio di un dado. Qual è la probabilità che lanciando

una volta il dado esca 2 oppure 4?

P(A)= 1/6, P(B)=1/6 quindi P(A o B) = 1/6 + 1/6= 1/

P(A e B) = P(A) x P(B dato A)

La media di una distribuzione di probabilità per una variabile discreta y descrive la tendenza centrale:

La deviazione standard di una distribuzione di probabilità per una variabile discreta y descrive la variabilità:

è la radice quadrata della somma dei quadra& degli scar& tra ciascun

valore y osservato e la media aritme&ca (uguale a 2.45).

Distribuzione di PROBABILITÀ NORMALE

È distribuzione di probabilità con&nua più importante nella sta&s&ca inferenziale.

La distribuzione normale è simmetrica , campanulare e caraBerizzata da una media μ e da una deviazione

standard o.

La probabilità che un'osservazione ricada all'interno di un intervallo definito dalla media μ più o meno un

certo numero di deviazioni standard è la stessa per tuBe le distribuzioni normali. Tale probabilità è pari a

0.68 entro 1 deviazione standard, 0.95 entro 2 deviazioni

standard e 0.997 entro 3 deviazioni standard.

Al variare dei dei parametri media μ e deviazione standard σ si avranno

differen/ distribuzioni normali.

Per ogni distribuzione normale la probabilità compresa tra μ ± z σ è sempre la stessa, qualunque sia il valore

di z. La tavola delle probabilità so&ese alle code di una distribuzione normale da l’area soBesa alla curva

normale a destra di un certo punto z.

z-score e distribuzione normale standardizzata

Lo z-score per un valore y di una variabile è il numero di deviazioni standard tra y e la media. Tale valore è

pari a:

Il principale vantaggio dell'u&lizzo degli z-score sta nel faBo che si elimina l'unità di misura della variabile

considerata (e si può u&lizzare la tavola vista in precedenza!)

ü Se una variabile ha distribuzione normale con una certa media e deviazione standard e i suoi valori sono

trasforma& in z-score, i valori risultan& avranno una distribuzione normale standardizzata (cioè con media 0 e

deviazione standard, e varianza, pari ad 1)

Applicazioni della simmetria

Intervalli simmetrici intorno alla media definiscono la stessa area soBo la curva.

Le DISTRIBUZIONI CAMPIONARIE

Una distribuzione campionaria di una sta&s&ca è la distribuzione di probabilità che fornisce la probabilità per

i possibili valori che la sta&s&ca può assumere. Queste, non sono note a priori cioè non conosciamo a priori

come si distribuiscono i valori della variabile stessa.

U&lizzando i da& campionari possiamo inferire sulla popolazione. Tale operazione avviene aBraverso la s&ma

dei parametri di interesse (media o proporzione). L'operazione di s&ma si basa sulle informazioni

proveniente dall'unico campione disponibile.

Se potessimo disporre di tuE i possibili campioni di pari ampiezza n, oBerremmo un certo numero di s&me,

cioè la distribuzione campionaria delle s&me. Ciascuna s&ma ha una propria probabilità e l'insieme delle

s&me e delle corrisponden& probabilità cos&tuisce la distribuzione campionaria di una sta&s&ca.

Distribuzione campionaria della media campionaria

Ciascun campione ha la propria media y, i cui valori saranno ± grandi di u. Pertanto l'insieme delle medie e

delle corrisponden& probabilità cos&tuisce la distribuzione campionaria della media. L’l'ampiezza della

distribuzione campionaria della media, cioè il suo errore standard indicato da o.

La formula dell'errore standard (che è una misura di variabilità della distribuzione campionaria) è:

INTRODUZIONE ALL'INFERENZA: Cap.5 e Cap.

U&lizzare i da& campionari per s&mare i parametri della popolazione: per le variabili quan&ta&ve take parametro è la

media della popolazione.

Esistono due metodi di s&ma dei parametri:

  1. s/ma puntuale: singolo numero che rappresenta la migliore previsione del valore assunto dal parametro. Le

s&me puntuali della media della popolazione u , della deviazione standard σ e della proporzione pgreco sono i

valori campionari u-barrato, s e pgreco^.

  1. S/ma intervallare ( intervallo di confidenza ): intervallo di valori intorno alla s&ma puntuale, all'interno del

quale si ri&ene ricada il valore del parametro. Gli intervalli di confidenza per una media della popolazione μ

e per una proporzione della popolazione pgreco hanno la forma: s/ma puntuale +- margine di errore ; con

margine di errore = score x (se), dove se è l’errore standard s&mato.

Il termine s/matore si riferisce a un par&colare &po di sta&s&ca impiegato per s&mare un parametro (è una

variabile ).

Il termine s/ma (puntuale) indica il valore oBenuto applicando lo s&matore ad uno specifico campione (è la

modalità della variabile. s&matore realizzatasi in un determinato campione).

Un buon s&matore di un parametro ha una distribuzione campionaria che deve essere:

  1. centrata intorno al parametro ( corre&o )
  2. avere l'errore standard più piccolo possibile ( efficiente )
  3. Uno s/matore è corre&o se la sua distribuzione campionaria è centrata intorno al parametro. Ad esempio, se

il parametro è la media della popolazione μ e la media della distribuzione campionaria di coincide con μ,

allora y-barrato è uno s&matore correBo per la media della popolazione μ.

Per ciascun campione, la media campionaria può soBos&mare o sovras&mare μ, tuBavia, se si calcolasse

ripetutamente la media campionaria su campioni diversi le sovras&me tenderebbero a controbilanciare le

soBos&me.

Al contrario, uno s/matore distorto tende, in media, a soBos&mare o a sovras&mare il parametro.

  1. Un'altra proprietà desiderabile per uno s&matore è quella di possedere un errore standard rela&vamente

piccolo. Uno s&matore che ha un errore standard più piccolo di quello di altri s&matori (tuE devono essere

correE) è definito efficiente. Uno s&matore efficiente determina s&me del parametro più vicine al vero

valore, in media, rispeBo ad altri s&matori.

S/matori della media, della deviazione standard e della proporzione

È abbastanza comune, seppure non necessario, u&lizzare come s&matore una sta&s&ca che «corrisponda» al

parametro della popolazione.

Ad esempio: per s&mare una proporzione della popolazione, si adoBa la proporzione campionaria; per s&mare una

media della popolazione μ, si usa la media campionaria; per s&mare la deviazione standard della popolazione σ si

usa la deviazione standard campionaria s. Sono tuE e tre s&matori correE ed efficien&.

Il simbolo “^” posto sulla le)era che iden/fica il parametro è u&lizzato per rappresentare la s&ma di un parametro.

“^” è chiamato caret e viene leBo cappello. (Ad esempio, si legge mi-cappello. indica una s&ma della media della

popolazione μ).

L’intervallo di confidenza come s/ma puntuale ± un margine di errore

Per fornire realmente una correBa informazione, l'inferenza su un certo parametro dovrebbe basarsi non solo sulla

s&ma puntuale ma dovrebbe indicare, anche, quanto precisa sia la s/ma rispe)o al vero valore del parametro.

Le indicazioni sulla precisione della s&ma puntuale sono basate sull'ampiezza della s/ma intervallare di un

parametro. Poiché le s&me intervallari contengono il parametro con un certo livello di fiducia, essi vengono indica&

come intervalli di confidenza.

Un intervallo di confidenza per un parametro è un intervallo di valori entro cui si ri&ene ricada il valore di un

parametro. La probabilità associata al faBo che l'intervallo con&ene il parametro è denominata livello di

confidenza. Questo è un numero prossimo ad 1, come 0.95 o 0.99.

L'aspeBo cruciale nella costruzione di un intervallo di confidenza è insito nella distribuzione campionaria dello

s&matore puntuale. Per costruire un intervallo di confidenza, si aggiunge e si soBrae dalla s&ma puntuale qualche

mul&plo (uno z-score) del suo errore standard. Questo mul&plo dell'errore standard è il margine di errore.

Un intervallo di confidenza assume la forma:

s/ma puntuale ± margine di errore ovvero: s&ma puntuale ± z * errore standard

Per costruire un intervallo di confidenza che ha il “95% di confidenza” si prende la s&ma puntuale e si aggiunge e si

soBrae un margine di errore pari a 1.96 errori standard.

La proporzione campionaria e il suo errore standard

Intervallo di confidenza per una proporzione nel caso di grandi campioni

Poiché la proporzione campionaria è una media campionaria, trova applicazione il Teorema del Limite Centrale : Per

campioni casuali di ampiezza elevata, la distribuzione campionaria di è approssima&vamente normale intorno al

parametro π oggeBo di s&ma.

La distribuzione t presenta un'ampiezza leggermente diversa per ciascun differente valore dei gdl e si applicano,

quindi, differen& t-scores per ciascun valore dei gdl.

La distribuzione t presenta aree sulle code più grandi ed è più dispersa rispe&o alla distribuzione normale

standardizzata

Quanto più elevato è il valore dei gdl tanto più la distribuzione tenderà a rassomigliare a una normale standardizzata.

Un t-score mol&plicato per l'errore standard s&mato fornisce il margine di errore per un intervallo di confidenza per

la media.