Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Esercizi e Quiz - Prof. Raggi, Dispense di Statistica

Riassunti statistica Università di Bologna - prof. Raggi

Tipologia: Dispense

2019/2020

In vendita dal 12/09/2020

Sal.delellis
Sal.delellis 🇮🇹

4.7

(18)

18 documenti

1 / 22

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica descrittiva
In statistica per carattere si intende un insieme di caratteristiche rilevate su una o più unità statistiche
appartenenti ad una popolazione o ad un campione. Mentre con modalità si intende il modo in cui i
caratteri si manifestano nelle singole unità statistiche.
1. Frequenza assoluta (
ni
): corrisponde al numero di unità statistiche che presentano la modalità x i
del carattere X.
2. Frequenza relativa (fi = ni/N): consente di interpretare immediatamente la composizione del
collettivo rispetto al carattere.
3. Frequenza cumulata o retrocumulata (Ni o Ri): se il carattere ha natura almeno ordinale.
4. Frequenza assoluta congiunta (nij): il numero di unità statistiche che presentano
contemporaneamente la modalità xi e yi dei caratteri X e Y.
5. Frequenza relativa congiunta (nij/N): consente una lettura più immediata della distribuzione,
inoltre permette di effettuare confronti tra collettivi diversi, eliminando l’effetto dimensionale.
6. Distribuzione di X condizionata ad Y: fij|yj = nij/ n.j
7. Distribuzione di Y condizionata ad X: fij|xi = nij/ ni.
Indici di posizione
Medie lasche: singole modalità assunte dal carattere, che rivestono un ruolo preminente nella distribuzione
proprio per la particolare posizione occupata.
Medie analitiche: sono il risultato dell’elaborazione algebrica di tutte le modalità osservate, che quindi
devono essere necessariamente di tipo quantitativo.
1. Moda: modalità più ricorrente nella popolazione statistica. Può essere definita per qualsiasi tipo di
carattere. Nel caso delle classi dovrà essere presa in considerazione la densità di frequenza:
d
i
=n
i
i
2. Mediana: quella modalità del carattere che consente di suddividere la successione ordinata di
osservazioni in due gruppi uguali. Essa non è calcolabile per caratteri qualitativi sconnessi.
3. Percentile: fissato una quota q sul totale, con
0 q 1
, si definisce percentile di ordine q la
modalità Pq tale che
N Pq=Nq
4. Media aritmetica (
μ
): somma delle modalità osservate divisa per la numerosità complessiva.
5. Media aritmetica condizionata:
μ
xy
=1
n
. j
j=1
k
(x
i
n
ij
)
Indici di diversità
Eterogeneità: per qualsiasi tipo di carattere.
Dispersione: per variabili che abbiano almeno una natura ordinale.
Variabilità: per caratteri quantitativi.
Misure di eterogeneità
Omogeneità: tutte le unità statistiche presentano la stessa modalità e non vi è presenza di incertezza ( sulla
modalità che si presenta su una certa unità statistica). Massima eterogeneità: le unità statistiche sono equi-
ripartite e vi è massima incertezza.
Indice di Gini (
EG=1
i=1
k
fi
2
), con
: permette di comparare variabili qualitative.
Misure di variabilità
Con il termine variabilità si intende l’attitudine di un carattere quantitativo a manifestarsi con valori diversi
nelle unità statistiche che compongono il collettivo. Gli indici di variabilità possono quindi essere calcolati
unicamente per caratteri quantitativi.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Esercizi e Quiz - Prof. Raggi e più Dispense in PDF di Statistica solo su Docsity!

Statistica descrittiva

In statistica per carattere si intende un insieme di caratteristiche rilevate su una o più unità statistiche

appartenenti ad una popolazione o ad un campione. Mentre con modalità si intende il modo in cui i

caratteri si manifestano nelle singole unità statistiche.

  1. Frequenza assoluta ( n i

) : corrisponde al numero di unità statistiche che presentano la modalità xi

del carattere X.

  1. Frequenza relativa (f i

= n i

/N): consente di interpretare immediatamente la composizione del

collettivo rispetto al carattere.

  1. Frequenza cumulata o retrocumulata (N i

o R i

): se il carattere ha natura almeno ordinale.

  1. Frequenza assoluta congiunta (nij): il numero di unità statistiche che presentano

contemporaneamente la modalità xi e yi dei caratteri X e Y.

  1. Frequenza relativa congiunta (nij/N): consente una lettura più immediata della distribuzione,

inoltre permette di effettuare confronti tra collettivi diversi, eliminando l’effetto dimensionale.

  1. Distribuzione di X condizionata ad Y : fij|yj = nij/ n.j
  2. Distribuzione di Y condizionata ad X : fij|xi = nij/ ni.

Indici di posizione

Medie lasche: singole modalità assunte dal carattere, che rivestono un ruolo preminente nella distribuzione

proprio per la particolare posizione occupata.

Medie analitiche: sono il risultato dell’elaborazione algebrica di tutte le modalità osservate, che quindi

devono essere necessariamente di tipo quantitativo.

  1. Moda : modalità più ricorrente nella popolazione statistica. Può essere definita per qualsiasi tipo di

carattere. Nel caso delle classi dovrà essere presa in considerazione la densità di frequenza: (^) d i

n i

∆ i

  1. Mediana : quella modalità del carattere che consente di suddividere la successione ordinata di

osservazioni in due gruppi uguali. Essa non è calcolabile per caratteri qualitativi sconnessi.

  1. Percentile : fissato una quota q sul totale, con 0 ≤ q ≤ 1 , si definisce percentile di ordine q la

modalità Pq tale che N Pq = Nq

  1. Media aritmetica ( μ ): somma delle modalità osservate divisa per la numerosità complessiva.
  2. Media aritmetica condizionata: μ xy

n

. j

j = 1

k

( x i

n ij

Indici di diversità

Eterogeneità : per qualsiasi tipo di carattere.

Dispersione : per variabili che abbiano almeno una natura ordinale.

Variabilità : per caratteri quantitativi.

Misure di eterogeneità

Omogeneità : tutte le unità statistiche presentano la stessa modalità e non vi è presenza di incertezza ( sulla

modalità che si presenta su una certa unità statistica). Massima eterogeneità : le unità statistiche sono equi-

ripartite e vi è massima incertezza.

Indice di Gini ( E G

i = 1

k

f i

2

), con 0 ^ E G

k − 1

k

: permette di comparare variabili qualitative.

Misure di variabilità

Con il termine variabilità si intende l’attitudine di un carattere quantitativo a manifestarsi con valori diversi

nelle unità statistiche che compongono il collettivo. Gli indici di variabilità possono quindi essere calcolati

unicamente per caratteri quantitativi.

Campo di variazione ( C = MaxMin ): è una misura molto intuitiva della diversa variabilità. Tuttavia può

risentire eccessivamente della presenza di valori troppo grandi o troppo piccoli.

Scarto interquartile ( SI^ = Q 3

− Q

1

): è il modo per ovviare al difetto del campo di variazione. Anche lo scarto

interquartile però non è esente da problemi. Infatti, basandosi solo sulla parte centrale della distribuzione,

può accadere che risulti nullo anche se non si è in una situazione di assenza di variabilità.

Varianza: σ

2

=

N

u = 1

N

x u

μ

2

: La varianza fornisce una misura sintetica di quanto tutte le unità differiscono

dalla media aritmetica. Ne consegue che la si può esprimere anche come differenza tra la media quadratica

al quadrato e il quadrato della media aritmetica. La devianza invece si ottiene moltiplicando la varianza per

la numerosità N.

Scarto quadratico medio ( σ ): Ha il pregio di essere espresse nella stessa unità di misura del carattere,

anziché nel quadrato ed è quindi più facilmente interpretabile, anche in relazione al valore assunto dalla

media.

Proprietà della varianza (scarto quadratico medio e devianza)

  1. La varianza è sempre 0 e assume valore nullo solo in situazioni di assenza di variabilità.
  2. La varianza risente di eventuali cambiamenti di scala nei dati (moltiplicazione per un coefficiente

non nullo che viene moltiplicato al ^2) ma non di trasformazione di posizione (aggiunta di una

costante).

  1. Qualora sussista una classificazione delle unità statistiche in gruppi rispetto ad un altro carattere,

allora è possibile scomporre la varianza nella somma delle varianze calcolabili nei singoli gruppi e

della variabilità tra gruppi. Tale proprietà richiama la proprietà associativa della media ed ha un

ruolo rilevante nella valutazione del legame tra due caratteri.

4. Il valore massimo della varianza è: (^) σ

2

= μ

2

( (^) N − 1 ) (^).

5. La situazione di massima eterogeneità non corrisponde né al caso di massima dispersione né a

quello di massima variabilità. Quando la varianza è nulla invece si ha omogeneità ed equi-

ripartizione.

Indici di variabilità relativi

Tutte le misure di variabilità incontrate sinora hanno carattere assoluto, dipendono cioè dal contesto in cui

sono calcolate e non consentono comparazioni tra caratteri diversi o per uno stesso carattere su

popolazioni diverse. Per disporre di un indice di variabilità che consenta di effettuare correttamente

confronti è necessario svincolarsi dall’unità di misura originaria del carattere.

Coefficiente di variazione ( CV^ =^

σ

μ

, per μ > 0): permette di confrontare due fenomeni della stessa natura,

anche se presentano unità di misura diverse. Questo indice può assumere qualsiasi valore.

Concentrazione

Il concetto di concentrazione rientra nell’ambito della variabilità e riguarda i caratteri che, oltre ad essere

quantitativi, siano anche non negativi, additivi e trasferibili. L’additività si riferisce alla possibilità di

attribuire un significato logico all’intensità totale del carattere. La trasferibilità attiene, invece,

all’eventualità di spostare quantità di carattere tra unità statistiche. Misurare la concentrazione significa

valutare quantitativamente se la distribuzione del carattere soddisfa criteri di uguaglianza o disuguaglianza.

Sul diagramma di Lorentz la situazione di massima concentrazione è rappresentata dalla spezzata che

coincide con l’asse delle ascisse. La situazione di equi-distribuzione è rappresentata dalla bisettrice. Il

diagramma di Lorenz costituisce, inoltre, la base per la costruzione di una misura sintetica del grado di

concentrazione, come rapporto tra due particolari aree individuate all’interno di questo grafico. Si definisce

area di concentrazione, R c

, l’area compresa tra la retta di equi-ripartizione e la spezzata di concentrazione

può essere costruita basandosi sulla differenza tra frequenza effettivamente osservate ( n ij

) (^) e frequenze

teoriche (^) ( n ^ ij

n i.

n

. j

N

). Le differenze (

n ij

− ^ n ij

) prendono il nome di contingenze e una loro sintesi consente

di misurare l’allontanamento dalla situazione di indipendenza.

Indice di connessione ( X

2

i = 1

k

j = 1

h

n ij

n ^

ij )

2

n ^ ij

), max = Nmin ( k − 1 ; h − 1 ).

1. X

2

= 0 ^ corrisponde alla situazione di indipendenza statistica. Infatti se due caratteri sono

indipendenti, frequenza effettive e teoriche si equivalgono, le contingenze e le sommatorie

risultano tutte nulle. In questo caso c’è indipendenza statistica e in media del carattere quantitativo

da quello qualitativo. Inoltre anche η yx

2

e r^ xy

saranno uguali a zero.

2. X

2

0 ^ si può solo dire che tra i due caratteri c’è connessione, ma non valutare quanto elevata.

Inoltre si può passare ad una misura relativa dividendo l’indice per la numerosità complessiva. Il

rapporto può essere, inoltre, interpretato come media delle contingenze relative al quadrato

ponderate con le frequenze teoriche, rendendo più evidente la natura dell’indice come sintesi

complessiva delle contingenze.

Dipendenza in media

Se una distribuzione doppia contiene almeno un carattere quantitativo, la situazione di indipendenza

statistica implica anche una condizione di indipendenza in media. Le medie del carattere quantitativo

calcolate sulle distribuzioni condizionate risultano tutte uguali tra loro, qualsiasi sia la modalità assunta dal

carattere che condiziona. Deve essere subito osservato che non è sempre vero il contrario. Un carattere Y

(quantitativo) si dice indipendente in media da X (qualitativo o quantitativo) se le medie di Y condizionante

alle diverse modalità assunte dal carattere X risultano tutte uguali tra loro e uguali anche alla media

complessiva del carattere Y. Da quanto visto possiamo concludere che la condizione di indipendenza

statistica tra Y e X implica l’indipendenza in media di Y da X, non possiamo però stabilire il contrario. La

relazione di indipendenza in media non è una relazione simmetrica.

Un indicatore di quanto le medie condizionate di Y differiscano al variare delle modalità di X, può essere

ottenuto mediante la scomposizione della variabilità complessiva del carattere Y, espressa dalla sua

devianza, in due parti, dove la prima è una somma delle devianze condizionate (devianza entro - within) e

la seconda è una misura delle variabilità delle medie condizionate rispetto alla media generale (devianza

tra - between) : ( Dev^ y

= Dev w

  • Dev b

). Possono verificarsi due situazioni limite:

  1. Se il carattere Y è indipendente in media da X allora tutte le medie condizionate coincidono con la

media generale e, quindi, la devianza tra gruppi è nulla.

  1. Se ad ogni modalità di X corrisponde una e una sola modalità di Y (ovvero per ciascuna

distribuzione condizionata si hanno tutte frequenze nulle tranne una) allora siamo in presenza di

una dipendenza statistica perfetta di Y da X e la devianza entro i gruppi è nulla.

Rapporto di correlazione ( η^ yx

2

=

Dev b

Dev y

) con 0 < η yx

2

< 1 : Il rapporto di correlazione misura quanta parte

della variabilità complessiva del carattere Y è attribuibile alla diversità tra medie condizionate di Y. In

particolare: (^) η yx

2

= 0 corrisponde all’indipendenza in media del carattere Y da X e^ η yx

2

= 1 corrisponde alla

dipendenza statistica perfetta di Y a X.

Concordanza

Nel caso di caratteri entrambi quantitativi, l’analisi può spingersi oltre. A tal fine si valuta il segno dei

prodotti degli scarti dalla media per ciascuna coppia nella successione doppia di osservazioni. Se si riscontra

una prevalenza di segni positivi, vuol dire che a valori di X superiori alla media corrispondono per lo più

valori di Y anch’essi al di sopra della media (concordanza). Mentre se prevalgono i segni negativi è il

contrario (discordanza).

Covarianza ( σ xy

N

u = 1

N

x u

y u

μ x

μ y

): è una misura sintetica del grado di concordanza tra due caratteri

quantitativi. È calcolata come media aritmetica dei prodotti degli scarti delle due variabili dalle rispettive

medie. Si tratta di una misura di variabilità congiunta, che può assumere sia valori positivi che negativi. Si

avrà, inoltre, covarianza nulla qualora non sarà possibile individuare un segno prevalente nella relazione.

Inoltre avremo σ^ xy

= (^0) se i due caratteri sono fra loro statisticamente indipendenti. Viceversa, si osservi che

si può ottenere covarianza nulla anche se non sussiste una condizione di indipendenza statistica.

Coefficiente di correlazione lineare: r xy

σ xy

σ x

σ y

, con − 1 ≤ r xy

1 : la covarianza, che si è detto essere una

misura assoluta della relazione tra due caratteri quantitativi, può essere relativizzata dividendo per il valore

massimo che questo può assumere. In tal modo si ottiene un indice relativo indipendente dall’unità di

misura di entrambi i caratteri. I due valori estremi sono assunti nella particolare situazione in cui tutti i punti

risultano perfettamente allineati su una retta con pendenza positiva ( r^ xy

= (^1) ) o negativa ( r xy

=− (^1) ). In

generale si avranno valori positivi e negativi del coefficiente, più o meno vicini ai due valori limite a seconda

della forza della relazione lineare che lega i due caratteri. β 1

e r xy

hanno sempre lo stesso segno.

1. r^ xy

=− 1 : (^) dipendenza lineare perfetta. La retta di regressione riproduce esattamente i dati osservati.

  1. r^ xy

= 0 : (^) la retta di regressione è parallela all’asse delle ascisse.

Dipendenza in media e dipendenza lineare

La misura della direzione e della forza della relazione, fornita dal coefficiente di correlazione lineare ( r^ xy

),

pone entrambi i caratteri sullo stesso piano. In alcuni casi è, tuttavia, logico interpretare una delle due

variabili in funzione dell’altra. Inoltre, non è necessariamente una sola variabile ad influenzare il

comportamento della dipendente Y, ma possono concorrere più fattori. Nel caso di caratteri entrambi

quantitativi, possiamo pensare ad una funzione che associa a valori di X le medie condizionate di Y|X. Il

modo più semplice di procedere in questa direzione consiste nello scegliere una retta con funzione

approssimante. Si tratterà, allora, di determinare l’equazione della retta che descrive al meglio la relazione

tra i due caratteri.

Modello di regressione lineare semplice

Esso studia la dipendenza in media della variabile dipendente Y, dalla variabile indipendente X. È detta

“semplice” perché ha una sola variabile indipendente (X) e “lineare” perché studiamo la dipendenza in

media attraverso una retta, detta retta di regressione lineare. L’obiettivo della costruzione di un modello è

quello di fornire una rappresentazione semplificata della realtà che consenta di formulare interpretazioni e

previsioni relativamente alla relazione oggetto di studio. La relazione non è di tipo deterministico, ma

contiene, oltre all’equazione della retta, un termine di errore denotato come ∈ u

. Tale componente di

errore è una variabile che esprime l’effetto di fattori che influiscono sulla variabile dipendente. I coefficienti

della retta non sono ovviamente noti e devono essere determinati stabilendo un criterio di ottimalità della

rappresentazione. L’obiettivo da perseguire è la vicinanza della retta ai dati osservati.

Criterio dei minimi quadrati ordinari

Si procede minimizzando le differenze in verticale tra valori effettivi di ordinata e valori sulla retta

corrispondenti alle osservazioni x u

. Tali differenze vengono elevate al quadrato, eliminando in tal modo

differenze di segno. Si cercano quei valori di intercetta e coefficiente angolare che minimizzano la somma

dei quadrati degli errori, definiti come differenza tra valori effettivi della variabile dipendente e

corrispondenti valori teorici sulla retta ( ^ y u

). Si costruisce il sistema di equazioni uguagliando a zero le

derivate parziali della somma dei quadrati degli errori rispetto ai due coefficienti incogniti, per individuare

  1. L’intersezione tra due eventi, ossia A ∩ B (entrambi gli eventi si verificano).
  2. L’unione tra due eventi, ossia A ∪B (Almeno uno dei due si verifica).

Inoltre è bene definire:

Lo spazio campionario ( Ω ) è l’insieme di tutti i possibili eventi elementari ω i

. Avremo quindi che

E ⊃ Ω (inclusione).

L’evento impossibile è un evento che non si può mai verificare ( (^) A ∩

A = ∅ ).

L’evento certo invece è un evento che si verifica sempre ( = Ω ).

Eventi incompatibili se si verifica che A ∩ B = .

 Si può definire la relazione di inclusione a partire da quella di unione ( A ∪ B → B ⊂ A ).

Postulato 2: P ( A ) 0

Postulato 3: P ( Ω )= 1

Postulato 4: A ∩ B = ∅ → P ( A ∪ B )+ P ( B )

Esistono poi le seguenti proprietà:

1. B⊂ A → P ( B ) ≤ P ( A )

2. P (

A )= 1 − P ( A )

3. P ( B )= 1 → P ( B ∩ A )= P ( A )
4. P ( B )= 0 → P ( B ∪ A )= P ( A )

Definizione classica di probabilità

La probabilità è data dal rapporto tra il numero di casi favorevoli all’evento e il numero dei casi possibili

purché essi siano tutti ugualmente possibili. P^ (^ E )=^

n. di casi favorevoli

n. di casi possibili

.

Probabilità condizionate e indipendenza P ( AB )

In questa situazione abbiamo che P ( A | B )=

n. deicasi favorevoli ad ( A ∩ B )

n. deicasi favorevoli a B

ossia P ( A | B )=

P ( A ∩ B )
P ( B )

,

con P ( B )> 0. Due eventi saranno indipendenti se P ( A | B )= P ( A ) e viceversa, oppure

P ( A ∩B )= P ( A )∗ P ( B ).

Il teorema di Bayes

Supponiamo di sapere che in una data popolazione il 10% degli individui è affetto da una determinata

patologia. Per diagnosticare la presenza della patologia si deve effettuare un test ematico. È noto tuttavia

che il test risulta negativo anche per il 10% dei malati (falsi negativi), mentre risulta positivo nel 20% dei

sani (falso positivo). Se un individuo risulta positivo al test, qual è la probabilità che esso sia effettivamente

malato? Elenchiamo gli eventi:

  1. A 1 : l’individuo è malato. Probabilità di estrarre un individuo malato della popolazione: 0,1.
  2. A 2 : l’individuo è sano. Probabilità di estrarre un individuo sano della popolazione: 0,9.
  3. B 1 : il test è negativo. Probabilità che il test dia un falso positivo: 0,
  4. B 2 : il test è positivo. Probabilità che il test dia un falso negativo: 0,

5. Dobbiamo quindi trovare P^ ( A

1 |

B

2

Teorema di Bayes : dato un insieme esclusivo ed esaustivo di eventi: A1, A 2 , …, Ak e un evento B, si ha:

P ( A

i

| B^ ¿= P^ ( A i

)∗ P^ (^ B |^ A

i

P ( A

1

)∗ P (^ B |^ A

1

+ P ( A

2

)∗ P ( B | A

2

¿+...+ P ( A

k

)∗ P^ (^ B |^ A

k

, con i=1, 2, …,

K

  1. Le probabilità degli eventi A i

, (^) vengono denominate probabilità a priori.

2. Le probabilità condizionate P^ (^ B |^ A

i

¿ (^) sono dette anche verosimiglianze degli A i

3. Le probabilità condizionate P^ ( A

i |

B ¿, vengono chiamate probabilità a posteriori , in quanto si

riferiscono agli eventi A i

, dopo aver osservato l’evento B.

  1. Il teorema di Bayes presenta particolare interesse quando gli eventi A i

possono essere considerati

come le possibili cause dell’evento osservato B. In tal caso le probabilità a posteriori indicano la

probabilità delle diverse cause, data l’osservazione dell’evento B.

Ritornando all’esempio di prima si ottiene che:

P ( A

1

| B 2

¿= P ( A

1

)∗ P^ ( B

2

| A 1

P ( A

1

)∗ P^ ( B

2

| A 1

+ P ( A

2

)∗ P ( B

2

| A 2

. Considerando che

P
B

2 |^

A

1

¿= 1 − P
B

1 |^

A

1

¿=0,9, si ricava che: P

( A

1

| B 2

Concezione frequentista

Essa si basa sulla ripetibilità della prova. In effetti, dato una qualsiasi prova, possiamo sempre immaginare

di poterla ripetere infinite volte. Naturalmente, la ripetibilità della prova implica che tutte le condizioni

nelle quali viene svolta la prova si mantengono inalterate. La concezione frequentista si basa sul cosiddetto

Principio del Campionamento Ripetuto ”. La sostanza di tale principio consiste nella costruzione di

procedure inferenziali che posseggono proprietà ottimali a lungo andare.

Concezione soggettivista

La probabilità di un evento è la misura del grado di fiducia che un individuo coerente attribuisce al

verificarsi dell’evento in base alle informazioni in suo possesso. In base al paradigma della scommessa la

P(E), è il prezzo p che egli stima equo attribuire ad un importo unitario esigibile solo al verificarsi di E. Si noti

che la condizione di equità nella suddetta definizione vuol dire che l’individuo in questione è disposto

indifferentemente sia a pagare il prezzo p che a ricevere 1 e sia a ricevere p e pagare 1, solo se si verifica E.

L’approccio inferenziale è basato su di una concezione soggettivistica della probabilità detto Bayesiano.

Esso costituisce un’alternativa all’approccio frequentista e in alcune situazioni porta a risultati differenti da

quest’ultimo, pur in presenza degli stessi dati statistici. Ciò è dovuto essenzialmente al fatto che esso

utilizza un’informazione che l’approccio frequentista non usa: la probabilità a priori. Sebbene l’utilizzo di

tale probabilità, ove effettivamente disponibile, sia unanimamente accettato, è molto più controverso il

problema dell’uso di probabilità a priori nel caso più comune in cui queste informazioni non siano

disponibili o siano frutto di valutazioni soggettive.

Variabili casuali (o aleatorie)

È molto scomodo trattare direttamente gli eventi e la trattazione diventa più semplice ed efficace se

associamo delle quantità numeriche agli eventi. L’introduzione del concetto di v. c. permette di tener conto

proprio di quest’esigenza. Una v. c. X è una funzione definita sullo spazio campionario Ω che associa ogni

risultato elementare ω i

un unico numero reale. È inoltre opportuno distinguere tra v. c. discrete e continue.

Una v. c. discreta può assumere un insieme discreto di numeri reali, mentre una continua può assumere

tutti i valori compresi in un intervallo. Se Ω è discreto, anche la v.c. sarà discreta, mentre se Ω è continuo,

la v.c. può essere continua o discreta.

Variabili causali discrete

In generale indicheremo con P(X=xi) la probabilità che la v. c. X assuma il valore xi. In alcune situazioni,

potremmo anche essere interessati alla probabilità che essa assuma un valore minore uguale a un dato

valore xi. In tal caso si devono considerare delle probabilità accumulate P (^ X^ ^ xi ). Data una v. c. discreta X,

la funzione che fa corrispondere ai valori x le probabilità cumulate P ( X ≤ x i

), viene detta funzione di

ripartizione.

2. V ( X )=

[ xE^ (^ X^ )^ ]

2

f ( x ) dx , per v. c. continue

Varianza e deviazione standard di una v. c. discreta

Si consideri la distribuzione di probabilità connessa all’estrazione di una famiglia da un collettivo di 100

famiglie di osservazione del numero di figli presenti. Supponiamo che sia: zero figli  Probabilità: 0,2. Un

figlio  Probabilità: 0,35. Due figli  Probabilità: 0,25. Tre figli  Probabilità: 0,12. Quattro figli 

Probabilità: 0,06. Cinque figli  Probabilità: 0,

Il valore atteso E(X) = 00,2+10,35+20,25+30,12+40,06+50,02 = 1,

Media delle x

2 : E(X

2 ) = 0

2 *0,2+

2 *0,35+

2 *0,25+

2 *0,12+

2 *0,06+

2 *0,02 = 3,

Quindi la Var = 3,89 – 1,

2

= 1,

Distribuzioni di probabilità per v. c. discrete

Distribuzione uniforme discreta

Una v. c. Uniforme discreta è una v. c. molto semplice che può assumere valori interi in un dato intervallo,

tutti con la stessa probabilità. Essa è indicata con X U d

( n ). La funzione di probabilità uniforme è definita

come: P^ (^ x^ )=^

n

. La media è data da: E ( X ) =

n + 1

e la varianza è data da (^) V ( (^) X )=

n

2

− 1

Distribuzione di Bernoulli

Consideriamo una prova nella quale interessa solo verificare se un certo evento si è verificato o meno. La v.

c. generata da tale prova assumerà il valore 1 se l’evento si è verificato e il valore 0 in caso contrario. Essa è

indicata con X Bernoulli ( p ). La sua funzione di probabilità può essere espressa come:

P ( X = x ) = p

x

( 1 − p )

1 − x

, per x =0, 1. La media sarà uguale a E ( X ) = p e la varianza sarà uguale a

V ( X )= p ( 1 − p ).

Distribuzione Binomiale

La distribuzione Binomiale può essere ottenuta considerando la somma di più Bernoulli. In altre parole, la v.

c. X rappresenta il numero di successi in n prove indipendenti ripetute nelle stesse condizioni.

Consideriamo una prova che può avere solo successo e insuccesso. Chiamiamo inoltre p la probabilità di

successo in una prova. Supponiamo ora di effettuare n prove, indipendenti le une dalle altre e nelle stesse

condizioni. Chiamiamo X 1 il risultato della prima prova, fino a Xn. Poiché ogni Xi può assumere valore 0

oppure il valore 1, è chiaro che la v. c. somma di X corrisponde al numero di X i

uguali a 1.

Esempio

Tre donne sono incinte e ciascuna di loro aspetta un solo bambino. Supponiamo che la probabilità che

nasca un maschio sia 0,503. Abbiamo quindi tre v. c. di Bernoulli indipendenti, tutte del tipo X (^) i=1 (nasce un

maschio) e Xi=0 (nasce una femmina). Complessivamente, il numero di maschi che partoriranno le tre

donne può essere definito dalla v. c. somma X = X 1 + X 2 + X 3. Le tre v. c. hanno anche la stessa funzione di

probabilità: P(Xi=1)=0,503 e P(Xi=0)=1-0,503=0,497. Per cui la v. c. somma ha una distribuzione Binomiale con

parametri n = 3 e p =0,503.

Dunque:

P (^ X = 3 )= P ( X

1

+ X

2

+ X

= P ( X

1

=1, X

2

=1, X

3

= 1 )= P ( X

1

= 1 ) P ( X

2

= 1 ) P ( X

3

3

=0,127.

Una v.c. Binomiale, indicata con X Binomiale ( n , p ) , rappresenta il numero di successi che si presentano

in una sequenza di n sotto-prove Bernoulliane indipendenti nelle quali è costante la probabilità di successo

p. La funzione di probabilità Binomiale è definita come:

P ( X )=

(

n

x

)

p

x

( 1 − p )

nx

. La media sarà uguale a

E ( X ) = np e la varianza sarà uguale a V ( X )= np ( 1 − p ).

Proprietà della distribuzione Binomiale

  1. Il valore atteso e la varianza crescono al crescere di n.
  2. La distribuzione è simmetrica per p =0,5, rispetto al proprio valore atteso che diviene pari a n /2.
  3. La distribuzione tende in ogni caso a essere simmetrica rispetto al valore medio per n → + ∞.

Distribuzione Ipergeometrica

La v. c. Ipergeometrica è del tutto simile allo schema binomiale con la differenza che l’estrazione casuale

avviene senza ripetizione, quindi il risultato di ciascuna prova condiziona il risultato della prova successiva.

Ad esempio, si consideri l’estrazione senza ripetizione da un’urna in cui: n è il numero di estrazione (prove),

n 1 è il numero di palline bianche, n 2 è il numero di quelle non bianche. Il successo in ciascuna prova si

ottiene se la pallina estratta è bianca, quindi la probabilità iniziale di successo è (^) p =

n 1

n 1 + n 2

. La probabilità

di ottenere x successi segue una distribuzione Ipergeometrica: P (^ X = x )^ =

(

n 1

x

)(

n 2

nx

)

(

n 1 + n 2

n

)

. Inoltre essa ha:

  1. Valore atteso E ( X ) = np
  2. Varianza V^ (^ X^ )= np (^1 −^ p )^

n 1 + n 2 − n

n 1 + n 2 − 1

Distribuzione di Poisson

La v. c. di Poisson si presta bene a rappresentare il numero di eventi che si possono presentare in un

periodo di tempo fissato. La v. c. di Poisson può essere adatta anche quando vi è un problema di conteggio

legato a un ambito spaziale piuttosto che temporale come, per esempio, il numero di cetacei presenti in un

tratto di mare. Una v. c. di Poisson, indicata con X Poisson ( λ ), è una v. c. discreta che può assumere

qualsiasi valore intero x ≥ 0. La distribuzione di probabilità di Poisson è data da:

P ( x )=

( λ ¿ ¿ x )

x!

e

λ

, con 0 < λ <+ ¿. La media sarà uguale alla varianza: E ( X ) = V ( X )= λ.

Esempio: Siamo interessati a studiare la frequenza delle chiamate ad un centralino telefonico. Focalizziamo

la nostra attenzione sul numero di chiamate ricevute in un dato periodo di tempo. La v. c. X di interesse

sarà quindi “numero di chiamate ricevute” nel periodo di tempo fissato, ossia una v. c. discreta che può

assumere i valori 0, 1, 2 ecc. Se tale v. c. ha una funzione di probabilità di Poisson (2), si ha per esempio:

P ( 0 )=

e

− 2

=0,1353, ¿ossia la probabilità di non avere chiamate.

Postulati di Poisson

Sia X una v. c. discreta che rappresenta il numero di realizzazioni di un evento aleatorio in un dato intervallo

di tempo. Se siamo in grado di suddividere tale intervallo in tanti sotto-intervalli per i quali valgano le

seguenti condizioni:

  1. La probabilità di osservare esattamente un successo nel sotto-intervallo è costante.
  2. La probabilità di osservare più di un successo nel suo sotto-intervallo è pari a 0.

Il verificarsi di un successo in un sotto-intervallo è stat. indip. dal verificarsi del successo in un altro sotto-

int. Una somma di v. c. di Poisson indipendenti è ancora una v. c. di Poisson. Inoltre, la v. c. Binomiale, al

crescere di n e al diminuire di p , così da mantenere np costante, tende a una v. c. di Poisson con parametro

λ =¿ np.

Distribuzioni di probabilità per v. c. continue

Distribuzione Uniforme continua

Una v. c. Uniforme continua X, indicata con X U ( a ; b ) , è una v. c. che assume valori reali in un intervallo

limitato [ a ; b ] con a e b numeri reali. La funzione di densità Uniforme è definita come:

La v. c. F di Fisher, indicata con X^ Fisher ( g 1

; g 2

), può assumere valori su tutto l’asse reale positivo, con

funzione di densità: f ( x )=

v 1

v 1

2

v 2

v 2

2

Γ

v 1

v 2

2

v 1

Γ ( v 2

x

v 1

2

− 1

( v

1

x + v 2

( v 1 + v 2 )/ 2

, con x ≥ 0

. La media e la varianza sono

definite rispettivamente per g 2

(^3) e g 2

≥ 5 : E ( X ) =

v 2

v 2

e V^ (^ X^ )=^

2 v 2

2

( v 1 +^ v 2 −^2 )

v 1

( v

2

2

( v 2

Teorema del limite centrale

È di notevole importanza analizzare la convergenza di una successione di v. c. Esistono in realtà diverse

forme di convergenza e, tra queste, una delle più utili è la convergenza in distribuzione, che mette in

relazione la funzione di ripartizione Fn(x) delle v. c. della successione con la funzione di ripartizione F(x) di

una v. c. X. Una successione di v. c. converge in distribuzione a una v. c. X se, per tutti i punti in cui F(x) è

continua, si ha

lim

n → +

F

n

( x ) = F ( x ). La convergenza in distribuzione è alla base del Teorema del limite

centrale.

Teorema : siano X 1

, X 2

ecc… v. c. indipendenti e identicamente distribuite, con media e varianza finite, posto

^ μ n

n

i = 1

n

X

i

, si ha che Z n

( ^ μ

n

μ ) √ n

σ

converge in una distribuzione, per n → + , alla v. c. Normale

standardizzata. Tuttavia per un valore finito di n sufficientemente grande, si può assumere con buona

approssimazione che la v. c. ^ μ n

tende a distribuirsi come una v. c. (^) N ( μ ,

σ

2

n

). Il teorema si può riformulare

considerando la somma di n v. c.: S n

i = 1

n

X

i

. In questo caso si ha che:

1. E

( S

n

i = 1

n

E ( X

i

) = nμ

2. Var ( S

n

i = 1

n

Var ( X

i

)= n^ σ

2

Questo teorema implica che per una numerosità campionaria sufficientemente elevata, le medie

campionarie tendono a concentrarsi intorno alla media della popolazione, mentre la varianza delle medie

campionarie tende a 0.

Campionamento, popolazione e parametri della popolazione

Il primo passo dell’indagine consiste nel definire la popolazione d’interesse, il successivo nell’acquisire i dati

rilevanti ai fini dell’indagine e l’ultimo nell’analizzare tali dati mediante appropriate tecniche statistiche. In

generale, si prende in esame un campione, che viene estratto dalla popolazione seguendo alcune regole

probabilistiche. Dato un carattere X osservato su tutta la popolazione, si possono calcolare i parametri di

quest’ultima, ossia delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella

popolazione. I due principali parametri utilizzati per descrivere una popolazione sono media e varianza.

Il campionamento da popolazioni finite

Nel caso in cui N fosse molto grande, lo studio di popolazioni finite può essere ricondotto a quello delle

popolazioni infinite. Una popolazione finita può essere studiata in modo esaustivo enumerando e

osservando tutte le unità statistiche che la compongono. Tale procedura è stata già introdotta con il nome

di censimento e consiste nell’osservare il valore assunto dal carattere d’interesse X in ciascuna delle N

unità. Questa procedura presenta però limitazioni dovute a costi, tempi di esecuzione e precisione. Il

rapporto tra la dimensione campionaria n e quella della popolazione N viene chiamato frazione di

campionamento. Esiste poi il cosiddetto errore campionario , attribuibile al fatto che ogni conclusione

riguardante la popolazione è basata in realtà solo sull’osservazione di un suo sottoinsieme.

Campionamento casuale semplice

Nel campionamento casuale semplice i campioni di uguale dimensione hanno tutti la stessa probabilità di

essere estratti. La procedura di selezione delle unità pone però alcuni problemi:

  1. Si devono conoscere a priori tutte le unità che compongono la popolazione ed esse devono essere reperibili.
  2. Si deve procedere all’estrazione casuale delle unità.

Per estrarre i numeri in modo casuale ci si può avvalere delle tavole dei numeri casuali. L’estrazione delle

unità può essere eseguita con ripetizione o senza. Nel campionamento casuale semplice senza ripetizione il

numero di campioni ordinati diversi di dimensione π estraibili da una popolazione finita di numerosità N è

dato da:

N!

( Nn )!

. Se consideriamo i campioni non ordinati, il loro numero è uguale a:

N!

n! ( Nn )!

. In

generale, il piano di campionamento casuale semplice senza ripetizione da una popolazione di N unità si

basa su n successive:

  1. Estrazioni casuali di un’unità tra le N presenti nella popolazione. Ogni unità ha probabilità 1/N di essere estratta.
  2. Estrazioni casuali di un’unità tra le N – 1 unità rimaste, ognuna con probabilità 1/(N – 1) di essere estratte.
  3. Estrazioni casuali di un’unità tra le N – (n – 1) unità rimaste, ognuna con probabilità 1/(N – n+1) di essere estratta.

Inferenza Statistica - Capitolo 10 Raggi

Nella statistica descrittiva i dati elementari elaborati sull’intera popolazione sono elaborati, con un

procedimento di tipo deduttivo, per ottenere indicatori sintetici. Limitandosi ad osservare un campione

possono essere derivate, in maniera analoga, misure di sintesi specifiche per un campione, che prendono il

nome di statistiche campionarie. Le modalità di selezione del campione sono di fondamentale importanza

per rendere possibile il processo inferenziale e tenere sotto controllo l’errore dovuto al campionamento,

che tuttavia rimane ineliminabile.

Per poter inferire dai dati campionari risultati attendibili per l’intero collettivo è necessario tutelarsi da

potenziali distorsioni garantendo un meccanismo di selezione casuale del campione. Un modo intuitivo di

selezionare le unità campionarie casualmente consiste nel predisporre un meccanismo che assicuri a

ciascuna unità la stessa possibilità di entrare a far parte del campione. Il meccanismo più semplice che

soddisfa tale condizione è assimilabile all’estrazione di un certo numero di palline di un’urna, reinserendo

di volta in volta la pallina estratta. L’universo dei campioni è l’insieme dei campioni della stessa numerosità

che possono essere estratti dalla popolazione una volta stabilito il criterio di campionamento.

Errori campionari e non campionari

Il termine di errore dovuto al meccanismo di selezione casuale prende il nome di errore campionario ed è

ineliminabile. Errori dovuti al meccanismo di campionamento rientrano, invece, nella classe degli errori non

campionari e possono sussistere sia nelle rilevazioni totali che parziali. Le fonti di errore non campionario

possono essere diverse e riguardare varie fasi dell’indagine:

  1. Errori nella codifica numerica delle informazioni o nell’immissione dei dati su supporto informatico.
  2. Errori materiali avvenuti in sede di rilevazione.
  3. Errori del rispondente.

Distribuzione campionaria della media

La media ^ μ è sempre uguale a μ. Questa proprietà prende il nome di correttezza o non distorsione. La

variabilità campionaria ^ μ dipende direttamente dalla σ

2 nella popolazione e inversamente da n. Ciò

significa che è possibile ridurre la variabilità campionaria ^ μ attorno al vero valore di μ aumentando la

dimensione n e quindi migliorando la precisione di ^ μ come approssimazione di μ. Tale prerogativa è

generale e non limitata all’esempio e si caratterizza come proprietà di consistenza di una statistica

campionaria corretta nell’approssimare un parametro che caratterizza il collettivo. Più in generale, una

statistica campionaria t si dice consistente per la stima di un parametro incognito se, all’aumentare di n, la

probabilità che la statistica campionaria differisca dal corrispondente parametro nella popolazione tende ad

annullarsi.

Distribuzione normale e varianza nota

Per un livello di confidenza prefissato, si vogliono determinare due valori v 1 e v 2 tali che la media

campionaria vi risulti compresa con frequenza relativa, e quindi probabilità, pari a ( 1 − α ). Passando alla

corrispondente quantità standardizzata, l’affermazione di probabilità può essere riformulata in modo

equivalente standardizzando anche i due estremi dell’intervallo. Sulle tavole della normale standardizzata

sono infiniti valori z 1

e z 2

che determinano un intervallo con area sottesa alla curva pari a ( 1 − α ): conviene

scegliere un intervallo simmetrico rispetto all’origine, vale a dire determinare quell’unico valore z tale che

tra -z e z sia compresa sotto la curva un’area pari al livello di confidenza prefissato.

Il livello di confidenza assicura che nell’( 1 − α )% dei potenziali campioni estraibili, l’intervallo includerà il

valore di μ , ma non fornirà alcuna garanzia sul fatto che l’intervallo calcolato sulla base dell’unico campione

di n unità effettivamente selezionato contenga davvero il valore incognito della media nella popolazione.

Rimane l’incertezza dovuta alla casualità del meccanismo di selezione del campione. Il campione

effettivamente estratto potrà far parte del 95% dei casi in cui l’intervallo comprende il vero valore oppure

dello sfortunato 5% in cui ciò non si verifica. Un ulteriore considerazione deve essere fatta relativamente

alla scelta di un intervallo simmetrico, tra gli infiniti possibili che garantiscono uno stesso livello di

confidenza ( 1 − α ). Quindi la scelta dei due valori -z e z soddisfa un criterio di maggior contenuto

informativo a parità di livello di confidenza.

Distribuzione normale e varianza incognita

Nel caso di varianza non nota, allora nella standardizzazione della media campionaria, (^) σ

2

deve essere

sostituito da una sua stima (^ s

2

). La distribuzione della media campionaria così standardizzata, tuttavia, non

ha più le caratteristiche della curva normale, ma può essere ben descritta dalla distribuzione t di Student

con n – 1 gradi di libertà. Si osservi che, a parità di livello di confidenza, e supponendo che s abbia lo stesso

valore per (^) σ

2

e per ^ s

2

, l’intervallo ottenuto con la varianza stimata è più ampio di quello derivabili

nell’ipotesi di varianza nota. Ciò è dovuto al fatto che nella funzione t di Student, i valori che determinano

un intervallo simmetrico centrato sullo zero con aria pari a ( 1 − α ) sono esterni ai corrispondenti valori per

la normale standardizzata, dato che le code della prima sono più alte. L’aver inserito nella procedura di

stima un ulteriore elemento di incertezza determina un intervallo più ampio, e quindi meno informativo.

Nessuna ipotesi sulla forma distribuzionale

Se non si dispone di alcuna informazione sulla distribuzione del carattere nella popolazione, è ancora

possibile costruire un intervallo di confidenza per il parametro. Per una qualsiasi statistica campionaria t, di

cui siano note media e varianza, è possibile affermare che: Pr^ (^ μ t

k σ t

≤t ( x 1

, … , x n

) ≤ μ t

  • k σ t

k

2

( disuguaglianza di Cebicev ). È possibile che la probabilità che l’intervento casuale contenga il vero valore

sia anche molto più grande di quanto posto nella disuguaglianza. Tuttavia non conoscendo la forma della

distribuzione ciò non può essere stabilito.

Intervallo di confidenza per la proporzione

Nell’ipotesi di lavorare con campioni sufficientemente numerosi, l’affermazione di probabilità sulla

proporzione campionaria consente di derivare gli estremi dell’intervallo sulla base della distribuzione

normale standardizzata. Se si vuole risolvere la disuguaglianza rispetto al parametro incognito, ci si trova, in

questo caso, di fronte alla soluzione di una disequazione di secondo grado, dato che a denominatore

compare il parametro p sotto radice quadrata. La soluzione può essere semplificata tenendo conto che per

n elevato la proporzione campionaria è uno stimatore consistente di p e quindi può tranquillamente essere

sostituito al valore incognito nell’espressione a denominatore. Un esempio tipico riguarda le proiezioni

elettorali.

Intervallo di confidenza per la varianza

Qualora l’obiettivo della stima sia una misura di variabilità, è possibile derivare un intervallo di confidenza

per la varianza sulla base della distribuzione di una trasformazione della (^) ^ s

2

. Si ricordi che la distribuzione (^) χ

2

, diversamente dalla normale e dalla t di Student, non ha natura unimodale e simmetrica, per cui in questo

caso non c’è una particolare ragione per privilegiare un intervallo che escluda le code della distribuzione.

Tuttavia, convenzionalmente, si scelgono i due valori che lasciano alla loro destra rispettivamente aree pari

a ( 1 − α / 2 ) e α / 2 ossia α / 2 su ciascuna coda.

Stima del modello di regressione lineare semplice

Fare inferenze sul modello di regressione significa andare ad analizzare i legami di dipendenza lineare tra

due caratteri quantitativi utilizzando un campione, per poi generalizzare i risultati ottenuti all’universo di

riferimento. La derivazione degli stimatori migliori per i parametri del modello segue i criteri di ottimalità,

vale a dire si individuano i valori di intercetta e coefficiente angolare della retta che minimizzano la somma

dei quadrati degli errori, definiti come differenza tra valori effettivi della variabile dipendente e i

corrispondenti valori teorici sulla retta. Si conviene di utilizzare per gli stimatori dei parametri del modello

la notazione

^

b 0

e

^

b 1

anziché

^
B

0

e

^
B

1

, per sottolineare il fatto che si sta lavorando su dati campionari anziché

dati osservati nella popolazione.

Gli stimatori

^

b 0

e

^

b 1

assumeranno valori diversi indipendentemente dal campione casuale effettivamente

estratto. Anche per

^

b 0

e

^

b 1

è, quindi, possibile derivare la distribuzione campionaria che li caratterizza. Si

concentri l’attenzione anche sul coefficiente angolare, per la sua maggiore rilevanza dal punto di vista

interpretativo (misura l’impatto, negativo o positivo, della variabile esplicativa sulla dipendente). Per la

derivazione dei risultati sulla distribuzione di

^

b 1

sono necessarie alcune ipotesi di comportamento sulla

componente di errore ∈ u

:

  1. Ipotesi 1: La componente di errore deve essere tale da compensare in media deviazioni positive o negative della retta: μ ∈u
  1. Ipotesi 2: non deve sussistere alcun legame tra componente di errore per unità campionaria diverse: u

e ∈ v

devono essere

indipendenti per (^) u ≠ v e quindi anche r ∈u , ∈v

  1. Ipotesi 3: la variabilità della componente di errore deve mantenersi costante su unità statistiche diverse: σ ∈u

2

= σ ∈

2

, ∀ u.

  1. Ipotesi 4: la distribuzione della componente di errore deve essere ben descritta dalla curva normale.

Le prime tre ipotesi corrispondono alle considerazioni fatte per il modello di regressione in ambito

descrittivo. L’ultima ipotesi consente di determinare la forma della distribuzione campionaria di

^

b 1

, che

tuttavia può essere comunque approssimata con la normale per dimensioni campionarie sufficientemente

elevate. Lo stimatore

^

b 1

soddisfa la proprietà di correttezza, in quanto la sua media risulta pari al

coefficiente incognito nella popolazione. Si ricordi che i coefficienti di regressione così ottenuti sono delle

stime puntuali dei corrispondenti parametri incogniti

^
B

0

e

^
B

1

Intervallo di confidenza per

^
B

1

Per la derivazione di un intervallo di confidenza per

^
B

1

, si procede individuando, una volta fissati livello di

confidenza, una coppia di valori tale che: Pr (^) ( v 1

^

b 1

≤ v 2

)=^1 − α. Lo stimatore standardizzato utilizzando

σ^ ^ ^ b 1

al posto di

σ ^ b 1

non ha più una distribuzione normale standardizzata ma risulta ben approssimato da una

funzione t di Student con (n – 2) gradi di libertà. Il valore di

^
B

1

= 0 significa assenza di impatto della variabile

esplicativa sulla dipendente. Lo studio dei residui di stima

^

u

, inoltre, fornisce ulteriori elementi per

valutare la bontà del modello e la sua capacità di rappresentare il fenomeno di interesse.

Verifica di ipotesi statistica – capitolo 12

La verifica di ipotesi consiste nella valutazione della plausibilità di una certa assunzione, relativa alla

popolazione statistica di riferimento, sulla base dell’evidenza fornita da un campione di osservazioni.

Cambia il punto di vista e l’obiettivo specifico rispetto alla stima, anche se il fine generale è sempre quello di

acquisire maggior conoscenza su una o più caratteristiche del fenomeno oggetto di studio nella

popolazione. I problemi empirici che suggeriscono il ricorso alla verifica di ipotesi possono essere di vario

genere, in ogni caso il fine è quello di trarre conclusioni affidabili sulla veridicità o meno di una determinata

assunzione. Le conclusioni che si traggono non hanno garanzia di certezza e sono sempre soggette

distribuzione un’area pari a α / 2_._ Sicuramente più realistico è il caso in cui anche la varianza del carattere

nella popolazione è incognito: per standardizzare la statistica test si dovrà sostituire a σ una sua stima (^ s

2

).

La statistica test che si ottiene mediante questo tipo di standardizzazione non ha più distribuzione normale

ma, in virtù dell’ulteriore elemento di incertezza inserito, ha un comportamento che risulta ben descritto

dal modello t di Student con (n – 1) gradi di libertà. Infine è utile richiamare l’attenzione su alcune

considerazioni:

  1. Quanto detto può essere facilmente esteso al caso di ipotesi alternativa unilaterale (destra o

sinistra).

  1. Per valori di α superiori al 5% la zona di accettazione si riduce (maggior tendenza a rifiutare

l’ipotesi), mentre per valori inferiori si avrà una tendenza ad accettare maggiormente.

  1. A parità di α , i valori critici individuati dalla distribuzione t sono più grandi in valore assoluto,

determinando una zona di accettazione più ampia. È quindi necessaria un’evidenza campionaria più

forte per poter rifiutare l’ipotesi nulla.

  1. Per campioni sufficientemente elevati è possibile utilizzare le tavole della normale standardizzata

anche nel caso di varianza incognita. Si ricordi infatti che all’aumentare del numero di gradi di

libertà la funzione t tende alla normale.

Test sulla proporzione

Per semplicità si considera il solo caso di campioni numerosi, per i quali sappiamo già che la distribuzione

della proporzione campionaria può essere approssimata dalla Normale con media p e varianza

p ( 1 − p )

n

.

Per piccoli campioni il problema risulta complicato dal fatto di dover utilizzare la distribuzione binomiale

relativa, che, peraltro, assume valori su un insieme discreto di punti anziché nel continuo e necessita di

modifiche alla procedura di test. La statistica test, opportunamente standardizzata sotto l’ipotesi nulla

H

0

: p = p 0

, è la seguente:

^ pp 0

p 0

( 1 − p 0

n

N (0,1)

, con distribuzione normale standardizzata per n

sufficientemente grande.

Test sulla varianza

La variabilità di un carattere può essere essa stessa oggetto di inferenza, in particolare è auspicabile

disporre di un test per sottoporre a verifica la varianza di un carattere quantitativo. La statistica test è anche

in questo caso ottenuta ricorrendo ad una trasformazione di (^) ^ s

2 che, come per il caso della media, risulta

completamente determinata sotto l’ipotesi nulla e abbia una forma approssimabile da:

( n − 1 ) ^ s

2

σ 0

2

χ n − 1

2

. Il

modello di riferimento è la distribuzione χ n − 1

2

. Si osservi che, trattandosi di una distribuzione asimmetrica,

nel caso di test bidirezionale, i valori critici devono essere ricavati separatamente per le due code.

Due popolazioni, un carattere

Si parla di campioni dipendenti quando le unità statistiche nei due campioni coincidono, oppure le unità del

primo campione sono legate alle unità dell’altro in base ad alcune caratteristiche. In situazioni sperimentali,

la natura dipendente o indipendente dei campioni sottoposti a verifica dipende dal modo in cui

l’esperimento viene pianificato. Se invece la selezione e l’assegnazione al trattamento sono completamente

casuali i due campioni sono da considerarsi indipendenti. L’obiettivo del confronto è sempre quello di

evidenziare eventuali differenze tra due popolazioni relativamente al parametro oggetto di analisi. La

presenza di un legame tra coppie di osservazioni suggerisce l’opportunità di tenere conto di tale relazione

per migliorare la capacità del test di distinguere situazioni diverse.

Confronto tra medie

Dati due campioni indipendenti di dimensione n 1 e n 2 e supponendo note le varianze del carattere nelle due

popolazioni, la statistica test si basa sulla differenza tra medie campionarie ^ μ 1

μ ^ 2

. (^) Tale differenza deve

essere opportunamente standardizzata, tenendo conto che se il carattere nelle due popolazioni ha una

distribuzione normale allora anche la differenza tra medie campionarie è distribuita in modo normale con

media pari a ^ μ 1

μ ^ 2

e varianza

σ 1

2

n 1

σ 2

2

n 2

. Se, più realisticamente, le due varianze nella popolazione non sono

note, è necessario valutare separatamente alcune diverse situazioni, relativamente alla dimensione dei

campioni e alle assunzioni che su tali varianze possono essere fatte. Si consideri innanzitutto il caso in cui le

due varianze non sono note ma si può supporre che si equivalgano nelle due popolazioni. Ciò può essere

preventivamente verificato sulla base di un test per l’uguaglianza tra varianze. In tal caso la statistica test

può essere costruita utilizzando al denominatore una stima della varianza comune alle due popolazioni. Nel

caso in cui le varianze siano incognite e non si possa supporre che siano uguali nelle due popolazioni, si

configurano due modi di procedere, a seconda della dimensione dei campioni. La statistica test rimane la

stessa anche per piccoli campioni ma la distribuzione sotto l’ipotesi nulla diventa una t di Student con g da

determinarsi in funzione delle varianze campionarie e delle numerosità dei due campioni. A parità di α la

regione di accettazione risulta più grande, contemporaneamente si riduce la regione di rifiuto e la potenza.

Il test è, quindi, meno potente di quello per varianze non note ma supposte uguali, e dunque sarà più

difficile individuare differenze tra medie (si rifiuta meno frequentemente). Il confronto tra medie di due

popolazioni richiede una diversa trattazione qualora il campione estratto dalla prima popolazione non sia

indipendente da quello estratto dalla seconda. Ciò può accadere quando una variabile viene rilevata sulla

stessa popolazione prima e dopo un trattamento, oppure se possono considerarsi coppie di unità statistiche

legate da caratteristiche comuni. L’attenzione viene rivolta, in questo caso, direttamente alle differenze tra

valori osservati su unità appaiate nei due campioni, che quindi avranno la stessa numerosità. Ciò al fine di

ridurre la variabilità interna al campione nel verificare l’eventuale differenza tra valori medi. Se infatti si

utilizza ancora un test per campioni indipendenti, potrà verificarsi che un’elevata variabilità campionaria

potrà determinare una stima della varianza elevata. Tale valore compare al denominatore della statistica

test per il confronto tra medie, riducendone il valore. Si tenderà, quindi, ad accettare maggiormente

l’ipotesi nulla. In altre parole, le differenze presenti possono essere nascoste dall’eccessiva variabilità

interna al campione. Tale problema può essere evitato lavorando direttamente sulle differenze tra

osservazioni nei due campioni. L’ipotesi nulla di uguaglianza tra medie si traduce, nell’ipotesi che differenze

tra unità a coppie si compensino e, quindi, la media μ D

sia pari a zero.

Confronto tra proporzioni

Si può avere interesse a sottoporre a verifica l’uguaglianza di una proporzione o di una % su collettivi

diversi. La procedura di verifica si basa sulla differenza tra proporzioni osservate nei due campioni: se tale

differenza risulta troppo elevata si riterrà che le proporzioni nelle due popolazioni sono effettivamente

diverse, mentre se la differenza è abbastanza piccola la si attribuirà al meccanismo di campionamento

casuale concludendo che nelle due popolazioni le percentuali di unità che presentano una certa

caratteristica sono uguali. La statistica test ha una distribuzione approssimabile dalla normale

standardizzata.

Confronto tra varianze

Confrontare la variabilità di un carattere in due diversi collettivi consente anche di effettuare una verifica

preliminare dell’uguaglianza o meno tra varianze in vista dell’effettuazione di un test per il confronto tra

medie. In questo caso è il rapporto tra varianze a costituire la base per la derivazione della statistica test e

non più la differenza, come per il confronto tra medie o proporzioni.

La statistica descritta è data dal rapporto tra varianze campionarie corrette:

s ^ 1

s ^ 2

F

n 1 −1, n 2 − 2

. La distribuzione

precedente, sotto l’ipotesi nulla di uguaglianza tra varianze, è approssimabile dalla funzione F con

( n 1

−1, n 2

− 1 ) (^) gradi di libertà, se il carattere nelle due popolazioni ha una distribuzione descritta da una

Normale. La F assume valori sempre positivi ed è asimmetrica. È quindi necessario, nel caso di test

bidirezionali, individuare separatamente i due valori critici. Le tavole forniscono solo i valori sulla coda a