Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Esercizi di Probabilità e Statistica: Distribuzione Binomiale e Inferenza, Appunti di Probabilità e Statistica

Argomenti e esempi: - statistica descrittiva: variabili categoriche, numeriche - statistiche campionarie - correlazione tra variabili - probabilità: a esiti equiprobabili, condizionata - indipendenza di eventi - variabili aleatorie: valor medio, varianza, covarianza, distribuzioni congiunte, funzione di ripartizione, di Bernoulli, di Poisson, uniformi, normali - statistiche campionarie: medie campionaria, teorema del limite centrale - statistica inferenziale: stima parametrica, stima puntuale, stimatori di massima verosimiglianza, bontà di uno stimatore, stima intervallare - verifica di ipotesi: struttura di un test, errori possibili - valor-p dei dati - test per una popolazione - test per due popolazioni - regressione lineare semplice - inferenza statistica con coefficiente angolare - coefficiente di determinazione - Analisi dei residui

Tipologia: Appunti

2022/2023

In vendita dal 09/09/2023

lisa-benini-1
lisa-benini-1 🇮🇹

4.8

(8)

48 documenti

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Obiettivo: presentare i dati di una ricerca, indagine… in modo sintetico attraverso grafici, tabelle e altre forme di sintesi
I dati si possono riferire a una o più quantità misurate = variabili. I dati relativi ad una variabile si presentano come una sequenza
𝑥!,𝑥",…$𝑥#
di
valori della variabile = campione à ottenuti in n “misurazioni”.
Le variabili vengono divise in 2 categorie:
- numeriche = assumono valori numerici
- categoriche à tutte le altre
I valori possibili vengono chiamati categorie. I dati vengono rappresentati attraverso tabelle o grafici
𝑭𝒓𝒆𝒒𝒖𝒆𝒏𝒛𝒂$𝒂𝒔𝒔𝒐𝒍𝒖𝒕𝒂=𝑛°$𝑑𝑖$𝑜𝑐𝑐𝑜𝑟𝑒𝑛𝑧𝑒$𝑑𝑖$𝑢𝑛$𝑣𝑎𝑙𝑜𝑟𝑒
𝑭𝒓𝒆𝒒𝒖𝒆𝒏𝒛𝒂$𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂=$%&'(&#)*+*,,-.(/*
#(0&%-+12+-,,&%3*)2-#2
𝑭𝒓𝒆𝒒𝒖𝒆𝒏𝒛𝒂$𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒖𝒂𝒍𝒆=𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎$𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎$×$100$%
esempio:
Più variabili categoriche relative ad una stessa popolazione possono venire usate per studi di
correlazione.
esempio:
à tabella di contingenza = rilevare eventuali
correlazioni tra le due variabili: in questo caso se la
condizione occupazionale sia la stessa nei 3 corsi di
laurea o vi siano differenze significative
Possono assumere:
valori discreti: possono essere rappresentati da tabelle oppure rappresentazioni grafiche tipo istogramma rese possibili dall’ordine
naturale tra i numeri. Ad esempio, il punteggio di un dado, il numero di studenti iscritto al corso di laurea, il numero di sigarette fumate in
un giorno etc…
valori contigui: per fornire rappresentazioni grafiche e tabulari è prima opportuno suddividere l’insieme dei valori possibili in intervalli
disgiunti (classi). Ad esempio, la pressione del sangue, la densità delle polveri sottili nell’aria, il tempo che trascorre tra due successive
eruzioni di un vulcano etc…
Grafico a bastoncini:
Frequenza assoluta
Frequenza relativa
Frequenza percentuale
Lavora
127
0.5907
59.07%
Cerca lavoro
54
0.2512
25.12%
Tiro cinio o sta ge
17
0.0791
7.91%
Altro
17
0.0791
7.91%
Tot al i
215
1.0000
100.00%
Matematica
Fisica
Biologia
Tot al i
Lavora
18
17
21
56
Cerca lavoro
8
7
9
24
Tiro cinio o sta ge
2
4
7
13
Altro
1
2
3
6
Tot al i
29
30
40
99
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Esercizi di Probabilità e Statistica: Distribuzione Binomiale e Inferenza e più Appunti in PDF di Probabilità e Statistica solo su Docsity!

Obiettivo: presentare i dati di una ricerca, indagine… in modo sintetico attraverso grafici, tabelle e altre forme di sintesi

I dati si possono riferire a una o più quantità misurate = variabili. I dati relativi ad una variabile si presentano come una sequenza 𝑥 !

"

di

valori della variabile = campione à ottenuti in n “ misurazioni ”.

Le variabili vengono divise in 2 categorie:

  • numeriche = assumono valori numerici
  • categoriche à tutte le altre

I valori possibili vengono chiamati categorie. I dati vengono rappresentati attraverso tabelle o grafici

$%&'(&#)* ,,-.(/

#(0&%- 12 -,,&%3*)2-#

𝑭𝒓𝒆𝒒𝒖𝒆𝒏𝒛𝒂 𝒑𝒆𝒓𝒄𝒆𝒏𝒕𝒖𝒂𝒍𝒆 = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 × 100 %

esempio:

Più variabili categoriche relative ad una stessa popolazione possono venire usate per studi di

correlazione.

esempio:

à tabella di contingenza = rilevare eventuali

correlazioni tra le due variabili: in questo caso se la

condizione occupazionale sia la stessa nei 3 corsi di

laurea o vi siano differenze significative

Possono assumere:

  • valori discreti: possono essere rappresentati da tabelle oppure rappresentazioni grafiche tipo istogramma rese possibili dall’ordine

naturale tra i numeri. Ad esempio, il punteggio di un dado, il numero di studenti iscritto al corso di laurea, il numero di sigarette fumate in

un giorno etc…

  • valori contigui: per fornire rappresentazioni grafiche e tabulari è prima opportuno suddividere l’insieme dei valori possibili in intervalli

disgiunti (classi). Ad esempio, la pressione del sangue, la densità delle polveri sottili nell’aria, il tempo che trascorre tra due successive

eruzioni di un vulcano etc…

Grafico a bastoncini:

Frequenza assoluta Frequenza relativa Frequenza percentuale

Lavora 127 0.5907 59.07%

Cerca lavoro 54 0.2512 25.12%

Tirocinio o stage 17 0.0791 7.91%

Altro 17 0.0791 7.91%

Totali 215 1.0000 100.00%

Matematica Fisica Biologia Totali

Lavora 18 17 21 56

Cerca lavoro 8 7 9 24

Tirocinio o stage 2 4 7 13

Altro 1 2 3 6

Totali 29 30 40 99

Unimodale Unimodale simmetrico Bimodale

Sia 𝑥 !

"

un campione di dati relativi ad una variabile numerica

  • Media campionaria: 𝑥̅ =

!

!

"!

"

"⋯"!

$

%

$

&

$

&'%

  • Mediana: ordino i dati 𝑥

(!)

(")

(#)

o se n è dispari , la mediana è 𝑥

(

#$!

"

)

à ovvero quello al centro

o se n è pari , la mediana è

!

(

"

)

"!

(

"

$!)

à media due valori al centro

esempio: Dati: 4, 1, 8, 9, 1 Dati: 4, 1, 8, 9

  1. ordinamento: 1, 1, 4, 8, 9 1. ordinamento: 1, 4, 8, 9
  2. n dispari: n = 5 2. n pari: n = 4
  3. mediana = 𝑥

( 6 )

= 4 3. mediana =

!

(")

"!

(')

+",

Osservazione 1: media e mediana sono in generale diverse. La media è più sensibile ai dati estremi

Osservazione 2: ∑ (𝑥

2

"

27!

ci indica quanto il numero c dista da un dato, è minimizzata per 𝒄 = 𝒙Q

2

27!

è minimizzata per c = mediana

  • Varianza campionaria: esprime la distribuzione dei dati attorno la media campionaria: 𝑆

%

$-%

&

$ *

&'%

à Proprietà di media e varianza campionaria: deviazione standard campionaria

partiamo dai dati 𝑥

!

"

. Definiamo 𝑦

2

!

  • 𝑏 con 𝑎, 𝑏 ∈ ℝ
  • 𝑦, = 𝑎𝑥̅ + 𝑏 media
  • 𝑆

.

!

varianza 𝑆

.

!

  • Percentili campionari: sia 0 < p < 1 definiamo il 100p-esimo* percentile campionario. Siano 𝑥

(!)

(")

(

)

i dati ordinati

o se np non è un numero intero allora il 100*p-esimo percentile campionario è 𝒙

(𝒌)

dove k è il + piccolo intero maggiore di np

o se np è intero allora il 100*p-esimo percentile campionario è

!

(#()

"!

(#($!)

esempio: Dati: 3, 1, 4, 7, - 2, 11, 5, - 4 à - 4, - 2, 1, 3, 4, 5, 7, 11

n = 8 calcolare il 25° e 70° percentile

p = 0.25 np = 2 (intero) 25° percentile =

9 ":!

"

!

"

p = 0.7 np = 5.6 (non intero) 70° percentile = 𝑥

(;)

Primo quartile = 𝑄

!

= 25° percentile

Secondo quartile = 𝑄

"

= 50° percentile = mediana

Terzo quartile = 𝑄

6

= 75° percentile

6

!

è detta differenza interquartile ed è usata come indice

della concentrazione dei dati

I 3 quartili vengono rappresentati graficamente nei BOX-PLOT

supponiamo si possedere dati per due variabili, x e y, cioè il campione dati è della forma (𝑥 !

!

"

"

supponiamo che x e y siano variabili numeriche. Le coppie (𝑥 2

<

) possono essere rappresentate come punti nel

piano

diagramma di dispersione o

SCATTER PLOT

per descrivere quantitativamente il grado di correlazione fra x e y introduciamo un nuovo indice, 𝒓 𝒙𝒚

detto il

coefficiente di correlazione fra x e y: ricordiamo 𝑆 ?

"

!

9!

2

"

27!

@

"

!

9!

2

− 𝑦)

"

27!

definiamo: covarianza campionaria: 𝑆

!.

%

$-%

$

&'/

&

&

!.

0 )*

0

)

∙ 0

|E|

|F|

;

6;

!

;

Più in generale consideriamo un mazzo di n carte e ne estraggo k: S = { gruppi di k carte scelte tra le n }

#(# 9 !)(# 9 ")…(# 9 C:!)

C(C 9 !)(C 9 ")…" ∙!

#(# 9 !)…(# 9 C:!)

C!

= u

C

v coefficiente binomiale: “n su k”

Esempio: consideriamo un mazzo di 52 carte da poker

  1. estraiamo a caso 2 carte. Qual è la probabilità che sono entrambe degli assi?

S = { gruppi di due carte } |S| = = u

K"

"

v =

K" ∙K!

"

A = “estraggo 2 assi” |A| = w

,,2 /-/.

'(&..2 BL& 1&3- M%&%&

x = u

G

"

v =

G ∙ 6

"

quindi 𝑃(𝐴) =

|E|

|F|

G ∙ 6

K" ∙K!

  1. estraiamo 5 carte. Qual è la probabilità che tra esse vi siano esattamente 2 assi?

S = { gruppi di 5 carte } |S| = u

K"

K

v

A = "ci sono esattamente 2 assi"

scegliere gli elementi di A significa fare i seguenti passi:

scegliere i due assi: u

G

"

v modi possibili

scegliere 3 carte che non siano assi: u

GN

6

v modi possibili

|A| = prodotto dei passi = u

G

"

vu

GN

6

v

u

G

"

vu

GN

6

v

u

K"

K

v

siano A e B due eventi, e assumiamo che P (B) > 0. Definiamo la “probabilità che si verifichi A sapendo che si è verificato B” o “ probabilità di A

condizionata a B ” come segue: 𝑃(𝐴|𝐵) =

O(E∩Q)

O(Q)

notare che 𝐴 = (𝐴 ∩ 𝐵) ∪ (𝐴 ∩ 𝐵

R

sono eventi disgiunti

R

ma 𝑃(𝐴|𝐵) =

O(E∩Q)

O(Q)

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) allora: 𝑃(𝐴) = 𝑃(𝐴|𝐵)𝑃(𝐵) + 𝑃(𝐴|𝐵

R

R

) formula delle probabilità totali

Esempio: consideriamo due urne. L’urna A contiene 2 palline rosse e 4 verdi, l’urna B contiene 3 palline rosse e 2 verdi. Lanciamo un dado: se viene

6 si pesca dall’urna A altrimenti dall’urna B. Qual è la probabilità di estrarre una pallina verde

Indichiamo gli eventi:

E = “il dado fornisce 6” P(E) =

!

;

P(𝐸

R

K

;

F = "la pallina estratta è verde” se estraggo dall’urna A: P(F|E) =

G

;

"

6

se estraggo dall’urna B perché non si è verificato E: P(F|𝐸

R

"

K

per la formula delle probabilità totali: P(F) = P(F|E)P(E) + P(F|𝐸

R

)P(𝐸

R

"

6

!

;

"

K

K

;

G

S

La formula delle probabilità totali ammette un’estensione : siano 𝐵 !

"

eventi tali che:

• S = 𝐵

!

"

2

<

!

"

) sono una partizione di S. Assumiamo che P(𝐵

2

) > 0 per i = 1…n, allora per ogni altro eventi di A:

P(A) = P(A|𝐵

!

)P(𝐵

!

) + P(A|𝐵

"

)P(𝐵

"

) + … + P(A|𝐵

)P(𝐵

Esempio: un esame è costituito da una domanda a risposta multipla: 4 risposte, una esatta. Gli studenti si dividono in due categorie:

  • preparati (80%) che rispondono correttamente per una probabilità di 0.
  • impreparati (20%) che rispondo a caso ma hanno una probabilità del 0.25 di rispondere correttamente

prendiamo un esame a caso e la risposta è corretta. Qual è la probabilità che lo studente fosse preparato?

A = “studente preparato” P(A) = 80% = 0.

B = “studente che ha dato la risposta corretta” studente preparato e risposta corretta: P(B|A) = 0.

studente impreparato risposta corretta: P(B|𝐴

B

P(A|B)?

per risolvere il problema usiamo l’argomentazione generale :

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵) deve essere uguale a 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴)𝑃(𝐴) quindi 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

quindi 𝑃(𝐴|𝐵) =

OT𝐵U𝐴VO(E)

O(Q)

formula di Bayes

à P(B) = P(B|A)P(A) + P(B|𝐴

B

)P(𝐴

B

) = 0.9 x 0.8 + 0.25 x 0.2 = 1.

P(A|B) =

W.S? W.N

!.""

Esempio: per determinare la presenza di un virus viene elaborato un test clinico:

  • sensibilità: se il virus è presente, il test risulta positivo nel 99% dei casi
  • specificità: se il virus è assente, il test risulta negativo nel 98% dei casi

E’ noto che 4 persone su 10 000 hanno il virus, cioè lo 0.04% (prevalenza del virus). Supponiamo che un individuo scelto a caso nella

popolazione risulti positivo al test: con quale grado di fiducia possiamo affermare che abbia il virus?

A = “l’individuo ha il virus”

B = “l’individuo risulta positivo”

P(B|A) = 0.99 P(A) =

G

!W WWW

P(B|𝐴

B

) = 1 – P(𝐵

B

B

P(A|B) =? usiamo la formula di Bayes: P(A|B) =

OT𝐵U𝐴VO(E)

O(Q)

OT𝐵U𝐴VO(E)

OT𝐵U𝐴VO(E):OT𝐵U𝐴

B

VO(E

!

)

W.SS ∙

"

#$ $$$

W.SS ∙

"

#$ $$$

:W.W"(! 9

"

#$ $$$

)

Esempio: una coppia ha 2 figli. Assumiamo che i sessi dei due figli siano descritti al seguente modello probabilistico

S = {(MM), (MF), (FM), (FF)} dove (MF) = il primogenito è maschio e la secondogenita è femmina

P = probabilità ad esiti equiprobabili

(a) se sappiamo che il primogenito è maschio, qual è la probabilità che anche il secondo sia maschio

(b) se sappiamo che il secondogenito è maschio, qual è la probabilità che lo sia anche il primo

(c) se sappiamo che uno dei due figli è maschio, qual è la probabilità che lo sia anche l’altro

A = “ il primo è maschio” = {(MM), (MF)}

B = “il secondo è maschio” = {(MM), (FM)}

(a) P(B|A) =

O(E∩Q)

O(E)

"

&

"

!

"

A∩B = {(MM)}

(b) P(A|B) =

O

( Q∩E

)

O

( Q

)

!

"

(c) C = “almeno uno dei figli è maschio” = {(MM), (MF), (FM)}

D = “entrambi maschi” = {(MM)}

P(D|C) =

O(Y∩R)

O(R)

"

'

"

!

6

P(B|A)=P(B)

due eventi A e B si dicono indipendenti se P(A∩B) = P(A)P(B) P(A|B)=P(A)

osservazione : se A e B sono indipendenti allora lo sono anche A e 𝐵

B

(e anche 𝐴

B

e B e anche 𝐴

B

e 𝐵

B

esempio: lanciamo due volte un dado

A = “il primo lancio dà 6”

B = “il secondo lancio dà un risultato >= 4”

S = {(i, j): i, j = 1…6} |S| = 36

A = {(6, j): j = 1…6} |A| = 6 P(A) =

;

6;

!

;

B = {(i, j): i = 1…6, j = 4, 5, 6} |B| = 6x3 = 18 P(B) =

!N

6;

!

!"

P(A∩B) = P(A)P(B)

!

!"

!

;

!

"

A e B sono indipendenti

Definizione di indipendenza di 3 eventi A, B, C: P(A∩B∩C) = P(A)P(B)P(C)

P(A∩B) = P(A)P(B)

P(A∩C) = P(A)P(C)

P(B∩C) = P(B)P(C)

esempio: consideriamo un gioco con probabilità di successo p, che possa essere ripetuto indefinitamente, e esiti di ripetizioni distinte siano

indipendenti

  • probabilità di vincere la seconda e la quarta ripetizione? 𝑝

"

  • probabilità che il primo successo avvenga alla quinta ripetizione? significa che le prime quattro ripetizioni sono insuccessi e la quinta

successo: (1-p)(1-p)(1-p)(1-p) p = ( 1 − 𝑝)

G

1° 2° 3° 4° 5° (ripetizione)

  • probabilità che nelle prime 5 ripetizioni ottenga esattamente due successi?

SSIII 𝑝

"

6

SISII 𝑝

"

6

quindi la probabilità richiesta è: 10 𝑝

"

6

= u

K

"

v𝑝

"

6

SIISI (dal punto di vista combinatorio)

SIIIS

ISSII 10 eventi possibili

ISISI

ISIIS

IISSI

IISIS

IIISS

Più in generale la probabilità che il primo successo avvenga all’ennesima prova è: ( 1 − 𝑝)

9!

La probabilità che in n prove ottenga esattamente k successi: u

C

v𝑝

C

9 C

o se X e Y sono scorrelate (vedere più avanti cosa significa), allora: Var (X + Y) = Var (X) + Var (Y)

o se X e Y sono indipendenti vale la stessa formula perché indipendenti à scorrelate

Sia X e Y due VA discrete dipendenti dallo stesso esperimento aleatorio. La funzione di massa congiunta di X e Y è definita da:

`,b

esempio: lanciamo un dado due volte. Sia

X = il punteggio più piccolo

Y = il punteggio più grande

`,b

!

6;

`,b

!

;

!

;

!

;

!

;

!

6;

!

6;

!

!N

`,b

!

!N

In generale: - se x < y: 𝑝

`,b

!

!N

`,b

!

6;

  • se y < x: 𝑝

`,b

Dalla funzione di massa congiunta 𝑝

`,b

di due variabili discrete X e Y, è possibile ricavare le funzioni di massa 𝑝

`

e 𝑝

b

delle due variabili aleatorie:

`

`,b

@

b

`,b

?

in questo contesto 𝑝 `

e 𝑝 b

sono dette marginali. In generale, se sono note le funzioni di massa marginali 𝑝 `

e 𝑝 b

non è possibile ricavare 𝑝 `,b

esempio: torniamo all’esempio dei due lanci di dado

`

`,b

`,b

`,b

!

6;

!

!N

!

!N

!!

6;

`

`,b

`,b

`,b

!

6;

!

!N

!

!N

S

6;

`

`,b

`,b

`,b

!

6;

!

!N

!

!N

c

6;

`

`,b

`,b

`,b

!

6;

!

!N

!

!N

K

6;

`

`,b

`,b

!

6;

!

!N

6

6;

`

`,b

!

6;

Calcolo del valore atteso di una funzione di due variabili aleatorie : 𝐸[𝑔(𝑋, 𝑌)] = ∑ 𝑔(𝑥, 𝑦)𝑝 `,b

?,@

definizione: due VA X e Y si dicono indipendenti se ∀𝐴, 𝐵 ⊆ 𝑅

𝑃(𝑋 ∈ 𝐴, 𝑌 ∈ 𝐵) = 𝑃(𝑋 ∈ 𝐴)𝑃(𝑌 ∈ 𝐵) o equivalentemente 𝑃(𝑋 ∈ 𝐴 | 𝑌 ∈ 𝐵) = 𝑃(𝑋 ∈ 𝐴)

Due VA discrete sono indipendenti se e solo se ∀ ?,@

`,b

`

b

Come conseguenza, se X e Y indipendenti 𝑬

`,b

`

b

?,@ ?,@

`

?

b

@

siano X e Y due VA definiamo Cov (X, Y) = E [(X – E(X))(Y – E(Y))] = E(XY) – E(X)E(Y)

osservazioni:

  • Cov (X, X) = Var (X)
  • se X e Y sono indipendenti allora Cov (X, Y) = 0 dato in tal caso E(XY) = E(X)E(Y)

Se Cov (X, Y) = 0 diciamo che le due variabili sono scorrelate. Pertanto indipendenti

à scorrelate. L’implicazione inversa è FALSA in

generale

esempio: sia data un’urna con 2 palline numerate 1 e 2. Eseguiamo 2 estrazioni, e siano X e Y i numeri sulle due palline estratte

o se le estrazioni avvengono con reimmissione allora X e Y sono indipendenti

o se le estrazioni avvengono senza reimmissione per calcolare la Cov (X, Y) determiniamo la funzione di massa congiunta

`,b

`,b

!

"

`

!

"

b

`b

!

"

?,@

!

"

!

"

!

"

6

"

𝐶𝑜𝑣(𝑋𝑌) = 𝐸(𝑋𝑌) − 𝐸(𝑋)𝐸(𝑌) = 2 − w

6

"

x

"

!

G

In generale il segno della covarianza ha il seguente significato: se Cov (X,Y) > 0 al crescere del valore di X ci si aspetta che cresca Y, e viceversa se

la Cov (X, Y) < 0

E’ utile introdurre il coefficiente di correlazione: 𝐶𝑜𝑟𝑟(𝑋, 𝑌) =

R-3(`,b)

de%(`)de%(b)

Si può dimostrare che:

    • 1 £ Corr (X, Y) £ 1
  • Corr (X, Y) = 1 $a > 0, bÎ R tale che Y = aX + b

• Corr (X, Y) = - 1 $a < 0, bÎ R tale che Y = aX + b

di una variabile aleatoria X è definita da 𝐹 `

  • se X è discreta con funzione di massa 𝑝

`

`

?

@f?

Nota bene: 𝑝

`

`

`

(𝑥) − lim

@↑?

`

  • se X è una VA continua con densità 𝐹

`

allora: 𝐹

`

`

?

9 ^

come conseguenza: 𝐹

`

h

`

esempio: Sia X una VA continua con densità f. Definiamo Y = aX + b dove a > 0 e b Î R. Determina la densità 𝑓

b

di Y

b

(𝑦) = 𝑃(𝑌 ≤ 𝑦) = 𝑃(𝑎𝑋 + 𝑏 ≤ 𝑦) = 𝑃 w𝑋 ≤

@ 9 i

x = 𝐹

`

@ 9 i

) derivando

b

h

b

1

1@

`

w

@ 9 i

x = 𝐹

`

h

w

@ 9 i

x ∙

!

h

!

@ 9 i

le variabili di Bernoulli di parametro p Î [0, 1] se assume solo i valori 0 e 1 e P(X = 1) = p = 1 – P(X =0) cioè 𝑝 `

`

E(X) = 0(1 – p) + 1p = p Var (X) = E( 𝑿

𝟐

𝟐

(X) = p - 𝒑

𝟐

= p(1 – p)

E( 𝑿

𝟐

) = 0(1 – p) + 1p = p

si consideri n prove ripetute e indipendenti con probabilità di successo p e sia X = n° di successi, X può assumere i valori 0, 1, …, n

`

(𝑘) = 𝑃(𝑋 = 𝑘) = w

x 𝑝

C

9 C

Una VA con tale funzione di massa è detta binomiale di parametri n e p

Sia con 𝑋 2

, i = 1, …, n la VA 𝑋

2

1 𝑠𝑒 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑝𝑟𝑜𝑣𝑎 è 𝑢𝑛 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜

2

è una variabile di Bernoulli di parametro p. 𝑋

!

"

sono VA indipendenti. Notale che X = 𝑋

!

"

ne segue che

𝒊

𝒏

𝒊 7 𝟏

𝒊

𝒏

𝒊 7 𝟏

una VA X si dice Poisson di parametro l > 0 se può assumere i valori 0, 1, …, n, … e 𝑝 `

9 n

n

(

#!

per capire il significato di tale funzione di massa consideriamo una VA Y binomiale di parametri n e p con n >> 1 e p << 1. Si può dimostrare che:

P (Y = k) » P (X = k) dove X è una VA di Poisson di parametro np

In altre parole una VA di Poisson di parametro l si può approssimare con una VA binomiale di parametri n e

n

con n >> 1

𝝀

𝒏

𝝀

𝒏

𝝀

𝒏

In realtà si può dimostrare che E(X) = l = Var (X)

siano a < b numeri reali. X si dice uniforme in (a, b) se 𝑓(𝑥) = ¡

!

p 9 q

`

?

b 9 a

!

b 9 a

b

a

b

a

:^

9 ^

!

b 9 a

∙ w

p

&

"

q

&

"

x =

!

"

(q:p)(p 9 q)

p 9 q

𝜶:𝜷

𝟐

𝑬u𝑿

𝟐

v =

𝜷

𝟐

:𝜶

𝟐

:𝜶𝜷

𝟑

"

"

(𝜷 9 𝜶)

𝟐

𝟏𝟐

fissiamo 𝜇 ∈ ℝ, 𝜎

"

> 0. Diciamo che X è una VA normale di parametri 𝜇 e 𝜎

"

e scriviamo X ~𝑵(𝝁, 𝝈

𝟐

) se 𝑓

5

%

6

  • 78

"

()+,)

"

"-

"

osservazione: se Z ~ N(0, 1) diciamo che Z è una normale standard si può dimostrare che E(Z) = 0 e

Var (Z) = 1. Se 𝜇 ∈ ℝ e 𝜎

"

> 0 allora X = sZ + μ ~ N(μ, 𝜎

"

à E(X) = s E(Z) + μ = μ

à Var (X) = 𝝈

𝟐

Var (Z) = 𝝈

𝟐

à

(

&

9 KW,K



(

"

≥ 𝑧 quindi la richiesta su n è

(

&

9 KW,K



(

"

"

!,;G

"

à 𝑥

"

!,;G:d!,;G

&

:GWG

"

capire la “vera” distribuzione della popolazione a partire dalle informazioni contenute in un campione casuale estratto da essa.

Spesso la natura del problema ci consente di formulare un modello statistico per cui la distribuzione della popolazione è di tipo noto ma

con i valori dei parametri incogniti.

Quindi il problema si riduce a:

  • scegliere un valore plausibile per i valori dei parametri (fare inferenza sui valori reali)
  • testare ipotesi sui valori dei parametri a partire dai dati osservati

scopo: inferenza statistica per popolazioni normali e popolazioni di Bernoulli

schematicamente:

  • Supponiamo che i dati siano realizzazioni di una variabile aleatoria X con densità (discreta o continua) f(x; s) dove s è un parametro

incognito, cioè conosciamo la forma della densità, ma non il valore del parametro s

DATI VA NON NOTA

!

"

ß genera ß X

  • Stimiamo il valore del parametro s usando i dati

vari tipi di stima:

o puntuale = si ottiene un singolo valore come stima per il valore di s

o intervallare = si ottiene un intervallo di variabili plausibili per il parametro s e a ciascuno di questi intervalli si associa un livello di

confidenza che s vi appartenga

definizioni basilari:

  • campione (aleatorio/casuale) di ampiezza n è una collezione di n variabili aleatorie 𝑋

!

"

indipendenti e tutte con la stessa

distribuzione f ( x; s), dove s è un parametro incognito

  • statistica T è una variabile aleatoria ottenuta come funzione del campione, cioè T = T( 𝑿

𝟏

𝟐

𝒏

Sia 𝑋

!

"

un campione casuale. Le variabili aleatorie:

  • media campionaria: 𝑋

%

$

&

$

&'%

  • varianza campionaria: 𝑆

%

$-%

&

$ *

&'%

  • minimo del campione: V = min{𝑋

!

"

  • massimo del campione: W = max{𝑋

!

"

sono statistiche

  • stimatore è una qualunque statistica T che non dipende dal parametro s e viene usata per stimare s.

La media campionaria viene tipicamente usata come stimatore del valor medio di una popolazione. La varianza campionaria viene

tipicamente usata come stimatore della varianza di una popolazione

  • stima è il valore numerico assunto dallo stimatore sui dati osservati 𝑥

!

"

cioè 𝜎¹ = 𝑇(𝑥

!

"

Sia 𝑋 !

"

un campione casuale estratto da una popolazione con densità f (x ; s) (discreta/continua), che dipende dal parametro incognito s

Se interpretiamo f ( 𝒙 𝟏

𝟐

𝒏

; s ) densità congiunta di 𝑋

!

"

= prodotto delle marginali per dipendenza

2

27!

come la verosimiglianza (o plausibilità) che si realizzi la n-upla di dati 𝑥 !

"

quando s è il vero valore del parametro, sembra ragionevole

adottare come stima di s quel valore che rende massima la verosimiglianza per i dati osservati

In altri termini, la stima di MV s 𝑴𝑽

½ è definita come il valore s che rende massima la funzione f (𝑥

!

"

; s) (funzione di

verosimiglianza) quando i dati sono 𝑥 !

"

trucco: spesso è comodo lavorare con il logaritmo della funzione likelihood, cioè con la funzione:

log likelihood log [ f (𝑥

!

"

; s) ]

che ha lo stesso massimo, facilita il calcolo delle derivate ed evita moltiplicazioni per numeri molto piccoli

Stimatore di MV per il parametro di una Bernoulli:

Sia 𝑋 !

"

un campione casuale estratto da una popolazione con densità discreta Be(q), dove q Î (0, 1) è incognito.

Dal momento che la densità marginale delle 𝑋 2

è data da f (x; q) = 𝑞

?

?

per x Î {0, 1} ¾

La densità congiunta (e quindi la likelihood) è data da:

f (𝑥

!

"

; q) =

27!

?

( 1 − 𝑞)

! 9?

27!

proprietà delle potenze = 𝑞

∑?

(

*+#

( 1 − 𝑞)

9 ∑?

(

*+#

la likelihood corrispondente risulta quindi pari a:

log [ f (𝑥

!

"

; q)] = (∑ 𝑥

2

27!

log 𝑞 + (𝑛 − ∑ 𝑥

2

27!

) log( 1 − 𝑞)

Derivando rispetto a q, otteniamo:

1

1'

log

[

!

"

)]

2

27!

!

'

2

27!

!

! 9 '

risolvendo

1

1'

log[𝑓(𝑥

!

"

; 𝑞)] = 0 rispetto a q, si ottiene: 𝑞 ¹

!

2

27!

stima di MV

si può verificare che 𝒒Á è un massimo , dal momento che

1

&

1M

&

log[𝑓(𝑥

!

"

; 𝑞)] con q = 𝑞 ¹

è £ 0

Pertanto lo stimatore di MV per il parametro q di una distribuzione di Bernoulli è: 𝑄 ƒe

\

!

2

27!

stimatore di MV

Supponiamo di aver osservato i seguenti dati: 1 0 0 0 0 0 1 0 0 1 allora la stima di verosimiglianza è

osservazione: i dati sono stati generali da Be(0.25)

Stimatori di MV per media e varianza di una normale

Sia 𝑋 !

"

un campione casuale estratto da una popolazione normale con densità N(𝜇, 𝜎

"

), con μ Î R e 𝜎

"

> 0 entrambe incognite.

Gli stimatori di MV per la media e la varianza son dati da: 𝑀 ƒe

\

e 𝑆 ƒe

"

!

2

\

"

27!

Sia 𝑋 !

"

un campione casuale estratto da una popolazione di distribuzione nota eccetto che per un parametro ignoto s come scegliamo uno

stimatore T = T( 𝑋 !

"

) per s? Come valutiamo la bontà?

Vogliamo minimizzare la deviazione dal valore reale del parametro basandoci sui valori di E(T) e di Var(T)

Definizione: BIAS: Sia T = T(X !

, X

"

, … , X

„

) uno stimatore del parametro s. Allora b ( T ) = E ( T ) - s è detto bias (o distorsione) di T come

stimatore di s. Se esso è nullo , diciamo che T è uno stimatore corretto (o non distorno) di s

Sia 𝑋 !

"

un campione casuale estratto da una popolazione con media μ. La media campionaria 𝑋

\

è uno stimatore corretto per il valor medio

μ. Infatti, calcoliamo: 𝑏

\

\

!

2

27!

!

linearità del valor medio

Definizione: Errore quadratico medio: Sia T = T(X !

, X

"

, … , X

„

) uno stimatore del parametro s. Allora MSE ( T ) = E [ ( T - 𝝈

𝟐

) ] è detto

errore quadratico medio dello stimatore T.

Possiamo esplicitare: 𝑀𝑆𝐸(𝑇) = 𝑉𝑎𝑟(𝑇) + 𝑏(𝑇)

"

o Var (T) = misura la dispersione/variabilità dello stimatore e quindi la sua precisione

o 𝒃(𝑻)

𝟐

= misura l'accuratezza dello stimatore

Uno stimatore buono (efficiente) controlla sia la varianza che la distorsione. Se T è corretto, allora MSE (T) = Var (T). Uno stimatore corretto,

ma con varianza molto elevata, può avere un errore quadratico medio maggiore di uno stimatore distorto, ma con varianza inferiore.

Lo stimatore di MV 𝑆 ƒe

"

per la varianza di una popolazione normale non è corretto, mentre la varianza campionaria lo è.

Risulta però: 𝑴𝑺𝑬(𝑺 𝑴𝑽

𝟐

𝟐

scopo: trovare tra gli stimatori corretti ( asintoticamente corretti) quelli che hanno errore quadratico medio minore

Non ci possiamo aspettare che la stima puntuale ottenuta valutando lo stimatore sui dati osservati sia il valore reale di s, ma che ci sia vicino. Perciò,

rispetto ad un valore puntuale, è preferibile produrre un intervallo per il quale abbiamo una certa fiducia che il parametro ci appartenga

Sia 𝑋 !

"

un campione casuale estratto da una popolazione della ci interessa stimare un parametro s. Siano 𝑳

𝟏

𝟏

𝟏

𝟐

) e

𝟐

𝟐

𝟏

𝟐

) due statistiche, che non dipendono da s, tali che 𝑃(𝐿

!

< s < 𝐿

"

) = 1 − 𝛼 dove 𝛼 ∈ (𝟎, 𝟏)

Inoltre, si ha

a = 1 – 0.95 = 0.05 e 𝑧

a

&

W.W"K

Pertanto, otteniamo l’intervallo:

Ê 398 −

Ë =

Intervalli di confidenza per la media di una popolazione normale, caso di varianza ignota

Sia 𝑋 !

"

un campione estratto da una popolazione normale con media μÎ R e varianza nota 𝜎

"

> 0 , entrambe ignote. Sia aÎ (0, 1).

Ricaviamo intervalli di confidenza ad un livello 1 - a per la media μ.

Ricordiamo che:

`

9 u

/

(

9!

, con S deviazione standard campionaria

  • La densità t di Student ha una forma a campana simmetrica rispetto a x = 0

Se 𝑋~𝑡

, allora indichiamo con 𝑡

a,„

∈ 𝑅 il valore per cui P(X > 𝑡

a,„

) = a. In completa analogia con quanto fatto prima, supponendo di aver osservato

dati 𝑥 !

tali per cui 𝑋

\

!

) = 𝑥̅ e 𝑆(𝑥

!

) = 𝑠̂ , a livello di confidenza 1 - a otteniamo gli intervalli:

o bilaterale: 8 𝑥̅ − 𝑡

a

"

,$-%

√$

a

"

,$-%

√$

o unilaterale destro: (𝑥̅ − 𝑡

a

"

,$-%

√$

o unilaterale sinistro: 8 −∞ , 𝑥̅ + 𝑡

a

"

,$-%

$

per la media μ della popolazione

esempio: il produttore di una certa marca di sigarette desidera controllare il quantitativo medio di catrame in esse contenuto. A questo scopo viene

osservato un campione di 5 sigarette ottenendo i seguenti quantitativi di catrame in mg: 11.1, 10.5, 11.4, 10.7, 11.

Si determini l’intervallo di confidenza unilaterale destro al 99% per la media della popolazione, assumendo che sia normale

Soluzione: la media e la deviazione standard del campione sono 𝑥̅ =

!

K

( 11. 1 , + 10. 5 + 11. 4 + 10. 7 + 11. 4 ) = 11. 02 e

𝑠̂ = Í

!

G

[

"

"

] ≈ 0. 41

Inoltre, si ha a = 1 – 0.99 = 0.01 e 𝑡

a,„ 9!

W.W!,G

Pertanto, otteniamo l’intervallo:

Ê 11. 02 − ( 3. 747 )

, +∞Ë = ( 10. 333 , +∞)

Intervalli di confidenza per la varianza di una popolazione normale

Sia 𝑋 !

"

un campione estratto da una popolazione normale con media μÎ R e varianza 𝜎

"

> 0 , entrambe ignote. Possiamo costruire degli

intervalli di confidenza basandoci sul fatto che

(# 9 !)F

&

v

&

9!

"

Sia aÎ (0, 1). Se 𝑋~𝒳

"

, indichiamo con 𝒳

a,„

"

∈ [ 0 , +∞) il valore per cui P(X > 𝒳

a,„

"

) = a

Quindi se abbiamo osservato dati 𝑥 !

tali per cui 𝑆

"

!

"

, otteniamo:

o l’intervallo di confidenza bilaterale di livello 1 - a per la varianza 𝜎

"

a

,=-%

%-

a

,$-%

D

o intervalli unilaterali (destro e sinistro) di livello 1 - a:

!

("#$)&̂

†

𝒳

a ,‡ˆ‰

†

, +∞&! 0 ,

("#$)&̂

†

𝒳

‰ˆa ,‡ˆ‰

†

&

esempio: Un’azienda produttrice di orologi di precisione dichiara che questi sono oggetti ad

un’oscillazione massima di 1 secondo al mese. Viene osservato l’errore mensile di

20 orologi e si trova 𝑠

= 0. 14. Si determini l'intervallo di confidenza bilaterale al 95% per la varianza.

Soluzione: si ha a = 1 – 0.95 = 0.05. Inoltre, i quantili della distribuzione chi-quadrato sono:

  • 𝒳a

"

,=-%

/./*?,%@

  • 𝒳

%-

a

"

,=-%

/.@A? ,%@

pertanto, otteniamo l’intervallo:

N

P = ( 0. 081 , 0. 299 )

Intervalli di confidenza per la media di una popolazione di Bernoulli

Consideriamo una popolazione di oggetti, ognuno dei quali, indipendentemente dagli altri, possiede certi requisiti con probabilità

q Î (0,1). Nel caso in cui vengono testati n di questi oggetti, rilevando quanti di essi possiedono tali requisiti, come possiamo usare tale grandezza

per ottenere un intervallo di confidenza per q?

Se X denota il numero di oggetti, tra quelli testati, che soddisfano i requisiti, sappiamo che X è una variabile aleatoria binomiale di parametri n e q. In

particolare, se nq >= 5 e nq(1-q) >= 5 (campione numeroso), si avrà X ~ N(nq, nq(1-q)).

Posto 𝑸 =

𝑿

𝒏

(stimatore di MV di q; frazione di oggetti del campione che soddisfa i requisiti), supponendo di aver osservato dati tali per cui X = x

e Q(x) = 𝑞¹ , usando il teorema del limite centrale si può ottenere un intervallo di confidenza (bilaterale) approssimato di livello 1 - a per q come

#𝑞% − 𝑧

a

"

(

()('#())

&

, 𝑞% + 𝑧

a

"

(

()('#())

&

,

dove 𝑧

a

&

denota il quantile di ordine

a

"

di Z ~ N(0,1)

esempio: un campione di 100 transistor viene estratto da una grossa fornitura e testato. In tutto 80 pezzi sono adeguati ai requisiti. Volendo trovare un

intervallo di confidenza al 95% per la percentuale q di transistor accettabili della fornitura, scriviamo

W.W"K

Ï

W.W"K

Ï

con 𝑞¹ = 0.8, 𝑧 W.W"K

= 1. 96 e n = 100. Quindi otteniamo l’intervallo di confidenza (0.7216, 0.8784)

partiamo da un campione casuale 𝑋 !

"

estratto da una popolazione la cui distribuzione dipende da un parametro non noto s. Invece di

stimare il parametro s, vogliamo verificare un’ipotesi che lo riguarda, sulla base di un campione di dati osservati.

Ipotesi statistica = affermazione sul parametro s. E’ un’osservazione del tipo: s = s W

, s ≥ s

W

𝑜 s ≤ s

W

, dove s

W

è un certo valore del

parametro.

o semplice = ipotesi specifica un singolo valore

o composta = ipotesi specifica un insieme di valori

TEST = procedura che consiste nella verifica di un’ipotesi statistica. Se effettuiamo un test, significa che vogliamo decidere tra due alternative

(ipotesi):

  • una rappresenta la nostra “ convinzione di partenza
  • l’altra un’affermazione contrapposta

ha senso eseguire un test solo se i dati, le osservazioni in nostro possesso paiono contraddire la convinzione di partenza.

𝟎

= ipotesi sottoposta a verifica, che rappresenta la nostra convinzione di partenza (ipotesi nulla)

𝟏

= ipotesi contrapposta all’ipotesi nulla (ipotesi alternativa)

Per test statistico o test di ipotesi si intende il procedimento con cui, sulla base del campione osservato, si decide se rifiutare o meno

l’ipotesi nulla.

L’elemento basilare della verifica di ipotesi è la statistica test, che generalmente è uno stimatore del parametro s, indicato con

ST = ST( 𝑿

𝟏

𝟐

𝒏

) dove 𝑋

!

"

è il campione casuale. Siccome dobbiamo decidere se accettare o meno H

W

basandoci esclusivamente sul

campione di dati osservati 𝑥 !

, il test sarà definito da una regione critica C con la regola che :

o non si rifiuta H

W

se st = ST(𝑥

!

o si rifiuta H

W

se st = ST(𝑥

!

Intuitivamente, la regione C contiene il valore del parametro “molto distanti” dai valori descritti dalla ipotesi nulla.

Test per la media di una popolazione normale, caso di varianza ignota

Sia 𝑋 !

"

un campione estratto da una popolazione normale con media μÎ R e varianza 𝜎

"

> 0 , entrambe ignote.

Tipologie di test: ( test-t sulla media )

esempio: l’osservazione delle pulsazioni cardiache (in battiti per minuto) su un campione di 10 studenti maschi del primo anno di corso di laurea in

medicina ha dato i risultati indicati: 67, 64, 75, 80, 60, 63, 78, 68, 65, 68

E’ noto che il valore clinico normale della frequenza media di pulsazioni per i maschi giovani è di 72 battiti al minuto. Si vuole capire se i

dati osservati sono in linea con il suddetto valore di riferimento ad un livello a = 0.05. Si assuma che il numero di pulsazioni sia distribuito

normalmente

Soluzione: Eseguiamo un test sulla media per la verifica di H

W

: μ = 72 contro H

!

: μ ≠ 72. A livello di significatività del 5%, essendo

.

&

,# 9!

W.W"K,S

= 2. 262 , la regione critica del test è C = {x Î R: |x| > 2.262}. Dal momento che la statistica test valutata sui dati risulta:

𝑠𝑡 =

*̅ #,-

Ž

‰

≈ − 1. 51 con 𝑥̅ =

%

%/

( 67 + ⋯ + 68 ) = 68. 8 e 𝑠

= Í

!

S

[( 67 − 68. 8 )

"

  • ⋯ ] = 6. 68

e st Ï C, non rifiutiamo H

W

ad un livello di significatività del 5 %

Test per la varianza di una popolazione normale

Sia 𝑋 !

"

un campione estratto da una popolazione normale con media μÎ R e varianza 𝜎

"

> 0 , entrambe ignote.

Tipologie di test: ( test- 𝓧

𝟐

sulla varianza )

𝟎

𝟏

Statistica test (ST) rifiuto 𝐇

𝟎

a livello a se…

𝟐

𝟎

𝟐

"

W

"

(𝑛 − 1 )𝑠

0

2

~𝒳

"#$

con 𝑠

varianza campionaria

%-

B

, $-%

%-

B

, $-%

𝟐

𝟎

𝟐

oppure

𝟐

𝟎

"

W

"

B, $-%

𝟐

𝟎

𝟐

oppure

𝟐

𝟎

"

W

"

%-B, $-%

Test asintotici per la media di una popolazione di Bernoulli

Allo stesso modo di quanto fatto per gli intervalli di confidenza, è possibile sfruttare il teorema del limite centrale per costruire q Î (0,1) di una

popolazione di Bernoulli.

Sia 𝑋 !

"

un campione casuale estratto da una popolazione di Bernoulli con parametro incognito q Î (0,1).

Tipologie di test: ( test sulla popolazione )

𝟎

𝟏

Statistica test (ST) rifiuto 𝐇

𝟎

a livello

a se…

𝟎

W

𝑄 − 𝑞

)

=

0

0

~ ∙ 𝑁( 0 , 1 )

con 𝑄 = 𝑥̅ proporzione di 1 nel

campione

|𝑠𝑡| > 𝑧q

"

𝟎

oppure

𝟎

W

q

𝟎

oppure

𝟎

W

q

esempio: nel decretare la chiusura del centro storico alle automobili, il sindaco di una certa città si dice “fiducioso che la cittadinanza sia dalla sua

parte”. Interrogando 250 cittadini si scopre che solo 110 sono d’accordo con l’ordinanza comunale. Cosa si può concludere

sull’affermazione del sindaco?

𝟎

𝟏

Statistica test (ST) rifiuto 𝐇

𝟎

a livello a se…

𝟎

W

𝑋

)

− 𝜇

)

𝑆

√𝑛

~𝑡

"#$

con S deviazione standard campionaria

> 𝑡q

"

,# 9!

𝟎

oppure

𝟎

W

q,# 9!

𝟎

oppure

𝟎

W

q,# 9!

Soluzione: eseguiamo un test sul parametro q di una Bernoulli, che descrive il fatto che un cittadino sia in accordo (valore 1 ) o in

disaccordo (valore 0) con l’affermazione del sindaco. Testiamo l’ipotesi nulla: 𝐻

W

!

"

(il sindaco ha ragione) contro 𝐻

!

!

"

(il sindaco

ha torto). La proporzione relativa al campione osservato è 𝑞¹ =

!!W

";W

. Quindi la statistica test valutata sui dati risulta:

Ï

w 1 −

x

per prendere una decisione, calcoliamo il valore-p dei dati. Dobbiamo trovare il valore di significatività 𝛼\ tale per cui −𝑧

= − 2. 48 , cioè:

𝛼\ = 𝑃

regione critica del test con frontiera st

Essendo questo valore molto piccolo, rifiutiamo 𝐻

W

Una situazione che si presenta spesso nelle applicazioni è quando bisogna decidere se due approcci allo stesso problema hanno portato al medesimo

risultato o no. Tale problematica si riconduce spesso alla verifica che due popolazioni abbiano la stessa media

Confronto delle medie di due popolazioni normali, caso di varianze note

Siano 𝑋 !

!

0

due campioni indipendenti estratti da due popolazioni normali con medie incognite 𝜇

`

b

∈ 𝑅 e varianze note

`

"

b

"

Tipologie di test:

𝟎

𝟏

Statistica test (ST) rifiuto 𝐇

𝟎

a livello a se…

𝑿

𝒀

`

b

𝑋

)

− 𝑌

)

=

𝑋

2

𝑌

2

~𝑁( 0 , 1 )

|𝑠𝑡| > 𝑧q

"

𝑿

𝒀

oppure

𝑿

𝒀

`

b

q

𝑿

𝒀

oppure

𝑿

𝒀

`

b

q

esempio: Eta Beta si dedica per hobby alla corsa e si sta confrontando con i 400 m. Si è cronometrato prima e dopo le vacanze natalizie e ha ottenuto

i seguenti risultati:

  • prima delle vacanze: 5 corse, tempo medio 53.82 secondi
  • dopo le vacanze: 6 corse, tempo medio 54.41 secondi

Alla luce di quanto rilevato, Eta Beta teme che le festività con cenoni abbiano influito negativamente dalla sua forma fisica. Supponendo

che il tempo impiegato da Eta Beta per correre i 400 metri sia distribuito normalmente e che la varianza sia rimasta costante e passi a 𝜎

"

  1. 1 , cosa è possibile concludere?

Soluzione: Sia X (risp. Y) il tempo impiegato da Eta Beta per correre i 400 metri prima (risp. dopo) le vacanze di Natale. Si ha

`

b

. Eseguiamo un test di confronto tra le medie per testare l’ipotesi nulla 𝐻

W

`

b

(le vacanze non hanno

influito sulla forma fisica di Eta Beta) contro l’alternativa 𝐻

!

`

b

(le vacanze hanno influito negativamente sulla forma fisica di Eta

Beta). Sui dati forniti sappiamo che 𝑥̅ = 53. 82 𝑒 𝑦\ = 54. 41. Pertanto, la statistica test valutata sui dati risulta:

Í

Per prendere una decisione, calcoliamo il valore-p dei dati. Dobbiamo trovare il valore di significatività 𝛼\ tale per cui −𝑧

= − 2. 98 , cioè:

𝛼\ = 𝑃(𝑍 < − 2. 98 ) = 1 − Φ( 2. 98 ) = 0. 0014

Essendo questo valore molto piccolo, rifiutiamo 𝐻

W

. Quindi le vacanze hanno influito

Confronto delle medie di due popolazioni normali, caso di varianze non note, ma uguali

Siano 𝑋 !

!

0

due campioni indipendenti estratti da due popolazioni normali con medie 𝜇

`

b

∈ 𝑅 e varianze 𝜎

`

"

b

"

tutte incognite

Supponiamo che le varianze delle due popolazioni siano uguali: 𝜎 `

"

b

"

"

e usiamo lo stimatore varianza combinata (o pooled):

M

"

`

"

b

"

per stimare la varianza comune

Nell’ipotesi che il tasso di colesterolo sia normalmente distribuito, ai livelli di significatività del 1%, 5% e 10%, è lecito concludere che il

farmaco abbia effetto nell’abbassarlo?

Soluzione: costruiamo le differenze 𝑊

2

2

2

. Si ottiene:

La media e la deviazione standard del campione sono

–

"

Ï

[

"

+ ⋯ ] ≈ 20. 20

Vogliamo eseguire un test per la verifica di 𝐻

W

–

`

b

; il farmaco non ha effetto) contro 𝐻

!

–

`

b

; il

farmaco ha avuto effetto e il colesterolo è sceso). La ragione critica per questo test è della forma 𝐶 = {𝑥 ∈ 𝑅: 𝑥 > 𝑡

q ,# 9!

}, dove:

  • se a = 0.01, si ha 𝑡

W.W! ,K

  • se a = 0.05, si ha 𝑡

W.WK ,K

  • se a = 0.1, si ha 𝑡

W.! ,K

Dal momento che la statistica test sui dati vale: 𝑠𝑡 =

.

6

"

=

'.. 0

"2."

7

≈ 2. 065

L’ipotesi nulla 𝐻

W

verrà rifiutata ai livelli del 5% e 10% (casi i cui st Î C) e non verrà rifiutata ad un livello dell’ 1% (caso in cui st Ï C)

Confronto asintotico delle medie di due popolazioni di Bernoulli

Siano 𝑋 !

!

0

due campioni casuali indipendenti estratti da due popolazioni di Bernoulli con parametri 𝑞

𝑿

𝒀

entrambi incogniti.

Definiamo lo stimatore combinato (o pooled) tra i due campioni come: 𝑄

U

$V

8

"WV

9

$"W

dove 𝑄 `

\

è la proporzione di 1 nel primo campione e 𝑄

b

\

è la

proporzione di 1 nel secondo campione

Tipologie di test: (asintotici; validi per campioni numerosi )

𝟎

𝟏

Statistica test (ST) rifiuto 𝐇

𝟎

a livello a se…

𝑿

𝒀

`

b

𝑋

𝑌

= 𝑄

𝑃

C 1 − 𝑄

𝑃

D A

B

~ ∙ 𝑁( 0 , 1 )

|𝑠𝑡| > 𝑧q

"

𝑿

𝒀

oppure

𝑿

𝒀

`

b

q

𝑿

𝒀

oppure

𝑿

𝒀

`

b

q

esempio: In occasione di una tornata elettorale, siamo interessati a stabilire se le percentuali di votanti del partito A siano le stesse in due comuni

limitrofi della nostra provincia. A tale scopo ci rechiamo prima nel comune X, dove 135 dei 560 intervistati hanno dichiarato che voteranno

il partito A, e successivamente nel comune Y, dove 81 dei 440 intervistati hanno dichiarato che voteranno il partito A. Possiamo concludere

che le percentuali di votanti del partito A siano le stesse nei due comuni?

Soluzione: Siano 𝑞 `

b

le vere percentuali di votanti del partito A nei comuni X e Y. Eseguiamo un test per la verifica di 𝐻 W

`

b

contro 𝐻

!

`

b

. Calcoliamo 𝑞

`

!6K

K;W

b

N!

GGW

Quindi la stima combinata vale 𝑞

O

!6K:N!

K;W:GGW

= 0. 216. La statistica test sui dati risulta: 𝑠𝑡 =

/.*+%-/.%,+

I/.%X(%-/.%X)J

!

072

"

!

::

K

Per prendere una decisione, calcoliamo il valore-p dei dati. Dobbiamo trovare il livello di significatività 𝛼\ per cui 𝑧 .

&

= 2. 174 , ciò significa:

𝛼\ = 𝑃(|𝑍| > 2. 174 ) = 2 u 1 − Φ( 2. 174 )v = 0. 03

Essendo questo valore molto piccolo, rifiutiamo 𝐻

W

e quindi l’ipotesi che nei due comuni la percentuale dei votanti del partito A sia la

stessa

Nelle applicazioni molti problemi hanno a che fare con il determinare la relazione tra due variabili

esempio: Se x è il denaro investito per pubblicizzare un nuovo prodotto e y sono gli introiti dovuti alle vendite di questo prodotto dopo un mese di

immissione sul mercato, ci aspettiamo che il valore di x influenzi/determini il valore di y

Paziente 1 2 3 4 5 6

X prima del trattamento 170.3 193.2 210.3 158.3 180.1 198.

Y dopo il trattamento 166.5 195.8 171.1 163.2 152.2 161.

Paziente 1 2 3 4 5 6

W 3.8 - 2.6 39.2 - 4.9 27.9 36.

Vogliamo costruire un modello dove y = f (x) per una opportuna funzione f che descrive la relazione tra le variabili x e y. Il caso più semplice a cui

possiamo pensare è quello della funzione lineare: 𝑦 = 𝛽 W

!

dove 𝛽 W

!

sono opportune costanti. Se la relazione tra le variabili fosse questa, sarebbe possibile predire con esattezza il valore di y per ogni

valore di x, una volta trovati i valori di 𝛽 W

!

. In pratica, questo livello di precisione non può essere raggiunto e quindi si introduce in (*) un

errore casuale. Quindi, la relazione concreta tra le variabili è:

W

!

𝑥 + 𝜀 retta di regressione lineare semplice di Y rispetto a x (**)

  • 𝜺 = errore casuale
  • 𝒀 = risposta: variabile aleatoria con media 0
  • 𝒙 = ingresso: variabile indipendente

𝟎

𝟏

= coefficienti di regressione: vengono stimati a partire da un campione di dati osservati

osservazione: Poiché E (𝜀) = 0, si ottiene E (Y) = 𝛽 W

!

osservazione: Un campione casuale estratto da un modello di regressione lineare è una famiglia

!

!

), dove le variabili aleatorie 𝑌

2

sono della forma 𝑌

2

W

!

2

2

, con 𝜀

!

variabili aleatorie indipendenti e identicamente distribuite con media zero

esempio 1 : La tabella riporta la superficie in 𝑚

"

e il costo dell’affitto mensile (in dollari) di 20 appartamenti in un quartiere residenziale di una

grande città americana

Creiamo il diagramma di dispersione (o scatter plot) dei dati

Il diagramma di dispersione delle coppie di dati raccolti mostra, a meno

di errori casuali, una relazione lineare tra le variabili.

Sembra quindi che la scelta di un modello di regressione lineare sia

appropriato

Stima dei coefficienti di regressione

I valori dei coefficienti di regressione 𝛽 W

!

in (**) sono ignoti e vanno stimati basandosi su un campione di dati osservati

Supponiamo di osservare, per i = 1, 2, 3, …, n, le risposte 𝑦 2

relative a certi valori di ingresso 𝑥 2

e di volerle usare per stimare 𝛽 W

!

Rappresentiamo il campione osservato di dati (𝑥 !

!

) in un diagramma di dispersione

Idea : trovare la retta che più si avvicina ai punti della nuvola. Cerchiamo

W

Ý

!

Ý

, le stime dei coefficienti 𝛽

W

!

, che permettono di minimizzare

l’errore quadratico

2

− u𝛽

W

Ý

!

Ý

2

v)

"

27!

2

− u𝛽

W

Ý

!

Ý

2

v = residuo

2

= risposta

W

Ý

!

Ý

2

= stima della risposta

Questo metodo, detto dei minimi quadrati, permette di ottenere gli stimatori dei coefficienti di regressione. Gli stimatori dei minimi

quadrati dei coefficienti di regressione 𝛽 W

!

sono rispettivamente:

!

Y

$

Y

Z

Y[\

%#

̅ ∑ $

Y

Z

Y[\

Y

]

%'#̅

]

Z

Y[\

(

!