







Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
statistica
Tipologia: Dispense
1 / 13
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!








La funzione di verosimiglianza.
Si consideri un campione ÐB ß á ß B Ñ" 8 di cui si suppone nota la distribuzione di probabilità congiunta a meno di un parametro (eventualmente vettoriale) ) −@, ovvero si consideri il modello statistico classico
Y (^) 8ß ) œ ˜ (^0) \ ßáß" 8 À 0\ ßáß\ (^) " 8 ÐB ß á ß B à" 8 ) Ñ − c (^) )ß ) −@™
dove c) denota una famiglia parametrica di funzioni di densità o di probabilità congiunte. Si osservi che una volta che il campione ÐB ß á ß B Ñ" 8 è stato osservato, la quantità (^0) \ ßáß" 8 ÐB ß á ß B à" 8 ) Ñè funzione solo di ). Questa funzione contiene tutta l'informazione relativa al campione stesso e, nel caso di v.c. campionarie discrete, rappresenta la probabilità di osservare a priori esattamente il campione ÐB ß á ß B Ñ" 8 che è stato osservato. Si definisce funzione di verosimiglianza (o semplicemente verosimiglianza) la
funzione PÀ @ Ä ‘∪ Ö!×tale che
PÐ Ñ œ PÐ à B ß á ß B Ñ œ -ÐB ß á ß B Ñ0) ) (^) " 8 " 8 \ ßáß" 8 ÐB ß á ß B à" 8 )Ñ ,) − @ Ð"Ñ
con -ÐB ß á ß B Ñ" 8 costante positiva che non dipende da ). La notazione PÐ à B ß á ß B Ñ) " 8 viene adottata perchè si vuole enfatizzare che la verosimiglianza è riferita proprio al campione ÐB ß á ß B Ñ" 8 e che una volta che il campione ÐB ß á ß B Ñ" 8 è stato osservato è funzione solo di ). Si osservi che, sebbene PÐ Ñ) sia essenzialmente determinata dalla distribuzione di probabilità delle v.c. campionarie, essa non è una distribuzione di probabilità su ). Per quanto riguarda la definizione di verosimiglianza come (^0) \ ßáß" 8 ÐB ß á ß B à" 8 )Ña meno della costante moltiplicativa -ÐB ß á ß B Ñ" 8 , una giustificazione intuitiva della presenza di -ÐB ß á ß B Ñ" 8 è la seguente. Si consideri il caso di v.c. campionarie discrete: se ) fosse noto, (^0) \ ßáß" 8 ÐB ß á ß B à" 8 )Ñ rappresenterebbe la probabilità di osservare proprio il campione che si è osservato e, dovendo scegliere tra due diversi valori ) (^) " e)# da attribuire a ), sarebbe naturale considerare il rapporto
0 ÐB ß á ß B à Ñ 0 ÐB ß á ß B à Ñ
\ ßáß\ " 8 " \ ßáß\ " 8 #
" 8 " 8
supponendo ovviamente che il denominatore non si annulli. Se il rapporto risultasse maggiore di uno, questo significherebbe che la probabilità di osservare il campione che si è effettivamente osservato risulta più grande se )"è il vero valore del parametro e pertanto saremmo propensi a scegliere ) (^) " quale valore di ). Ad una conclusione contraria si giunge ovviamente se il rapporto è minore di "ÞPoichè moltiplicando numeratore e denominatore per una costante non negativa che non dipende da ) il rapporto rimane invariato - e di conseguenza rimangono invariate le conclusioni cui si perviene sulla scelta tra ) (^) " e )# - si può concludere che quello che è rilevante per confrontare tra di loro i valori da attribuire al parametro è (^0) \ ßáß" 8 ÐB ß á ß B à" 8 )Ña meno della costante. Una giustificazione rigorosa della presenza di -ÐB ß á ß B Ñ" 8 nella
definizione di funzione di verosimiglianza deriva dal concetto di misure di probabilità equivalenti ed esula dallo scopo di questa trattazione. Dalla Ð"Ñ risulta comunque evidente che la funzione di verosimiglianza rappresenta una classe di funzioni che differiscono tra di loro per una costante moltiplicativa.
Nel caso di un campione casuale, poichè (^0) \ß8 ÐB ß á ß B à" 8 Ñ œ (^0) \ ÐB à 3 Ñßla 3œ"
8 ) # )
funzione di verosimiglianza risulta
PÐ Ñ œ PÐ à B ß á ß B Ñ œ -ÐB ß á ß B Ñ) ) (^) " 8 " 8 0 \ ÐB à 3 )Ñ ) − @Þ 3œ"
8 $ (^) ,
Esempio ". Si consideri l'esperimento che consiste nel lanciare una moneta truccata e sia : la probabilità che esca la faccia testa. Si ripeta l'esperimento "! volte e sia ) il numero di lanci in cui si è osservata la faccia testa. Sapendo che la moneta è truccata in modo che la probabilità che esca testa sia !Þ" o !Þ*, per poter scegliere quale dei due valori di : risulta più verosimile alla luce del campione osservato è necessario costruire la funzione di verosimiglianza. Poiche le v.c. campionarie \ Ð3 œ "ß á "!Ñ 3 che denotano l'esito del lancio sono v.c. di Bernoulli con parametro :, la verosimiglianza risulta
PÐ:Ñ œ -ÐB ß á ß B" "! Ñ (^0) \ ÐB à :Ñ œ -ÐB ß á ß B Ñ : 3 " Ð" :Ñ œ 3œ"
B Ð"B Ñ $
"! "! 3œ"^ 3œ"
"! "! 3 3
œ -ÐB ß á ß B Ñ: Ð" :Ñ" (^) "! )^ #.
Considerando il rapporto
PÐ!Þà B ß á ß B Ñ -ÐB ß á ß B Ñ !Þ ‚ !Þ" PÐ!Þ"à B ß á ß B Ñ -ÐB ß á ß B Ñ !Þ" ‚ !Þ*
œ œ &$"Þ%% " " " "! "
) # ) #
"! "! "!
risulta evidente come il valore !Þ*risulta molto più verosimile sulla base del campione osservato.
Poichè PÐ Ñ) è non negativa a ) −@, è possibile definire la funzione di log- verosimiglianza (o più semplicemente log-verosimiglianza), data da
6Ð Ñ œ 6Ð à B ß á ß B Ñ œ) ) (^) " 8 ln PÐ Ñ œ) ln -ÐB ß á ß B Ñ " 8 ln (^0) \ ßáß" 8 ÐB ß á ß B à" 8 )Ñ,
con ) − @ e con la convenzione che 6Ð Ñ œ ∞) se PÐ Ñ œ !). In modo analogo a quanto osservato per la verosimiglianza, la log-verosimiglianza rappresenta una classe di funzioni tutte "parallele" tra di loro, cioè che differiscono per la costante additiva ln -ÐB ß á ß B Ñ" 8. La verosimiglianza ha un ruolo fondamentale nell'inferenza statistica classica sia nell'ambito della teoria della stima che della verifica di ipotesi. Infatti essa combina l'informazione presperimentale - espressa nella scelta del modello, cioè della distribuzione di probabilità delle v.c. campionarie - con l'informazione sperimentale contenuta nel campione. Pertanto, in un certo senso, contiene tutto ciò che è noto sul
2Ð .Ñ œ ÐB .Ñ œ B 8. . B 3œ" 3œ" 3œ"
8 8 8 3
3 3
che risulta essere una parabola convessa con vertice nel punto di ascissa B–. Pertanto, se @ œ ‘ ß allora .s œ B– è la stima di massima verosimiglianza di .. Lo stimatore di massima verosimiglianza risulta quindi e si ha che. Di conseguenza,
\ \ μ R Ð .ß "Î8Ñ lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente per ., ed è inoltre efficiente. Se si suppone che nel medesimo modello lo spazio parametrico sia dato da @ œ Ò!ß ∞Ñ, allora la stima di massima verosimiglianza è data da
.s œ
œ! B Ÿ!
ovvero –^ Lo stimatore di massima verosimiglianza risulta , che
.s œ maxÐBß !ÑÞ maxÐ\ß !Ñ ovviamente non possiede una distribuzione Normale. In questo caso è più complesso determinare le proprietà per campioni finiti dello stimatore di m.v.. Se infine si suppone che nel medesimo modello lo spazio parametrico sia dato da @ œ Ð!ß ∞Ñ , allora la stima di massima verosimiglianza risulta .sœ B–^ se B * !– , mentre non esiste se – B Ÿ! in quanto il valore. œ !non fa parte dello spazio parametrico.
Esempio #Þ Dato un campione casuale ÐB ß á ß B Ñ" 8 con \ μ Y Ð 3 ) "#^ ß ) "#Ñ Ð3 œ "ß á ß 8Ñ, ) − @ œ ‘, la verosimiglianza risulta
PÐ Ñ œ -ÐB ß á ß B Ñ) (^) " 8 B 3 œ -ÐB ß á ß B Ñ" 8 ) 3œ"
8 $ (^) IÒ ß Ó (^) ) "# (^) ) "# (^) IÒB (^) Ð8Ñ ßB "# (^) Ð"Ñ Ó"#
dove B (^) Ð"Ñ e BÐ8Ñrappresentano rispettivamente l'osservazione campionaria più piccola e
quella più grande. Infatti, #I è uguale a se e solo se 3œ"
8 Ò ß Ó 3 3
" " ) "#^ ) "#^ B^ "^ )^ ^ # Ÿ B Ÿ^ )#
a3 œ "ß á ß 8ß e questo equivale a richiedere che B (^) Ð"Ñ )"# e contemporaneamente
B (^) Ð8Ñ Ÿ ) "#^ , da cui ) Ÿ B (^) Ð"Ñ "#^ e ) B (^) Ð8Ñ"#. Dall'espressione della funzione di verosimiglianza risulta evidente che tutti i valori dell'intervallo Ò ) "#^ ß ) "#Ósono punti di massimo e pertanto la stima di m.v. non è
unica.
Esempio $Þ Si consideri un campione casuale ÐB ß á ß B Ñ" 8 dove le v.c. campionarie \ 3 hanno distribuzione Weibull standard con parametro :, ovvero sono caratterizzate dalla seguente funzione di densità
(^0) \ ÐBà :Ñ œ :B 3 :" expÐ B Ñ 3 :^ IÐ!ß∞Ñ ÐB Ñß : − 3 @ œ‘.
La funzione di verosimiglianza risulta
PÐ Ñ œ -ÐB ß á ß B Ñ) (^) " 8 :B Ð B Ñ ÐB Ñ œ 3 3œ"
8 3 3
:" : $ (^) exp IÐ!ß∞Ñ
œ - ÐB ß á ß B Ñ : Ї^ " 8 8 B Ñ Ð B Ñ 3œ" 3œ"
8 8 3 3 $ :"^ exp :
da cui si ottiene la seguente log-verosimiglianza
6Ð:Ñ œ ln ÐB ß á ß B Ñ 8" 8 ln : Ð: "Ñ lnB 3 B : − 3œ" 3œ"
8 8 3
Studiando il comportamento della funzione di verosimiglianza o di log-verosimiglianza si può osservare che la stima di m.v. esiste ed è unica, ma non è possibile ottenere la forma analitica della stima di m.v. che pertanto deve essere ottenuta attraverso metodi di calcolo numerici.
Figura ". Grafico della funzione di verosimiglianza per 8 œ &, con -ÐB ß á ß B Ñ œ "" 8 e ÐB (^) Ð"Ñ ß B (^) Ð#Ñß B Ð$Ñ ß B (^) Ð%ÑÑ œ Ð#Þ#ß $Þ"ß $Þ(ß %Þ%ß 'Þ"Ñ.
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.
La necessità di ricorrere a metodi di calcolo onerosi è stato storicamente il principale ostacolo alla diffusione del metodo della m.v.. Oggi le risorse di calcolo fornite dai computer sono tali che questo problema è stato ampiamente ridimensionato. Si deve comunque sottolineare che una soluzione numerica è comunque una soluzione specifica, nel senso che, cambiando anche un solo dato del problema, il calcolo deve essere ripetuto. Inoltre la mancanza di una soluzione esplicita costituisce un limite poichè non consente di procedere a manipolazioni algebriche spesso utili per analizzare le proprietà dello stimatore per campioni finiti.
0 2 4 6
0
1
Figura $. Grafico della funzione di verosimiglianza per 8 œ &, con -ÐB ß á ß B Ñ œ "" 8 e ÐB (^) Ð"Ñ ß B (^) Ð#Ñß B Ð$Ñ ß B (^) Ð%Ñß B Ð&Ñ Ñ œ Ð "ß #ß %ß &ß *Ñ.
0 2 4 6 8
0
1
Esempio &. Si consideri un campione casuale ÐB ß á ß B Ñ" 8 dove le v.c. campionarie \ 3 hanno distribuzione Uniforme in Ò!ß )Ó , ) −‘. La verosimiglianza risulta
PÐ Ñ œ -ÐB ß á ß B Ñ B œ -ÐB ß á ß B Ñ
" (^8) 3œ") 3 " 8
8 Ò!ß Ó ÒB ∞Ñ
) (^) Ð8Ñ,+
Infatti, #I è uguale a se e solo se e questo equivale 3œ"
8 Ò!ß )Ó B^3 "^! Ÿ B Ÿ^3 )a3 œ "ß á ß 8ß a richiedere che B (^) Ð8Ñ Ÿ ), da cui ) BÐ8Ñ. Dall'espressione della funzione di verosimiglianza risulta evidente che la stima di massima verosimiglianza risulta s œ B ) (^) Ð8Ñ. (Si veda la figura %dove è riportato, a titolo esemplificativo, il grafico della
funzione di verosimiglianza per una scelta di valori di 8 e BÐ8Ñ).
Figura %. Grafico della funzione di verosimiglianza per 8 œ &, con -ÐB ß á ß B Ñ œ "" 8 e B (^) Ð&Ñ œ ".
0 0.5 1 1.5 2 2.5 3
0
1
Nel caso in cui la funzione di verosimiglianza è derivabile a ) −@, e di conseguenza lo è la funzione di log-verosimiglianza, allora nella maggior parte dei casi la stima di m.v. si ottiene risolvendo l'equazione (o il sistema di equazioni se )è vettoriale)data da
6Ð à B ß á ß B Ñ œ! )
detta equazione di verosimiglianza. Ovviamente, una volta risolta l'equazione di verosimiglianza, per determinare la stima di massima verosimiglianza si deve individuare quella soluzione per cui si ha il massimo assoluto della verosimiglianza. Comunque, è facile dimostrare che se sono verificate le seguenti condizioni 3Ñ il campo di variazione di Ð\ ß á ß \ Ñ" 8 non dipende da ); 33Ñ esiste la derivata (o, nel caso in cui )sia un vettore, esistono le derivate parziali) di (^0) \ ßáß" 8 ÐB ß á ß B à" 8 )Ñ in ) per ogni valore di ) −@; 333Ñ lo spazio parametrico @è un insieme aperto; 3@Ñ 6Ð à B ß á ß B Ñ Ä ∞) (^) " 8 quando ) si avvicina alla frontiera di@ allora la stima di massima verosimiglianza s)è una delle soluzioni dell'equazione di verosimiglianza. Nel caso in cui esista la derivata seconda di 6Ð à B ß á ß B Ñ) (^) " 8 in )per ogni valore di ) −@ (o, se )è un vettore, esistono le derivate parziali seconde) allora la stima di m.v. va ricercata tra quelle soluzioni dell'equazione di verosimiglianza per cui la derivata seconda è negativa (o, nel caso in cui il parametro sia vettoriale, per cui la matrice hessiana sia negativa definita). Pertanto si ha che, in questi casi, la stima di m.v. s ) (^) è tale che
6Ð à B ß á ß B Ñ œ !ß 6Ð à B ß á ß B Ñ 5 !Þ ) )
œ s^ œs
¹ (^) ) ) # ¹) )
Si osservi inoltre che se le condizioni 3 3@ sono verificate, nel caso in cui esista un'unica soluzione dell'equazione di verosimiglianza, allora questa è la stima di m.v.. Si ricordi comunque che può accadere che l'equazione di verosimiglianza non abbia soluzioni esplicite e quindi in questo caso si deve ricorrere a tecniche di massimizzazione numeriche.
in. e in 5 #^ ; 333Ñlo spazio parametrico è un insieme aperto ed in particolare si può dimostrare che 6Ð. 5ß #Ñ Ä ∞ quando ci si avvicina alla frontiera dello spazio parametrico e quindi anche la condizione 3@è verificata. Si può costruire il sistema di equazioni di verosimiglianza che risulta
ÚÝ Ý Û ÝÝ Ü
" 3œ"
8 3
8 " # #
3œ"
8 3
. 5
5 5 5
6Ð ß Ñ œ ÐB Ñ œ!
6Ð ß Ñ œ ÐB Ñ œ!
che ha un'unica soluzione Ð. 5s sß #^ Ñ œ ÐBß = Ñ– #. Dal momento che il sistema di equazioni verosimiglianza ha un'unica soluzione e che il massimo non può essere sulla frontiera dello spazio parametrico, si deve concludere che Ð. 8s sß Ñ œ ÐBß = Ñ – # è la stima di massima verosimiglianza di Ð. 5ß #Ñ.
Esempio ). Sia Ð\ ß á ß \ Ñ" 8 un campione casuale dove la v.c. \ 3 Ð3 œ "ß á ß 8Ñha una distribuzione di Esponenziale con parametro - , ovvero è caratterizzata dalla seguente funzione di densità
(^0) \ ÐBà - Ñ œ - exp˜^ - B ™IÐ!ß∞Ñ B ß - − ‘Þ
La funzione di verosimiglianza risulta
PÐ - Ñ œ -ÐB ß á ß B Ñ" 8 - 8 - 8B B 3 3œ"
8 exp˜^ – ™$^ IÐ!ß∞Ñ
da cui
6Ð - Ñ œ ln -ÐB ß á ß B Ñ 8" 8 ln - - 8B ln B 3 3œ"
8
Le condizioni 3 3@ sono verificate: infatti 3Ñ il campo di variazione diÐ\ ß á ß \ Ñ" 8 non dipende da - ; 33Ñ esiste la derivata di (^0) \ ßáß" 8 ÐB ß á ß B Ñ" 8 in - per ogni valore di
lim
6Ð - Ñ œ ∞.
Inoltre, si ha la seguente equazione di verosimiglianza
8
6Ð Ñ œ 8B œ!
che ha un'unica soluzione –. Pertanto lo stimatore di m.v. risulta^
La proprietà di equivarianza. La proprietà di equivarianza assicura la congruenza della stima di massima verosimiglianza quando si riparametrizza il modello originale mediante funzioni biunivoche dei parametri.
Dato un modello statistico, se 1À @ Ä I è una funzione biunivoca su @ e # œ 1Ð Ñ),
allora la stima di m.v. di # risulta s œ 1Ð Ñ# s) dove s) è la stima di m.v. di)Þ
Dimostrazione. Poichè 1 è biunivoca si può scrivere ) œ 1 "^ Ð Ñ# e quindi PÐ Ñ œ PÒ1) "Ð ÑÓ#. Sia s#il valore per cui è massima PÒ1 "^ Ð ÑÓ #. Quindi PÐ Ñ œ PÒ1s)^ "Ð ÑÓ^ s# da cui s) œ 1 "Ð Ñs# e di
conseguenza #s œ 1Ð Ñ s).
Questa proprietà permette di calcolare facilmente la stima di massima verosimiglianza
di funzioni biunivoche di ) quando si dispone della stima di massima verosimiglianza s).
Esempio ) Ð-98>38?+ÑÞ Calcolando il valore atteso e la varianza delle v.c. campionarie si ottiene che
IÐ\ Ñ œ Z Ð\ Ñ œ 3 œ "ß á ß 8
(^3 3) #
e
e quindi IÐ\ Ñ œ 1 Ð 3 " - Ñ e Z Ð\ Ñ œ 1 Ð 3 # - Ñ. Poiche le funzioni (^1) " e (^1) #sono biunivoche sullo spazio parametrico, allora, per la proprietà di equivarianza, la stima di m.v. di IÐ\ Ñ 3 è data da "Î s-^ œ B– e la stima di m.v. di Z Ð\ Ñ 3 è data da"ÎÐ s-Ñ #^ œ B– #Þ
L'efficienza e gli stimatori di massima verosimiglianza. Dato un modello statistico classico relativo ad un campione casuale Ð\ ß á ß \ Ñ" 8 , se esiste lo stimatore efficiente, ossia lo stimatore corretto con varianza coincidente con il limite inferiore di Rao-Cramer, questo si ottiene con il metodo della massima verosimiglianza.
Dimostrazione. Dalla disuguaglianza di Rao-Cramer si ha che condizione necessaria e sufficiente affinche esista lo stimatore efficiente X Ð\ ß á ß \ Ñ" 8 per ) è che valga la seguente relazione
5Ð ÑÒX Ð\ ß á ß \ Ñ Ó œ 0 Ð\ à Ñ
" (^8) 3œ" ) \ 3
8 ln
ma
e f
s (^) M Ð Ñ
Ä R !ß " Ð#Ñ 8! 8! "
.
La Ð#Ñriassume le ottime proprietà asintotiche degli stimatori di m.v.: gli stimatori di m.v. sono asintoticamente corretti, asintoticamente efficienti, nel senso che per grandi campioni la loro varianza tende al limite inferiore di Rao-Cramer e hanno distribuzione´ limite normale. Pertanto, da un punto di vista applicativo, per una dimensione campionaria sufficientemente grande lo stimatore di m.v. ha una distribuzione di probabilità che può essere approssimata da quella di una v.c. normale con valore atteso )! e varianza (^) M Ð 8 " ) (^) !Ñ. Infine, la Ð#Ñpuò anche essere opportunamente generalizzata al caso
di un vettore di parametri.