









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti del corso di Modelli Probabilistici per le Decisioni della prof. Elisabetta Fersini. Appunti scritti sulla base delle slide e delle lezioni dell'anno accademico 2023/24
Tipologia: Appunti
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










- 26 giugno Una variabile casuale può essere un'osservazione, un esito o un evento il cui valore è incerto. Un insieme di possibili valori della variabile casuale è detto dominio, o spazio degli eventi. Uno spazio di probabilità, o modello di probabilità, è uno spazio degli eventi corredato da un assegnamento P (ω) per ogni ω ∈ Ω tale per cui 0 ≤ P (ω) ≤ 1 e
ω P^ (ω) = 1. Si possono creare nuovi eventi combinando gli esiti di diverse variabili casuali. Un evento atomico (campione) è una specicazione completa del valore delle variabili casuali di interesse. L'insieme di tutti i possibili eventi atomici ha due proprietà: è mutualmente esaustivo (non può succedere nessun altro evento atomico fuori dall'insieme) ed è mutualmente esclusivo (può vericarsi solo uno degli eventi atomici dell'insieme). Dato Ω lo spazio degli eventi, per il quale ω ∈ Ω è un campione, un even- to A può essere un qualunque sottoinsieme di Ω, la cui probabilità è data da P (A) =
(ω∈A) P^ (ω). Una variabile aleatoria è una variabile che può assumere valori diversi in cor- rispondenza di altrettanti eventi che costituiscono una partizione dello spazio delle probabilità. La teoria delle probabilità può essere derivata dalle tre seguenti leggi:
tutte le probabilità sono comprese tra 0 e 1 inclusi: 0 ≤ P (a) ≤ 1
se qualcosa è necessariamente vero, la sua probabilità è 1 : P (true) = 1 e P (false) = 0
la probabilità disgiunta che due variabili siano vere è P (a ∨ b) = P (a) + P (b) − P (a ∧ b)
La probabilità disgiunta è l'unione di due eventi, la cui formula è P (a ∨ b) = P (a) + P (b) − P (a ∧ b). La probabilità condizionata rappresenta la verosimiglianza che un evento a si verichi se b si verica, denotato con P (a|b). Le probabilità condizionate riet- tono il fatto che alcuni eventi rendono altri eventi più verosimili. Se un evento non inuisce sulla realizzazione di un altro evento, allora sono detti indipenden- ti: P (a|b) = P (a). La probabilità congiunta si ha quando due eventi si vericano contemporanea- mente, quindi date le probabilità dei singoli eventi e la loro probabilità condi- zionata si ha P (a ∧ b) = P (a|b)P (b) = P (b|a)P (a). La regola di Bayes permette di riordinare i termini della proprietà congiunta, ottenendo P (a|b) = P^ (b P|a ()bP)^ (a). Esiste una scorciatoia nella regola di Bayes, ovvero la scorciatoia della norma- lizzazione. Se conosciamo la P (e|c) per ogni causa possiamo evitare di dover
conoscere la P (e), ottenendo P (c|e) = P^ (e P|c ()eP)^ (c)= P ∀h∈CauseP^ (e|c )PP (^ (ec|)h)P (h) , per la
quale il denominatore risulta essere il fattore di normalizzazione. Si deve notare che la regola di Bayes conda nel fatto che l'eetto deve essere scaturito a causa di una delle cause ipotizzate. In denitiva, il Teorema di Bayes si può scrivere come P (a|b) = αP (b|a)P (a) = α < P (b|a = v)P (a = v), P (b|a = f )P (a = f ) > dove:
una variabile senza genitori, quindi un nodo radice, ha una CPT costitui- ta da una sola riga che contiene i valori di probabilità a priori per ogni possibile valore che la variabile può assumere
Il grafo della rete Bayesiana non deve contenere cicli, deve quindi essere un Directed Acyclic Graph (DAG), infatti non è possibile che una variabile inuenzi se stessa. La semantica delle reti Bayesiane può essere presentata e compresa in base:
la rete rappresenta una distribuzione congiunta di probabilità, importante per progettare ed implementare procedure di inferenza
la rete codica un insieme di relazioni di indipendenza condizionale, im- portante per comprendere come sia possibile costruire un Modello di rete Bayesiana
La distribuzione di probabilità congiunta dell'insieme di variabili presenti all'in- terno di una rete Bayesiana viene rappresentata come P (X 1 = x 1 ∧.. .∧Xn = xn) che, in forma abbreviata, diventa P (x 1 ,... , xn). Sfruttando le relazioni di dipendenza tra le variabili (tra gli e genitori), possiamo usare la formula di fattorizzazione della distribuzione congiunta di probabilità P (x 1 ,... , xn) = Πni=1P (xi|parents(Xi)). Quindi, se una rete Bayesiana rappresenta una distri- buzione di probabilità congiunta, allora essa può essere usata per rispondere a qualsiasi query relativa al dominio che descrive. La formula di fattorizzazione implica relazioni di indipendenza condizionale che possono essere sfruttate per determinare la componente topologica della re- te Bayesiana. Possiamo riscrivere la regole della probabilità congiunta come P (x 1 ,... , xn) = Πni=1P (xi|xn− 1 ,... , x 1 ), questa è nota come chain rule. Con- frontando la chain rule con la formula di fattorizzazione, è possibile vericare che la specicazione della distribuzione di probabilità congiunta è equivalen- te all'asserzione generale che, per ogni variabile Xi, vale P (xi|xi− 1 ,... , x 1 ) = P (xi|parents(Xi)) a patto che P arents(xi) ⊆ {xi− 1 ,... , x 1 }. Una rete Baye- siana rappresenta correttamente un dominio solo a condizione che ogni nodo risulti condizionalmente indipendente dai suoi predecessori dati i suoi genitori. Quindi, per costruire una rete Bayesiana, è necessario scegliere, per ogni nodo, i nodi genitore in modo corretto. Una possibile procedure per la costruzione incrementale della componente topologica di una rete Bayesiana è sintetizzabile nei seguenti passi:
selezionare un insieme di variabili {X 1 ,... , Xn} da utilizzare per descri- vere il dominio da modellare
scegliere un ordinamento delle variabili
inizializzare il numero di nodi aggiunti alla rete
selezionare la variabile Xi e aggiungere il nodo corrispondente alla rete:
porre P arents(Xi) uguale all'insieme minimale di nodi attualmente appartenenti alla rete, tale per cui P (Xi|Xi− 1 ,... , X) = P (Xi|P arents(Xi)) computare la CPT per la variabile Xi
incrementare il numero di nodi aggiunti alla rete: i = i + 1. Se si so- no aggiunti tutte le variabili alla rete la procedura termina, altrimenti ricominciare dal punto precedente
Consideriamo una rete Bayesiana costituita da n variabili Booleane, la quan- tità di informazione necessaria per specicare una qualsiasi CPT è limitata superiormente da 2 k^ numeri, per cui la rete completa richiede di specicare al più n 2 k^ numeri, per specicare invece l'intera distribuzione congiunta richie- de 2 n^ numeri. Questa appena proposto è una semantica numerica per le reti Bayesiane. L'utilizzo di tale semantica ha consentito di derivare un metodo per la costruzione di reti Bayesiane, che ha posto in evidenza come ogni nodo risulti essere condizionalmente indipendente dai suoi predecessori, data la co- noscenza dello stato dei suoi nodi genitore. Inoltre, dato un ordinamento di variabili {X 1 ,... , Xn}, per ogni nodo Xi i suoi predecessori (o non discendenti) sono i nodi {X 1 ,... , Xi− 1 } mentre i suoi successori (o discendenti) sono i nodi {Xi+1,... , Xn}. Quindi, un nodo X è condizionalmente indipendente dai suoi non discendenti, data la conoscenza dello stato dei suoi genitori, e da tutti i nodi restanti della rete, data la conoscenza dello stato del suo Markov Blanket (nodi genitori, gli e genitori dei gli).
Esiste un metodo semplice per determinare se, in una rete Bayesiana, due varia- bili sono condizionalmente indipendenti. X e Y sono D-separati da un insieme E di variabili con evidenza, se e solo se ogni cammino non orientato da X e Y è bloccato. Un cammino è bloccato se e solo se vale almeno una delle seguenti condizioni:
esiste una variabile N lungo il cammino tale che appartiene all'insieme E e gli archi che collegano V al cammino sono tail-to-tail. Quindi X e Y sono D-separati (condizionalmente indipendenti) dato che il percorso tra X e Y è bloccato da N esiste una variabile N lungo il cammino tale che appartiene all'insieme E e gli archi che collegano V al cammino sono tail-to-head. Quindi X e Y sono D-separati (condizionalmente indipendenti) dato che il percorso tra X e Y è bloccato da N
esiste una variabile N lungo il cammino tale che non appartiene all'insieme E, nessuno dei suoi discendenti appartiene all'insieme E delle variabili con evidenza e gli archi che collegano N al cammino sono head-to-head. Quindi X e Y sono D-separati (condizionalmente indipendenti) dato che il percorso tra X e Y è bloccato da N
Quindi, due variabili A e B sono D-separate se e solo se per ogni percorso tra di loro esiste una variabile intermedia V tale per cui la connessione è seriale o divergente e V è nota, oppure la connessione è convergente e nè V nè i suoi discendenti hanno evidenza. Due variabili sono D-connesse se e solo se non sono D-separate. Se in una rete Bayesiana un insieme E di variabili con evidenza D-separa X e Z, allora X e Z sono indipendenti. La D-separazione può essere calcolata in tempo lineare.
insieme di intervalli. Questa può essere una buona soluzione, anche se spesso porta una considerevole perdita di accuratezza e a CPT di grandi dimensioni. Una soluzione alternativa consiste nel denire famiglie standard di funzioni di densità di probabilità, che vengono descritte tramite un numero nito e conte- nuto di parametri. Ad esempio, la funzione di densità di probabilità Gaussiana univariata N (μ, σ^2 ) e completamente specicata tramite i due seguenti parame- tri: la media μ e la varianza σ^2. Una rete che contiene nodi discreti e nodi continui viene detta rete Bayesiana ibrida. Per specicare una rete Bayesiana ibrida, dobbiamo denire due nuovi tipi di distribuzione:
la distribuzione condizionale di una variabile continua dati i genitori di- screti o continui
la distribuzione condizionale di una variabile discreta dati i genitori con- tinui
Il compito primario di ogni sistema inferenziale probabilistico consiste nel com- putare la distribuzione a posteriori, per un determinato insieme di variabili query, quando si sia osservato un determinato evento, ovvero un assegnamento congiunti di valori ad un insieme di variabili evidenziate. Indicheremo tramite:
X la variabile query
E l'insieme delle variabili evidenziate
e uno specico evento
Y l'insieme delle variabili non evidenziate
Una tipica query richiede di computare la distribuzione a priori P (X|E = e). Dato un modello di rete Bayesiana, è possibile eettuare le seguenti tipologie di inferenza:
inferenza diagnostica, dagli eetti alle cause. P (X|E)
inferenza causale, dalle cause agli eetti. P (X|E)
inferenza intercausale, tra cause di un eetto comune. P (X|... , E). In questo specico caso si può notare che l'aver osservato che una delle due cause si sia vericata, fa divenire meno probabile il fatto che l'altra causa, genitore dello stesso evento, si sia vericata (explaining away)
inferenza mista, combinazione di due o più delle tipologie di inferenza precedenti. P (X|E, E)
Ci chiediamo ora come possiamo rispondere ad una query del tipo P (X|E = e), questo è possibile sfruttando l'equazione P (X|E = e) = αP (X, E = e) = α
y P^ (X, E^ =^ e, Y^ =^ y).^ In base alla regola di fattorizzazione, i termini P (X, E = e, Y = y) possono essere scritti sotto forma di prodotti di probabilità condizionali della rete. Quindi, ad una query è possibile rispondere utilizzando
una rete Bayesiana tramite la computazione di somme di prodotti di probabilità condizionali di rete. Per eettuare questo calcolo, nel caso peggiore (marginalizzazione su tutte le variabili) la complessità dell'algoritmo su una rete Bayesiana di n variabili boo- leane è di O(n 2 n). La regola di marginalizzazione consiste, dati due insiemi di variabili Y e Z, in P (Y ) =
z P^ (Y, z), dove^ z^ è la realizzazione della variabile causale^ Z. L'inferenza per enumerazione si basa quindi sulle probabilità che troviamo sulla tabella di probabilità e permette di rispondere ad una query in modo veloce, sommando le probabilità in questione. Inoltre, è possibile calcolare anche la probabilità condizionata in modo facile e veloce. Per calcolare la costante di normalizzazione si usa la formula α = (^) D^1 , dove D è dato dal denominatore della probabilità condizionata. Quindi, come principio generale, per l'inferenza si se- guono i seguenti passi: specicare la variabile oggetto di query, si ssa lo stato delle variabili con evidenza e si calcola la probabilità a posteriori eettuando la somma rispetto alle variabili senza evidenza. Per migliorare la complessità del calcolo, è possibile agire direttamente sull'e- spressione ottenuta. L'algoritmo di enumerazione agisce quindi su questa nuova espressione migliorata, e agisce iterando su tutte le possibili realizzazioni con- giunte delle variabili coinvolte, ottenendo così un albero. In questo modo la complessità di abbassa a O(2n). A questo punto, se si verica l'albero ottenuto, può capitare che ci siano delle ripetizioni della computazione eettuate dall'algoritmo di enumerazione. Si può quindi migliorare l'algoritmo eliminando le ripetizioni ottenute. Un esempio di algoritmo che compie questa azione è l'algoritmo di eliminazione variabili. Que- sto algoritmo funziona valutando espressioni da destra verso sinistra (bottom- up), i risultati intermedi vengono memorizzati e la marginalizzazione su ogni variabile viene eettuata solo per le porzioni dell'espressione che dipendono dal- la variabile stessa. Quindi, il principio sul quale si basa questo algoritmo è: data una variabile oggetto della query, ogni variabile che non sia predecessore di tale variabile, oppure che non sia predecessore di una variabile con eviden- za, risulta essere irrilevante per la query. L'algoritmo di eliminazione variabili risulta, quindi, più eciente dell'algoritmo di enumerazione, in quanto evita computazioni ripetute.
Una sequenza di numeri casuali è una sequenza di realizzazioni di variabili alea- torie indipendenti e identicamente distribuite. Una sequenza di numeri pseudocasuali è una sequenza di numeri che sembrano impredicibili, da cui non si riesce ad estrarre alcuna regolarità. Hanno però delle ben denite proprietà statistiche, queste proprietà sono: indipendenza statisti- ca, uniformità della distribuzione, riproducibilità della sequenza di valori e non ripetitività su un pressato periodo. Una routine di generazione di numeri pseudocasuali, li genera da una distribu- zione uniforme. Essa dovrà essere veloce, avere un ciclo sucientemente lungo, non presentare larghi gap tra due numeri generati, essere replicabile e genera- re numeri con proprietà statistiche più vicine possibile a quelle ideali. Questa routine, quindi, genererà numeri compresi nell'intervallo [0, 1].
la regola
X = a + (b − a)U 1 Y = cU 2
, ad ogni coppia di valori (U 1 , U 2 ) corrisponde-
rà una coppia (X, Y ) appartenente al rettangolo [a, b]x[0, c]. Se la coppia (x, y) cade all'interno dell'area della funzione fX (X) viene accettata e sarà utilizzata per creare la sequenza pseudocasuale desiderata, altrimenti viene scartata (e la procedura viene ripetuta). La sequenza di valori X così ottenuta è una sequenza pseudocasuale che segue la legge di distribuzione fX (X). Questo metodo è molto eciente quando l'area di fX (X) copre quasi tutto il rettangolo [a, b]x[0, c] (pochi scarti). Descriviamo ora i passi dell'algoritmo Acceptance-rejection usando come para- metro di accettazione/riuto la probabilità:
si genera un'istanza di una variabile R distribuita in modo uniforme nel- l'intervallo [a, b] (U (a, b))
si accetta tale valore con probabilità pari a (^) maxfX f^ (XR ()X) e, quindi, lo si riuta con probabilità 1 − (^) maxfX f^ (XR ()X)
Questo metodo viene utilizzato solo in assenza di altri metodi.
La complessità dell'inferenza esatta nelle reti Bayesiane dipende fortemente dal- la struttura della rete. Se nella rete esiste al massimo un percorso non orientato tra due nodi qualsiasi, allora si parla di reti singolarmente connesse (Polytree) e hanno una importante proprietà: il tempo e la complessità spaziale dell'inferenza esatta sono lineari rispetto alla dimensione (numero di parametri che deniscono le CPT) della rete. Se il numero di genitori di ciascun nodo è delimitato da una costante, la complessità sarà anche lineare nel numero di nodi. Se la rete è connessa in modo multiplo, il tempo e la complessità spaziale è esponenziale (nel peggiore dei casi). Anche l'inferenza è un problema NP-hard. Quindi, l'inferenza in reti Bayesiane con struttura generale è un problema NP- hard. La computazione della probabilità a posteriore per tutte le variabili appartenen- ti alla rete può risultare meno eciente. In una rete Polytree computare questa probabilità richiede di eettuare O(n) query che costano O(n), ottenendo così una complessità di O(n^2 ). L'impiego di un algoritmo appartenente alla classe degli algoritmo di clustering (join tree algorithms) consente di ridurre la com- plessità in tempo a O(n). Gli algoritmo di clustering permettono di unire i nodi di una rete, formando dei clusters di variabili, in modo tale che la rete di clusters risultante sia un Polytree, al quale applicare un algoritmo di inferenza ecace. Bisogna notare che questi tipo di algoritmi sono caratterizzati dal fatto che l'inferenza sia un problema NP-hard. Data l'intrattabilità dell'inferenza esatta nel caso di reti multiplamente connesse, diviene essenziale prendere in considerazione algoritmi di inferenza approssima- ta. Di seguito presentiamo algoritmi appartenenti alla categoria Monte Carlo, la cui accuratezza dipenderà dal numero di campioni generati.
L'elemento base di ogni algoritmo di campionamento è la capacità di generare campioni da una specicata distribuzione di probabilità. La situazione più semplice di campionamento di una rete Bayesiana è quella nella quale nessuna variabile della rete ha evidenza associata. L'idea è di campionare la rete seguendo l'ordine topologico, la distribuzione di probabilità utilizzata per il campionamento di ogni nodo è quella che risulta dal condizionamento sui valori dei nodi genitore. L'algoritmo di campionamento a priori di una rete Bayesiana senza variabili con evidenza viene detto Campiona-Priori (algoritmo 1). Questo algoritmo genera campioni dalla distribuzione di probabilità congiunta a priori per il modello di rete Bayesiana specicata. Indichiamo con SCP (x 1 ,... , xn) la probabilità che uno specico evento sia generato, dalla natura del procedimen- to abbiamo che SCP (x 1 ,... , xn) = Πni=1P (xi|parents(Xi)) = P (x 1 ,... , xn) in quanto ogni campione dipende solo dal valore assunto dai nodi genitore. Le risposte alle query vengono computate tramite conteggio dei campioni ge- nerati. Supponiamo vengano generati N campioni e sia NCP (x 1 ,... , xn) la frequenza riscontata per l'evento (x 1 ,... , xn) negli N campioni. Ci si atten- te che tale frequenza converga, nel limite, al suo valore atteso in accorso al- la distribuzione di probabilità dalla quale vengono estratti gli N campioni: limn→∞ NCP^ (x N^1 ,...,x n)= SCP (x 1 ,... , xn) = P (x 1 ,... , xn). Una tale stima viene detta consistente, ad esempio è possibile produrre una stima consistente della probabilità di ogni evento parzialmente specicato x 1 ,... , xm con m ≤ n con la formula P (x 1 ,... , xn) ≈ NP S^ (x N^1 ,...,x m). La probabilità di un evento parzialmen- te specicato viene stimata come la frazione dei casi compatibili con l'evento par- zialmente specicato sul numero di tutti i casi generati tramite campionamento.
Algorithm 1 Campiona-Priori
Function Campiona-Priori(bn) Input bn (rete) con distribuzione P (x 1 ,... , xn) X ← evento con n elementi for i = 1 to n do xi ← campione casuale estratto da P (Xi|parents(Xi)) end for return X
Nel caso in cui si sia interessati a computare una probabilità condizionata del tipo P (X|E = e) è possibile utilizzare l'algoritmo di Campionamento con Riget- to (Rejection Sampling), che utilizza l'algoritmo Campiona-Priori per generare campioni dalla distribuzione di probabilità congiunta rappresentata dalla rete Bayesiana, e successivamente riuta tutti quei campioni generati che non sono conformi dal punto di vista dell'evidenza e. La stima delle posteriori viene otte- nuta contando la frequenza per X = x nell'insieme dei campioni non rigettati. Indichiamo con pˆ(X|E = e) la stima della distribuzione di probabilità a poste- riori computata dall'algoritmo di Campionamento con Rigetto. In base all'al- goritmo avremo pˆ(X|E = e) = αNCP (X, E = e) = N NCPCP^ (X,E (E==e)e )≈ P (X|E = e).
Algorithm 2 MCMC-Richiesta Function MCMC-Richiesta(X,e,bn,N) N [X] vettore di conteggi su X, inizialmente nullo Z insieme delle variabili senza evidenza in bn x stato corrente della rete inizializza x con valori casuali per le variabili appartenenti a Z for j = 1 to N do for all Zi ∈ Z do estrai un campione per Zi da P (Zi|mb(Zi)) N [x] ← N [x] + 1 end for end for return Normalize(N (X))
Il compito di prendere una decisione dipende da più fattori, come le informazioni parziali, le informazioni rumorose e dall'incertezza sui cambiamenti dell'ambien- te nel corso del tempo. Per descrivere un mondo mutevole si usano una serie di variabili casuali, descritte da uno stato in ogni istante temporale. Da queste denizioni si derivano due tipi di modelli: i modelli stocastici (il valore delle variabili non cambia nel tempo) e i modelli dinamici (il valore delle variabili cambia nel tempo, lo stato corrente dipende dalla storia, ovvero dagli stati pas- sati, e il processo di cambiamento è descritto da una serie di "fotograe", dette time slice, ognuna delle quali contiene un insieme di variabili casuali). Un processo stocastico {X(t), t ∈ T } è un insieme di variabili casuali, dove con X(t) si indica una variabile casuale (o un vettore di variabili casuali) che evolve nel tempo. Con T si indica l'insieme degli indici e con X lo spazio degli sta- ti, entrambi possono essere continui o discreti, ottenendo quattro tipologie di processi stocastici: a tempo continuo (t > 0 ), a tempo discreto (t = 0, 1 ,.. .), a stati continui e a stati discreti. X(t) rappresenta, quindi, il valore dello stato del sistema al tempo t, ovvero il valore di una variabile casuale che descrive lo stato del sistema al tempo t.
Una importante proprietà dei processi stocastici è la proprietà Markoviana, tale proprietà assicura che i valori futuri del processo dipendono solo dal valore corrente e non dai valori passati. In formula P (Xt+1 = it+1|Xt = it). I processi stocastici con questa proprietà sono detti processi di Markov. Un processo stocastico a tempi discreti è detto catena di Markov se, per t = 1, 2 ,... e per tutti gli stati, si ha P (Xt+1 = j|Xt = i) e se P (X 0 = i) = qi allora q = [q 1... qi... qn] è la distribuzione di probabilità iniziale della catena. Se la probabilità di un certo evento è indipendente dal tempo t, la catena di Markov si denisce stazionaria e si ha che P (Xt+1 = j|Xt = i) = pij , dove pij è la probabilità che al tempo t + 1 il sistema sarà nello stato j, essendo nello stato i al tempo t. Il valore pij ha altre proprietà: pij ≥ 0 e
Pn j=0 pij^ = 1. Inoltre, si può costruire una matrice di transizione (a un passo) che racchiuda tutti i
possibili valori di pij.
p 11 p 12... p 1 n p 21 p 22... p 2 n
............ pn 1 pn 2... pnn
La matrice P è rappresentabile come un grafo, dove ogni noto rappresenta uno stato e l'arco (i, j) rappresenta la probabilità di transizione pij. Quindi, per descrivere interamente una catena di Markov avremo bisogno di:
stati: {S 1 , S 2 ,... , SN }
probabilità di transizione tra stati (rappresentata come matrice nxn): aij = P (Xt+1 = Si|Xt = Sj )
distribuzione iniziale degli stati: πi = P [X 1 = Si]
Se una catena di Markov si trova in uno stato i al tempo m, possiamo dedurre quale sia la probabilità che dopo n passi si trovi nello stato j (problema di previ- sione) tramite la formula P (Xm+n = j|Xm = i) = P (Xn = j|X 0 = i) = Pij (n). Da notare che, nel secondo passaggio, viene eliminata la m per la proprietà di stazionarietà, infatti la probabilità è indipendente dal passato. Il risultato, quindi, sarà il ij − esimo elemento della matrice P n^ ottenuta moltiplicando P per se stessa n volte. La probabilità di transizione di essere in uno stato j al tempo n, non conoscendo lo stato della catena di Markov al tempo 0 , è dato da
i qiPij^ (n) =^ q(colonna j di P n), dove qi è la probabilità che la catena sia nello stato i al tempo 0. Classicazione degli stati:
uno stato j è raggiungibile da uno stato i se esiste un cammino che da i arriva a j, quindi P (^) ijn > 0
due stati i e j comunicano se j è raggiungibile da i e viceversa
una catena di Markov è detta irriducibile se tutti i suoi stati sono comu- nicanti fra loro
un insieme di stati S è un insieme chiuso se nessuno stato fuori S è raggiungibile dagli stati di S
uno stato i si dice assorbente se Pii = 1, questo tipo di stato è anche detto terminante
uno stato i si dice transiente se esisto uno stato j raggiungibile da i, ma i non è raggiungibile da j, quindi
n=1 P^
n ii <^ ∞, ovvero che prima o poi i non sarà più raggiungibile
uno stato i che non è transiente si dice ricorrente, quindi
n=1 P^
n ii =^ ∞, ovvero che periodicamente verrà raggiunto lo stato i
uno stato i è periodico di periodo k > 1 se k è il più piccolo numero tale che tutti i cammini che dallo stato i ritornano ad i hanno una lunghezza che è multiplo di k
uno stato non periodico è detto aperiodico
La predizione è un ltraggio privo dell'aggiunta di nuove osservazioni, quindi P (Xt+k|e1:t). Quindi, avremo a disposizione la matrice di transizione e la di- stribuzione al tempo 0 , ma non si avranno nuove evidenze, quindi il calcolo sarà P (Xt+1) =
xt P^ (Xt+1|xt)P^ (xt). Quando si cercherà di predire sempre più avanti nel futuro, maggiore è l'incer- tezza del modello, più breve sarà il tempo per raggiungere un punto sso per una predizione (distribuzione stazionaria).
Lo Smoothing è il processo di calcolo della distribuzione di stati passati, da- te le osservazioni no allo stato corrente, quindi P (Xk|e1:t) per 1 ≤ k < t. Per calcolare la distribuzione, bisogna considerare separatamente le osservazio- ni no a k e quelle da k + 1 a t, ottenendo quindi la formula P (Xk|e1:t) = αP (Xk|e1:k)P (ek+1:t|Xk) = αf1:kbk+1:t, dove f1:k consiste nel ltrare in avanti da 1 a k, mentre bk+1:t consiste nel backward. Il backward viene calcolato trami- te la formula P (ek+1:t|Xk) =
xk+1 P^ (ek+1|xk+1)P^ (ek+2:t|xk+1)P^ (xk+1|Xk). Questa inferenza ha alcune limitazioni, infatti la complessità spaziale è mol- to elevata (molti state e sequenze lunghe) e non ha possibilità di lavorare in ambienti online.
Data una sequenza di osservazioni, vogliamo trovare la sequenza di stati che più probabilmente ha generato il set di osservazioni, quindi argmaxx1:t. Consideriamo ogni sequenza come un cammino lungo un grafo, quindi la pro- babilità di ogni cammino è il prodotto delle probabilità di transizione per le probabilità delle osservazioni rilevate ad ogni stato. L'algoritmo di Viterbi si basa sull'assunzione che esiste una relazione ricorsiva fra i cammini più probabili verso ogni stato xt+1 e i cammini più probabili verso ogni stato xt. Quindi, la relazione ricorsiva risulta maxx 1 ,...,xt P (x 1 ,... , xt, Xt+1|e1:t+1) = αP (et+1)maxxt (P (Xt+1|xt)maxx 1 ,...,xt P (x 1 ,... , xt− 1 , xt|e1:t)). Al termine del- l'operazione, verrà ricavata la probabilità della sequenza più probabile che rag- giunge ogni stato nale.