Statistica sperimentale | Dispense di Statistica

1 Analisi longitudinali

Gli studi longitudinali, dei quali noi abbiamo visto in aprticolare le misure ripetute, hanno come dimensione

fondamentale il tempo. Infatti le misure ripetute eseguono l’osservazione di diverse variabili di risposta, sullo

stesso soggetto, in diversi istanti temporali. Per questo motivo il tempo pu`o essere visto come un fattore

sperimentale ad a livelli, dove ogni livello indica un istante temporale, mentre il soggetto pu`o rappresentare il

fattore di blocco, che quindi permette allo sperimentatore di effettuare in maniera sicura le diverse misurazioni

sullo stesso soggetto. Possiamo quindi associare a questo contesto il termine dei fattori di blocco, quindi parlare

di un’estensione rispetto a quello che era il disegno BRC, a blocchi completamente randomizzato. A seconda

della disciplina in cui viene impiegato lo studio longitudinale, si hanno diverse definizioni. Ad esempio abbiamo

gli studi di coorte, dove si monitora lo stato di salute di una o pi`u persone durante un determinato intervallo

temporale; abbiamo gli studi panel, utilizzati soprattutto in ambito socio-economico, e possono anche essere

panel-routati, quando i soggetti che formano il panel uscenti dallo studio vengono sostituiti con altri soggetti

che presentino delle caratteristiche simili a coloro che escono; le serie storiche, utilizzate in ambito economico;

l’analisi di sopravvivenza, per la quale il tempo `e la risposta, che quindi ha come obbiettivo quello di studiare la

durata di un fenomeno, di un processo, o di un oggetto, e possono anche essere associati a studi osservazionali;

infine abbiamo l’analisi di tempi e metodi che studia l’ottimizzazione e l’efficienza all’interno di determinati

processi. Uno degli studi pi`u utilizzati `e lo studio pre-post, in cui vengono effettuate delle misurazioni sulle

variabili a cui siamo interessati, prima e dopo un determinato trattamento, per cui ogni variazione entro le

misurazioni, `e attribuibile ad un effetto associato al trattamento a cui ci si `e sottoposti (ad esempio placebo

come controllo contro farmaco in prova). Solitamente in questi casi prima di iniziare lo studio sperimentale si

raccolgono una serie di misurazioni sulla salute generale del paziente, e ci si aspetta molta pi`u variabilit`a fra

le misure associate a diversi soggetti, che variabilit`a associata alle misurazioni entro ciascun soggetto. Inoltre

quando lavoro con dei campioni molto numerosi, posso stratificarli in base ai fattori prognostici dei pazienti, e

quindi ho una moltitudine di fonti di variabilit`a che devo poter spiegare. Negli studi longitudinali le misurazioni

sulle variabili vengono raccolte durante un periodo di tempo, chiamato periodo di follow-up, in questo periodo

le misurazioni raccolte vengono registrate e raccolte pi`u volte, per cui lo studio produce una misura ripetuta su

una o pi`u variabili.

I vantaggi associati agli studi longitudinali sono dati dal fatto che prendendo delle misure ripetute nel tempo,

posso spiegare gli effetti associati al trattamento, che pu`o spiegare la variabilit`a entro il soggetto studiato;

tuttavia spesso non ho sempre tutte le misurazioni per ciascun istante temporale, per cui pu`o risultare molto

efficace utilizzare un modello ad effetti random.

Tuttavia gli svantaggi sono altrettanto importanti, in quanto ricollegandomi direttamente a quanto detto poco

fa, spesso durante il periodo di follow-up ho a che fare con i cosiddetti drop-out, ovvero i dati mancanti, che per

un determinato motivo escono fuori dallo studio sperimentale. Questo ha risultati non da poco, in quanto, ad

esempio nel caso pi`u estremo, se il soggetto che sta peggio di tutti gli altri abbandona lo studio ad un determinato

istante temporale, i risultati subiscono una distorsione molto importante rispetto ai soggetti rimanenti; quindi

devo sempre cercare di capire a fondo con quale tipo di dato mancante, di missing, si sta lavorando. Un altro

svantaggio da considerare `e la presenza delle covariate tempo-dipendenti, cio`e quelle covariate che agiscono sul

paziente ma che variano in base alla variazione del tempo, e che quindi devo maneggiare attentamente. Infine,

bisogna tener conto della correlazione entro il soggetto, cio`e della correlazione associata alle misurazioni rilevate

su un singolo soggetto. Problema altrettanto importante riguarda la censura, per censura si intende l’ignoranza

della condizione del paziente preso in considerazione prima dell’inizio e dopo la fine del trattamento.

La variabile di risposta misurata sul soggetto i-esimo al tempo j-esimo si indica con Yij, e l’istante di tempo

in cui avviene la misurazione `e indicato con tij, che simboleggia la j-esima osservazione sull’i-esimo individuo,

tuttavia quando i tempi sono equispaziati fra di loro quest’ultima notazione si pu`o anche ignorare, e solitamente

preferirei utilizzare lo stesso intervallo di tempo per tutti i controlli che si vogliono eseguire. In uno studio

longitudinale disegnato i tempi di misura seguiranno un protocollo pre-stabilito, con un insieme comune di

tempi di follow-up, cio`e tij =tj, ed in questo caso si dice che lo studio `e bilanciato.

Xij rappresenta la matrice delle covariate, e mi interessa per attribuire una struttura ai dati con cui sto

lavorando, e questo posso farlo considerando, oltre alla risposta media in funzione delle covariate, la correlazione

fra le osservazioni associate allo stesso soggetto ai tempi tjetk,ρjk =Cor (Yij, Yik ).

Nel caso si lavori con un disegno bilanciato si pu`o ricorrere ai modelli ANOVA (utilizzata per confrontare le

medie di pi`u gruppi indipendenti per vedere se ci sono differenze significative tra di loro; non considera alcuna

variabile aggiuntiva al di fuori delle variabili indipendenti principali), mentre nel caso si lavori con covariate

continue modelli ANCOVA.

L’ANCOVA `e un’estensione dell’ANOVA che include una o pi`u covariate, che sono variabili continue che possono

influenzare la variabile dipendente. L’inclusione di covariate permette di controllare per l’effetto di queste

variabili, migliorando cos`ı la precisione delle stime e riducendo l’errore residuo.

Se invece si lavora con disegni non bilanciati occorrer`a ricorrere a modelli di regressione, che tengano conto della

dipendenza delle osservazioni e della correlazione entro ciascun soggetto. Si utilizzano per lo pi`u i modelli ad

Anteprima parziale del testo

Scarica Statistica sperimentale e più Dispense in PDF di Statistica solo su Docsity!

1 Analisi longitudinali

Gli studi longitudinali, dei quali noi abbiamo visto in aprticolare le misure ripetute, hanno come dimensione fondamentale il tempo. Infatti le misure ripetute eseguono l’osservazione di diverse variabili di risposta, sullo stesso soggetto, in diversi istanti temporali. Per questo motivo il tempo puo essere visto come un fattore sperimentale ad a livelli, dove ogni livello indica un istante temporale, mentre il soggetto puo rappresentare il fattore di blocco, che quindi permette allo sperimentatore di effettuare in maniera sicura le diverse misurazioni sullo stesso soggetto. Possiamo quindi associare a questo contesto il termine dei fattori di blocco, quindi parlare di un’estensione rispetto a quello che era il disegno BRC, a blocchi completamente randomizzato. A seconda della disciplina in cui viene impiegato lo studio longitudinale, si hanno diverse definizioni. Ad esempio abbiamo gli studi di coorte, dove si monitora lo stato di salute di una o piu persone durante un determinato intervallo temporale; abbiamo gli studi panel, utilizzati soprattutto in ambito socio-economico, e possono anche essere panel-routati, quando i soggetti che formano il panel uscenti dallo studio vengono sostituiti con altri soggetti che presentino delle caratteristiche simili a coloro che escono; le serie storiche, utilizzate in ambito economico; l’analisi di sopravvivenza, per la quale il tempoe la risposta, che quindi ha come obbiettivo quello di studiare la durata di un fenomeno, di un processo, o di un oggetto, e possono anche essere associati a studi osservazionali; infine abbiamo l’analisi di tempi e metodi che studia l’ottimizzazione e l’efficienza all’interno di determinati processi. Uno degli studi piu utilizzatie lo studio pre-post, in cui vengono effettuate delle misurazioni sulle variabili a cui siamo interessati, prima e dopo un determinato trattamento, per cui ogni variazione entro le misurazioni, e attribuibile ad un effetto associato al trattamento a cui ci sie sottoposti (ad esempio placebo come controllo contro farmaco in prova). Solitamente in questi casi prima di iniziare lo studio sperimentale si raccolgono una serie di misurazioni sulla salute generale del paziente, e ci si aspetta molta piu variabilita fra le misure associate a diversi soggetti, che variabilita associata alle misurazioni entro ciascun soggetto. Inoltre quando lavoro con dei campioni molto numerosi, posso stratificarli in base ai fattori prognostici dei pazienti, e quindi ho una moltitudine di fonti di variabilita che devo poter spiegare. Negli studi longitudinali le misurazioni sulle variabili vengono raccolte durante un periodo di tempo, chiamato periodo di follow-up, in questo periodo le misurazioni raccolte vengono registrate e raccolte piu volte, per cui lo studio produce una misura ripetuta su una o piu variabili. I vantaggi associati agli studi longitudinali sono dati dal fatto che prendendo delle misure ripetute nel tempo, posso spiegare gli effetti associati al trattamento, che puo spiegare la variabilita entro il soggetto studiato; tuttavia spesso non ho sempre tutte le misurazioni per ciascun istante temporale, per cui puo risultare molto efficace utilizzare un modello ad effetti random. Tuttavia gli svantaggi sono altrettanto importanti, in quanto ricollegandomi direttamente a quanto detto poco fa, spesso durante il periodo di follow-up ho a che fare con i cosiddetti drop-out, ovvero i dati mancanti, che per un determinato motivo escono fuori dallo studio sperimentale. Questo ha risultati non da poco, in quanto, ad esempio nel caso piu estremo, se il soggetto che sta peggio di tutti gli altri abbandona lo studio ad un determinato istante temporale, i risultati subiscono una distorsione molto importante rispetto ai soggetti rimanenti; quindi devo sempre cercare di capire a fondo con quale tipo di dato mancante, di missing, si sta lavorando. Un altro svantaggio da considerare e la presenza delle covariate tempo-dipendenti, cioe quelle covariate che agiscono sul paziente ma che variano in base alla variazione del tempo, e che quindi devo maneggiare attentamente. Infine, bisogna tener conto della correlazione entro il soggetto, cioe della correlazione associata alle misurazioni rilevate su un singolo soggetto. Problema altrettanto importante riguarda la censura, per censura si intende l’ignoranza della condizione del paziente preso in considerazione prima dell’inizio e dopo la fine del trattamento. La variabile di risposta misurata sul soggetto i-esimo al tempo j-esimo si indica con Yij , e l’istante di tempo in cui avviene la misurazionee indicato con tij , che simboleggia la j-esima osservazione sull’i-esimo individuo, tuttavia quando i tempi sono equispaziati fra di loro quest’ultima notazione si puo anche ignorare, e solitamente preferirei utilizzare lo stesso intervallo di tempo per tutti i controlli che si vogliono eseguire. In uno studio longitudinale disegnato i tempi di misura seguiranno un protocollo pre-stabilito, con un insieme comune di tempi di follow-up, cioe tij = tj , ed in questo caso si dice che lo studio e bilanciato. Xij rappresenta la matrice delle covariate, e mi interessa per attribuire una struttura ai dati con cui sto lavorando, e questo posso farlo considerando, oltre alla risposta media in funzione delle covariate, la correlazione fra le osservazioni associate allo stesso soggetto ai tempi tj e tk, ρjk = Cor(Yij , Yik). Nel caso si lavori con un disegno bilanciato si puo ricorrere ai modelli ANOVA (utilizzata per confrontare le medie di piu gruppi indipendenti per vedere se ci sono differenze significative tra di loro; non considera alcuna variabile aggiuntiva al di fuori delle variabili indipendenti principali), mentre nel caso si lavori con covariate continue modelli ANCOVA. L’ANCOVAe un’estensione dell’ANOVA che include una o piu covariate, che sono variabili continue che possono influenzare la variabile dipendente. L’inclusione di covariate permette di controllare per l’effetto di queste variabili, migliorando cosı la precisione delle stime e riducendo l’errore residuo. Se invece si lavora con disegni non bilanciati occorrera ricorrere a modelli di regressione, che tengano conto della dipendenza delle osservazioni e della correlazione entro ciascun soggetto. Si utilizzano per lo piu i modelli ad

effetti random, che ricordano i disegni a blocchi completamente randomizzati; oppure i modelli che considerano un modello per la matrice di varianza-covarianza, stimati con il metodo GEE, Generalized Estimating Equations, che cercano di modellare la dipendenza dei dati effettuati sullo stesso soggetto, e sono fatti se non si ha un setting che si addice alla modellazione ad effetti random. Per vedere se ci sono differenze fra i pazienti e i gruppi di pazienti vengono utilizzate le statistiche descrittive, attraverso la rappresentazione delle traiettorie, cioe le misurazioni di ogni paziente, che mostrano come la risposta varia nel tempo. Posso fare anche uno ”Spaghetti Plot”, nel quale riporto le traiettorie sovrapposte fra di loro, stratificando in base a una determinata variabile indipendente (ad esempio la carica virale nell’esempio visto). Posso avere dei pazienti che presentano una grande variabilita nelle risposte, ma generalmente ci si aspetta che la distanza fra le misure prese su soggetti diversi sia maggiore della distanza esistente fra le misure appartenenti allo stesso soggetto. Se ρjk > 0 la variabilita entro soggettoe minore di quella fra soggetti, mentre se ρjk = 1 non c’e variabilita entro soggetto, cioe l’osservazione al tempo je uguale a quella del tempo k. Eseguire un’analisi che non tenga conto della dipendenza delle osservazioni comporta il rischio di sovrastima della varianza. Per il modello ad effetti random considero il caso piu semplice, ovvero quello in cui tutti gli effetti sono spiegati dalla retta di regressione. Come abbiamo gia detto i modelli ad effetto random sono lo sviluppo dei modelli randomizzati a blocchi. Nel caso di risposta normale, entro soggetto il modello appare come:

E(Yij |βi) = βi, 0 + βi, 1 · Xij

Yij = βi, 0 + βi, 1 · Xij + ϵij ϵij ∼ N (0, σ^2 )

La modellazione fatta su effetti random fra soggetti `e data da:

Se annullo la matrice di covarianza, cioe se D 01 e D 10 sono nulle posso pensarle come due variabili casuali indipendenti e normali. β 0 e β 1 possono essere effetti fissi, random o misti. L’intercetta random posso vederla come un fattore di blocco, cioe dato dall’effetto associato all’individuo. Ricentrando l’effetto random dell’i-esimo soggetto rispetto alla media, valutando cio`e lo scostamento rispetto a β 0 e β 1 ottengo: bi, 0 = (βi, 0 − β 0 ) bi, 1 = (βi, 1 − β 1 )

Per cui si ha bi, 0 ∼ N (0, σ 02 ) e bi, 1 ∼ N (0, σ^21 ), cioe la riparametrizzazione degli effetti. I vincoli di normalita che sto mettendo sui fattori andranno a definire la normalit`a della variabile di risposta. Risolvendo poi rispetto agli effetti random si ottiene βi, 0 = bi, 0 + β 0 e βi, 1 = bi, 1 + β 1 , per cui posso riscrivere il modello come:

Vedo che la risposta e legata alla media generale, ovvero alla parte fissa, sistematica, piu ad una variazione accidentale, cioe la parte specifica, relativa ai singoli pazienti, e random. Quest’ultima parte random,e formata dalla variabilita fra i soggetti e dalla componente di variabilita entro il soggetto ϵij , che mi indica quanto variano nel tempo le osservazioni sullo stesso soggetto. Generalizzando a p covariate ottengo:

Statistica sperimentale, Dispense di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Statistica sperimentale e più Dispense in PDF di Statistica solo su Docsity!

1 Analisi longitudinali