


















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Nella lezione 9 di Epidemiologia - Statistica di base I, vengono approfondite le tecniche statistiche per l'elaborazione dei dati epidemiologici. In questo contesto, si tratta non solo di dati legati alla malattia, ma anche a potenziali fonti di patologie. La lezione introduce la valutazione statistica di dati osservati, come campionamento randomico di popolazioni statistiche e calcolo di parametri statistici come media e mediana. Inoltre, vengono discusse le distribuzioni di dati e il concetto di scarto quadratico medio. Il documento si concentra sulla valutazione statistica di dati epidemiologici e l'importanza di massimizzare accuratezza e precisione.
Tipologia: Sbobinature
1 / 26
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



















In questa lezione si entra più nel dettaglio nell’elaborazione statistica dei dati in ambito epidemiologico. Nel momento in cui trattiamo dati epidemiologici non trattiamo solo dati legati alla malattia, ma trattiamo anche dati legati alle possibili fonti di potenziali patologie. Quindi, possiamo andare a valutare il tasso di contaminazione, per esempio, di aflatossine all’interno delle farine: l’aflatossina è una tossina fungina che può essere presente nelle farine e quindi andare a determinare degli effetti per quanto riguarda la salute della popolazione di cui va a contaminare gli alimenti di cui la stessa si nutre. NB : non interveniamo esclusivamente su malattie conclamate ma anche sui fattori che possono generare queste patologie. Da un punto di vista pratico, quali sono le domande che ci andiamo a porre? Più che domanda a cui dare una risposta, in realtà tendiamo a formulare delle ipotesi. Cioè, su una base di una certa evidenza di casi, determinato il possibile nesso causale, ci chiediamo se è vero che esiste un certo tipo di relazione causa-effetto tale che rimuovendo l’elemento di causa, allora rimuoviamo anche quel tipo di effetto. L’ipotesi che si va a fare deve essere coerente con quanto già sappiamo circa il nostro sistema di riferimento, in base alle nostre conoscenze pregresse, eventi e studi simili preliminari o fatti in parallelo. Abbiamo due tipologie fondamentali di ipotesi che possiamo andare a formulare:
quello di andarla a confutare => neghiamo che è vero non esiste la differenza, e quindi esiste una differenza. La statistica è impostata tutta su questo tipo di ipotesi. Se l’ipotesi nulla formulata sarà valida allora l’ipotesi alternativa : cioè è vero che esiste una differenza. La differenza deve essere però statisticamente significativa. Per statisticamente significativa si intende che sarà verificata nella maggioranza dei casi, non sempre (100%) ma al 99.9%, altrimenti rientriamo nella verità assoluta. Quindi rientriamo in una statistica, quindi una previsione che viene fatta. Andremo a valutare una serie di dati osservati (nuvola di dati osservati): dove ciascun pallino blu rappresenta un singolo dato sperimentale osservato. Ad esempio, un soggetto che presenta un certo livello di colesterolo nel sangue. Il nostro obbiettivo è, quindi, stabilire qual è l’andamento del colesterolo nel sangue all’interno della popolazione entro un certo limite di confidenza. Questo significa che noi faremo una valutazione sull’intera popolazione creando un modello che ci dice qual è lo scostamento tra il dato che andremo ad osservare (cerchi blu) e la nostra previsione. Verrà considerata una piccola parte della popolazione nella nostra analisi per avere una valutazione sull’intera popolazione. Questo, chiaramente, in relazione ad ogni singolo evento di cui vogliamo andare a determinare il rischio e fare una riflessione in termini di:
Procediamo ora ad illustrare le modalità delle procedure di formulazione e verifica di un’ipotesi nulla sulla base di un caso di studio, che abbiamo già inizialmente visto nel corso di metodologie epidemiologiche, in particolare nella prima lezione. Cioè il caso di focolai di Ebola virus in relazione ad eventi di deforestazione. Quindi, sulla base di studi pregressi possiamo immaginare che una perdita di biodiversità, una deforestazione e quindi un allargamento del margine possibile di contatto tra popolazione umana e foresta vergine, possa in qualche modo aumentare le probabilità di contatto con un possibile vettore di un’agente patogeno che ha come proprio serbatoio ambientale la foresta vergine. Quindi, ipotizziamo che possa esserci un maggiorato livello di contatto. Le ragioni che sottendono le ipotesi che andiamo a fare possono essere anche dei semplici sospetti che vengono poi confermati, in realtà, dalla pratica sperimentale. Quindi immaginiamo che il focolaio epidemico risulti essere la variabile dipendente (x) e la deforestazione risulti essere la variabile indipendente (y) => quindi all’aumentare del grado di deforestazione ci aspettiamo come conseguenza diretta un aumento del numero di focolai epidemici di una specifica patologia. Quindi l’ipotesi H 0 che andremo a formulare è: è vero che non esiste una relazione tra il livello di deforestazione e l’insorgenza di nuovi focolai epidemici della patologia X. Questa ipotesi dobbiamo andarla a discutere, confutare, attraverso una serie di dati analitici => quindi confrontare nel tempo e nello spazio i dati relativi alla deforestazione con quelli relativi ai focolai epidemici della patologia di nostro interesse.
Quindi possiamo formulare l’ipotesi H 0 e, di conseguenza, se tale ipotesi viene confutata sarà confermata l’ipotesi alternativa HA: è vero che esiste una relazione significativa tra le aree a diverso livello di deforestazione con la presenza di maggiore/minore presenza di focolai della patologia X. In particolare, possiamo formulare l’ipotesi H 0 sulla base di due diverse tipologie di diciture:
Il campionamento più utilizzato attualmente non è il censuario, cioè quello che va a considerare l’interezza della popolazione di riferimento per motivi di tempo ed economici, ma è quello randomizzato. Quindi una volta stabilita la popolazione dovremo capire quali sono le tecniche di campionamento. Per popolazione non si intende solo popolazione umana, ma anche la popolazione di campioni che può dare effetti sulla salute della popolazione umana: per es. il caso delle mozzarelle blu, aflatossine, pescato contaminato, farine contaminate da escrementi di topo… Anche questi possono essere oggetto di campionamento con dei riflessi dal punto di vista epidemiologico: si vanno a campionare un certo numero di un dato alimento, con una certa frequenza al fine di prevenire tossinfezioni alimentari nella popolazione umana che si va a nutrire di quell’alimento. Come facciamo a selezionare un campione all’interno di una popolazione? Lo facciamo attraverso degli strumenti abbastanza semplici da impiegare. Uno degli approcci più frequentemente utilizzati è quello della randomizzazione e quello, in particolare, dei numeri casuali.
Dove troviamo i numeri randomici? Li troviamo generalmente in tavole dei numeri randomici alla fine dei libri di statistica o li possiamo generare con specifici software. Possiamo utilizzare questi numeri per selezionare i soggetti da coinvolgere in uno studio in una certa popolazione. Per esempio: se volessimo fare un’indagine all’interno di un istituto scolastico, potremmo andare a considerare all’interno di ciascuna classe, prendendo il primo numero randomico (in tabella 72965 ) potremmo andare a considerare il soggetto che sta al settimo posto della prima riga di ogni classe, ed intervistare il soggetto. Questa è una gestione randomica di popolazione. Il nostro obbiettivo, una volta identificata la popolazione è andare ad effettuare dei sotto- campionamenti per ottenere delle informazioni che poi possono essere processate ed elaborate a scala di laboratorio (o di tavolino). Nel momento in cui si prelevano dei campioni in termini di informazioni dello stato di salute sella popolazione, elaboriamo queste informazioni in termini di attività desk, e quindi quanti soggetti dono malati, quanti sani, quanti sono stati esposti e quanti non sono stati esposti in un certo intervallo di tempo.
Ipotizziamo di prelevare un numero di soggetti dalla popolazione sorgente ed individuare rispetto a tali soggetti qual è il tasso di incidenza della patologia X. Diciamo che in una popolazione è 10.1 ed in altre popolazioni 1 1 .4, 11.7, 12.1, 13.3. Possiamo andare a calcolare due parametri base che sono:
Quindi 1.34 rappresenta la nostra varianza, cioè la capacità complessiva che hanno i dati di scostarsi rispetto alla distribuzione media però elaborata come scarto quadratico. A cosa serve la varianza? Serve a calcolarci la deviazione standard. La deviazione standard non è altro che la misura dell’errore che va a contribuire all’interpretazione del nostro dato analitico. La varianza può essere utilizzata efficacemente accanto alla media per indicare, a seconda del livello di confidenza che vogliamo assegnare alla nostra valutazione, un’incertezza attorno alla misura. Quindi, ci da un’indicazione circa l’accuratezza e la precisione con cui il nostro dato può essere espresso. La deviazione standard non è altro che la radice quadrata della varianza, quindi nel nostro caso risulterà 1.16. In particolar modo però, è possibile introdurre ulteriormente nel nostro sistema di valutazione un altro parametro: il COEFFICIENTE DI VARIAZIONE , che ci dice qual è la variabilità del nostro dato all’interno della distribuzione considerata. Quanto variano mediamente tra loro i valori dei dati che abbiamo sperimentalmente raccolto? Quindi, quanto si potrebbero mediamente scostare rispetto al valore medio? Questo parametro lo calcoliamo come rapporto tra (deviazione standard)/(media dei nostri dati) x100. Utilizzando i nostri valori relativi alle 5 sub-popolazioni: 11.6/11.72 = 0.10 (x100) => 10% Quindi i dati all’interno del nostro sistema variano complessivamente di ~ 10%. Ciò significa che il dato di incidenza della sub-popolazione 1 varia di ~ 10% mediamente rispetto al dato di incidenza della sub-popolazione 2, della sub popolazione 3 e così via. Questo ci dà una misura in qualche modo della dispersione dei dati nella nuvola dei dati che potremmo rappresentare in un diagramma del tipo x-y. I dati sono 5 e questi si discostano l’uno dall’altro mediamente di ~ 10%.
Quindi il nostro obbiettivo in termini di valutazione epidemiologica, statistica più in generale, è quella di massimizzare accuratezza e precisione.
L’intervallo di confidenza può essere calcolato in vari modi, quello più frequentemente utilizzato è quello del ricorso al cosiddetto “ Errore standard ”. L’errore standard si definisce come rapporto tra la deviazione standard e la radice quadrata della numerosità campionaria. Nel nostro caso specifico, l’errore standard è dato da 1.16/ radice di 5 = 0. Cosa vuol dire questo 0.52? significa che attorno alla media esiste un errore standard che è funzione degli scarti che ci sono tra l’osservato e la media e rispetto alla numerosità campionaria. Se noi avessimo aumentato il numero di campioni valutati avremmo avuto un aumento sia al numeratore che al denominatore ; o viceversa potremmo aver avuto una riduzione del numeratore aumentando il numero di soggetti intervistati perché la
distanza, lo scarto tra il dato osservato e la media dei dati osservati, potrebbe essersi ridotta; mentre, il numerato è aumentato quando si ha una deviazione standard più bassa e quindi è più affidabile l’errore standard. Come facciamo a stabilire qual è l’intervallo di confidenza attorno ad una misura? Lo facciamo a partire dall’errore standard, e considerando generalmente la cosiddetta distribuzione Student’s t. Si tratta di una distribuzione che frequentemente si riscontra in natura, ecco perché è frequentemente utilizzata nell’ambito statistico, dove ad esempio le foglie di un ramo piuttosto che il numero di organismi presenti su di una foglia seguono una distribuzione che può essere prevista attraverso la distribuzione Student’s t. Quindi, c’è una frequenza di accadimenti che può essere facilmente prevista, naturalmente parlando attraverso questo tipo di funzione. Quindi bisogna immaginare di avere da un lato una funzione ideale …. In questa diapositiva vediamo la funzione Student’s t-distribution : in basso a destra descritta per n gradi di libertà. A seconda del numero di variabili in gioco avremo una serie di funzioni t-d Student’s con una capacità previsionale differenziale, fino ad arrivare ad una stabilizzazione per infiniti gradi di libertà del sistema. La struttura della funzione t-d Student’s è una struttura a campana o sigmoide:
Quindi il nostro obbiettivo è capire come selezionare t, un parametro caratteristico di una certa distribuzione che può essere opportunamente determinato. Bisogna sapere che i vari t ideali, cioè quelli legati alle previsioni che possiamo fare per n gradi del nostro sistema sono già presenti in modo tabulato all’interno di tavole dei cosiddetti “ t critici ”. Questi sono già calcolati da modelli previsionali e disponibili in web o alla fine dei libri di statistica. Quello che andiamo a trovare nei libri di statistica potrebbe essere una tabella di questo tipo. Si tratta di una tabella che si caratterizza per
1. Gradi di libertà del sistema (DF)
risulta essere affidabile e il valore di t tende a diminuire (nell’ultima colonna passa da 63.66 a 3.06…) fino a stabilizzarsi a infiniti valori di t. L’ α più frequentemente utilizzato è del 5% (0.05) => quindi 5 casi ogni 100 sono sbagliati. Es: ogni 100 soggetti vaccinati 5 non rispondo al vaccino. Quindi come facciamo, nell’esempio appena fatto, a valutare l’intervallo di confidenza, e quindi incertezza, associabile al nostro valore medio? Lo calcoliamo rispetto al valore t-d Student’s. Sappiamo che abbiamo a disposizione 5 dati analitici sperimentalmente ottenuti ( osservazioni); i gradi di libertà del sistema sono 4. Ci interessa nel nostro intervallo di confidenza non più di 5 volte su 100. Possiamo quindi andare a determinare il valore t critico corrispondente a 4 DF considerando un 5% d’errore => in tabella t=2.78. questo valore verrà utilizzato nella formula per costruire il nostro valore di incertezza. Il risultato nel nostro caso sarà 11.72 (10.27 - 13.17). Arriveremo ad un certo punto in cui ci chiederemo se è vero che esiste una differenza statisticamente significativa tra questo intervallo (popolazione A) e quello di un’altra popolazione (B). Cioè tra la popolazione A e la popolazione B afflitte dalla stessa patologia, c’è mediamente un’incidenza comparabile? Ci sono altre procedure che potremmo adottare per dare questo tipo di interpretazione sempre a meno di un certo livello e grado di confidenza da introdurre nel nostro sistema. Quindi noi possiamo stimare quanti dati possono essere necessari affinché l’errore e la confidenza che possiamo attribuire ad un certo dato medio sia tale. In questo caso, abbiamo ottenuto un valore di 1.. Questo valore è o meno accettabile rispetto i nostri canoni? Noi avremmo voluto che l’incertezza attorno al nostro valore medio fosse non di 1.45 ma di 1. Su che parametro quindi possiamo andare ad intervenire? Non sulla distribuzione t-d Student’s perché è fissa.