Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Lezione 9: Epidemiologia - Statistica di base I, Sbobinature di Epidemiologia

Nella lezione 9 di Epidemiologia - Statistica di base I, vengono approfondite le tecniche statistiche per l'elaborazione dei dati epidemiologici. In questo contesto, si tratta non solo di dati legati alla malattia, ma anche a potenziali fonti di patologie. La lezione introduce la valutazione statistica di dati osservati, come campionamento randomico di popolazioni statistiche e calcolo di parametri statistici come media e mediana. Inoltre, vengono discusse le distribuzioni di dati e il concetto di scarto quadratico medio. Il documento si concentra sulla valutazione statistica di dati epidemiologici e l'importanza di massimizzare accuratezza e precisione.

Tipologia: Sbobinature

2020/2021

Caricato il 26/10/2021

miriam-di-rosa
miriam-di-rosa 🇮🇹

3 documenti

1 / 26

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Epidemiologia - Lezione 9 25/03/2021
Statistica di base I
In questa lezione si entra più nel dettaglio nell’elaborazione statistica dei dati in ambito
epidemiologico.
Nel momento in cui trattiamo dati epidemiologici non trattiamo solo dati legati alla malattia,
ma trattiamo anche dati legati alle possibili fonti di potenziali patologie. Quindi, possiamo
andare a valutare il tasso di contaminazione, per esempio, di aflatossine all’interno delle
farine: l’aflatossina è una tossina fungina che può essere presente nelle farine e quindi
andare a determinare degli effetti per quanto riguarda la salute della popolazione di cui va
a contaminare gli alimenti di cui la stessa si nutre.
NB: non interveniamo esclusivamente su malattie conclamate ma anche sui fattori che
possono generare queste patologie.
Da un punto di vista pratico, quali
sono le domande che ci andiamo a
porre? Più che domanda a cui dare
una risposta, in realtà tendiamo a
formulare delle ipotesi. Cioè, su una
base di una certa evidenza di casi,
determinato il possibile nesso
causale, ci chiediamo se è vero che
esiste un certo tipo di relazione
causa-effetto tale che rimuovendo
l’elemento di causa, allora
rimuoviamo anche quel tipo di
effetto.
L’ipotesi che si va a fare deve essere coerente con quanto già sappiamo circa il nostro
sistema di riferimento, in base alle nostre conoscenze pregresse, eventi e studi simili
preliminari o fatti in parallelo.
Abbiamo due tipologie fondamentali di ipotesi che possiamo andare a formulare:
1) Ipotesi nulla (H0)
2) Ipotesi alternativa (HA)
per definizione è un’ipotesi che si caratterizza nella pratica sperimentale per una
formulazione di tipo CONSERVATIVO. Ovvero, se affermiamo che è vero che non esiste
una differenza statisticamente significativa tra l’incidenza della patologia X nella
popolazione A e l’incidenza della patologia X nella popolazione B, questa sarà l’ipotesi a
cui dare la risposta => è vero che non esiste una differenza.
Perché utilizziamo una formulazione conservativa di questo tipo, negando l’esistenza di
una differenza? Noi vogliamo affermare l’esistenza di una similitudine entro un certo grado
di confidenza, ma utilizziamo questa ipotesi perché il nostro obbiettivo è eventualmente
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Anteprima parziale del testo

Scarica Lezione 9: Epidemiologia - Statistica di base I e più Sbobinature in PDF di Epidemiologia solo su Docsity!

Epidemiologia - Lezione 9 25/03/

Statistica di base I

In questa lezione si entra più nel dettaglio nell’elaborazione statistica dei dati in ambito epidemiologico. Nel momento in cui trattiamo dati epidemiologici non trattiamo solo dati legati alla malattia, ma trattiamo anche dati legati alle possibili fonti di potenziali patologie. Quindi, possiamo andare a valutare il tasso di contaminazione, per esempio, di aflatossine all’interno delle farine: l’aflatossina è una tossina fungina che può essere presente nelle farine e quindi andare a determinare degli effetti per quanto riguarda la salute della popolazione di cui va a contaminare gli alimenti di cui la stessa si nutre. NB : non interveniamo esclusivamente su malattie conclamate ma anche sui fattori che possono generare queste patologie. Da un punto di vista pratico, quali sono le domande che ci andiamo a porre? Più che domanda a cui dare una risposta, in realtà tendiamo a formulare delle ipotesi. Cioè, su una base di una certa evidenza di casi, determinato il possibile nesso causale, ci chiediamo se è vero che esiste un certo tipo di relazione causa-effetto tale che rimuovendo l’elemento di causa, allora rimuoviamo anche quel tipo di effetto. L’ipotesi che si va a fare deve essere coerente con quanto già sappiamo circa il nostro sistema di riferimento, in base alle nostre conoscenze pregresse, eventi e studi simili preliminari o fatti in parallelo. Abbiamo due tipologie fondamentali di ipotesi che possiamo andare a formulare:

  1. Ipotesi nulla (H 0 )
  2. Ipotesi alternativa (HA) per definizione è un’ipotesi che si caratterizza nella pratica sperimentale per una formulazione di tipo CONSERVATIVO. Ovvero, se affermiamo che è vero che non esiste una differenza statisticamente significativa tra l’incidenza della patologia X nella popolazione A e l’incidenza della patologia X nella popolazione B, questa sarà l’ipotesi a cui dare la risposta => è vero che non esiste una differenza. Perché utilizziamo una formulazione conservativa di questo tipo, negando l’esistenza di una differenza? Noi vogliamo affermare l’esistenza di una similitudine entro un certo grado di confidenza, ma utilizziamo questa ipotesi perché il nostro obbiettivo è eventualmente

quello di andarla a confutare => neghiamo che è vero non esiste la differenza, e quindi esiste una differenza. La statistica è impostata tutta su questo tipo di ipotesi. Se l’ipotesi nulla formulata sarà valida allora l’ipotesi alternativa : cioè è vero che esiste una differenza. La differenza deve essere però statisticamente significativa. Per statisticamente significativa si intende che sarà verificata nella maggioranza dei casi, non sempre (100%) ma al 99.9%, altrimenti rientriamo nella verità assoluta. Quindi rientriamo in una statistica, quindi una previsione che viene fatta. Andremo a valutare una serie di dati osservati (nuvola di dati osservati): dove ciascun pallino blu rappresenta un singolo dato sperimentale osservato. Ad esempio, un soggetto che presenta un certo livello di colesterolo nel sangue. Il nostro obbiettivo è, quindi, stabilire qual è l’andamento del colesterolo nel sangue all’interno della popolazione entro un certo limite di confidenza. Questo significa che noi faremo una valutazione sull’intera popolazione creando un modello che ci dice qual è lo scostamento tra il dato che andremo ad osservare (cerchi blu) e la nostra previsione. Verrà considerata una piccola parte della popolazione nella nostra analisi per avere una valutazione sull’intera popolazione. Questo, chiaramente, in relazione ad ogni singolo evento di cui vogliamo andare a determinare il rischio e fare una riflessione in termini di:

  • Valutazione del rischio
  • Gestione del rischio
  • Prevenzione del rischio
  • Comunicazione di rischio Quindi, l’ipotesi una volta formulata deve essere eventualmente confutata mediante un’attività di campionamento. Il campionamento può essere legato all’utilizzo di dati attraverso il loro recupero mediante lo studio epidemiologico, quindi abbiamo dei soggetti che vengono coinvolti nello studio rispetto ad eventi espositivi o meno. Tuttavia, il campionamento può riguardare anche delle matrici alimentari, perché l’epidemiologia si basa sull’insorgenza di patologie che possono essere collegate ad eventi espositivi che non riguardano solo la trasmissione di un agente di carattere biologico ma anche uno chimico, quindi un alimento contaminato può determinare una contaminazione del soggetto, che diventa paziente e manifesta poi una patologia. Quindi il campionamento rappresenterà una parte importante per l’acquisizione dell’informazione necessaria ad alimentare il processo di confutazione delle ipotesi che sono state formulate. Una volta raccolti i dati (tabulati ed eventualmente già stati rappresentati) per poter essere compresi entro un certo termine di affidabilità devono essere sottoposti ad un’analisi

Procediamo ora ad illustrare le modalità delle procedure di formulazione e verifica di un’ipotesi nulla sulla base di un caso di studio, che abbiamo già inizialmente visto nel corso di metodologie epidemiologiche, in particolare nella prima lezione. Cioè il caso di focolai di Ebola virus in relazione ad eventi di deforestazione. Quindi, sulla base di studi pregressi possiamo immaginare che una perdita di biodiversità, una deforestazione e quindi un allargamento del margine possibile di contatto tra popolazione umana e foresta vergine, possa in qualche modo aumentare le probabilità di contatto con un possibile vettore di un’agente patogeno che ha come proprio serbatoio ambientale la foresta vergine. Quindi, ipotizziamo che possa esserci un maggiorato livello di contatto. Le ragioni che sottendono le ipotesi che andiamo a fare possono essere anche dei semplici sospetti che vengono poi confermati, in realtà, dalla pratica sperimentale. Quindi immaginiamo che il focolaio epidemico risulti essere la variabile dipendente (x) e la deforestazione risulti essere la variabile indipendente (y) => quindi all’aumentare del grado di deforestazione ci aspettiamo come conseguenza diretta un aumento del numero di focolai epidemici di una specifica patologia. Quindi l’ipotesi H 0 che andremo a formulare è: è vero che non esiste una relazione tra il livello di deforestazione e l’insorgenza di nuovi focolai epidemici della patologia X. Questa ipotesi dobbiamo andarla a discutere, confutare, attraverso una serie di dati analitici => quindi confrontare nel tempo e nello spazio i dati relativi alla deforestazione con quelli relativi ai focolai epidemici della patologia di nostro interesse.

Quindi possiamo formulare l’ipotesi H 0 e, di conseguenza, se tale ipotesi viene confutata sarà confermata l’ipotesi alternativa HA: è vero che esiste una relazione significativa tra le aree a diverso livello di deforestazione con la presenza di maggiore/minore presenza di focolai della patologia X. In particolare, possiamo formulare l’ipotesi H 0 sulla base di due diverse tipologie di diciture:

  1. **In base alle differenze
  2. In base agli andamenti**

Il campionamento più utilizzato attualmente non è il censuario, cioè quello che va a considerare l’interezza della popolazione di riferimento per motivi di tempo ed economici, ma è quello randomizzato. Quindi una volta stabilita la popolazione dovremo capire quali sono le tecniche di campionamento. Per popolazione non si intende solo popolazione umana, ma anche la popolazione di campioni che può dare effetti sulla salute della popolazione umana: per es. il caso delle mozzarelle blu, aflatossine, pescato contaminato, farine contaminate da escrementi di topo… Anche questi possono essere oggetto di campionamento con dei riflessi dal punto di vista epidemiologico: si vanno a campionare un certo numero di un dato alimento, con una certa frequenza al fine di prevenire tossinfezioni alimentari nella popolazione umana che si va a nutrire di quell’alimento. Come facciamo a selezionare un campione all’interno di una popolazione? Lo facciamo attraverso degli strumenti abbastanza semplici da impiegare. Uno degli approcci più frequentemente utilizzati è quello della randomizzazione e quello, in particolare, dei numeri casuali.

Dove troviamo i numeri randomici? Li troviamo generalmente in tavole dei numeri randomici alla fine dei libri di statistica o li possiamo generare con specifici software. Possiamo utilizzare questi numeri per selezionare i soggetti da coinvolgere in uno studio in una certa popolazione. Per esempio: se volessimo fare un’indagine all’interno di un istituto scolastico, potremmo andare a considerare all’interno di ciascuna classe, prendendo il primo numero randomico (in tabella 72965 ) potremmo andare a considerare il soggetto che sta al settimo posto della prima riga di ogni classe, ed intervistare il soggetto. Questa è una gestione randomica di popolazione. Il nostro obbiettivo, una volta identificata la popolazione è andare ad effettuare dei sotto- campionamenti per ottenere delle informazioni che poi possono essere processate ed elaborate a scala di laboratorio (o di tavolino). Nel momento in cui si prelevano dei campioni in termini di informazioni dello stato di salute sella popolazione, elaboriamo queste informazioni in termini di attività desk, e quindi quanti soggetti dono malati, quanti sani, quanti sono stati esposti e quanti non sono stati esposti in un certo intervallo di tempo.

Ipotizziamo di prelevare un numero di soggetti dalla popolazione sorgente ed individuare rispetto a tali soggetti qual è il tasso di incidenza della patologia X. Diciamo che in una popolazione è 10.1 ed in altre popolazioni 1 1 .4, 11.7, 12.1, 13.3. Possiamo andare a calcolare due parametri base che sono:

  • Il valore medio dell’incidenza delle 5 sub- popolazioni valutate
  • La mediana , un parametro simmetrico legato alla simmetria delle distribuzioni ordinate dei dati. Generalmente i dati sono ordinati in modo crescente o decrescente. La mediana non è altro che il valore centrale della distribuzione. È estremamente importante però, a partire da media e mediana, riuscire anche ad aumentare il livello ed il grado di descrizione del nostro database. Il database nel nostro caso è molto limitato poiché abbiamo 5 dati. Iniziamo a parlare di Big- data, dati che si possono avere a livello bioinformatico. Ci sono progetti d ricerca volti a gestire database enormi, alcuni dei quali riguardano studi epidemiologici. Quindi non ci possiamo accontentare di gestire le nostre informazioni solo rispetto alla media e alla mediana che sono delle informazioni utili ma molto riduttive, perché ci danno un’informazione un po' scarna rispetto alle attese anche in ermini di previsioni; anche perché possono rappresentare un problema => non ci danno un’idea chiara di quelle che è la distribuzione delle informazioni all’interno delle nostre popolazioni campionate. Non ci possiamo accontentare nemmeno, nell’ambito della statistica descrittiva, non solo di media e mediana ma anche dei valori di minimo e massimo delle popolazioni indagate. Immaginiamo di avere due distribuzioni di dati, distribuzione A e distribuzione B in diapositiva.
  • Distribuzione A : ha un intervallo che va da 5 a 35, però l’incidenza si distribuisce poi vero 19, 20, 20, 31, 35
  • Distribuzione B : incidenza che si distribuisce a 15, 20, 25, 30, 35. Gli estremi sono gli stessi (5 e 35) però la popolazione ha al suo interno un grado di incidenza molto diverso => Quindi, né media né mediana né minimo e massimo sono sufficienti a descrivere completamente le nostre distribuzioni di dati. Dobbiamo ulteriormente approfondire la nostra statistica descrittiva. Infatti, si chiama statistica descrittiva proprio perché ci consente banalmente di avere una chiara idea di come i dati si comportano nelle diverse distribuzioni. Una prima misura un po' più complessa che possiamo introdurre è quella dei cosiddetti scarti quadratici , ed in particolar modo della deviazione esistente tra il dato osservato e la media dei dati osservati. È vero che esiste una differenza significativa tra il dato osservato e la media dei dati osservati? Gli scarti quadratici medi ci danno una misura della differenza che c’è tra il dato osservato medio ed il dato osservato, che contribuisce comunque alla media. Tanto più basso è il valore degli scarti quadratici medi, tanto maggiore risulterà essere la similitudine tra il singolo dato e la media; viceversa, tanto più alto è il valore degli scarti quadratici medi, tanto maggiore sarà la differenza tra il singolo dato e la media dei dati. => ad indicare che i dati sono molto dispersi: ogni soggetto risponde in modo molto diverso rispetto ad un altro. Gli scarti quadratici medi, rispetto all’esempio dei 5 dati incidenza di sub-popolazioni, sono presenti in diapositiva. Quindi in questo caso il valore degli scarti quadratici medi è di 5.37.

Quindi 1.34 rappresenta la nostra varianza, cioè la capacità complessiva che hanno i dati di scostarsi rispetto alla distribuzione media però elaborata come scarto quadratico. A cosa serve la varianza? Serve a calcolarci la deviazione standard. La deviazione standard non è altro che la misura dell’errore che va a contribuire all’interpretazione del nostro dato analitico. La varianza può essere utilizzata efficacemente accanto alla media per indicare, a seconda del livello di confidenza che vogliamo assegnare alla nostra valutazione, un’incertezza attorno alla misura. Quindi, ci da un’indicazione circa l’accuratezza e la precisione con cui il nostro dato può essere espresso. La deviazione standard non è altro che la radice quadrata della varianza, quindi nel nostro caso risulterà 1.16. In particolar modo però, è possibile introdurre ulteriormente nel nostro sistema di valutazione un altro parametro: il COEFFICIENTE DI VARIAZIONE , che ci dice qual è la variabilità del nostro dato all’interno della distribuzione considerata. Quanto variano mediamente tra loro i valori dei dati che abbiamo sperimentalmente raccolto? Quindi, quanto si potrebbero mediamente scostare rispetto al valore medio? Questo parametro lo calcoliamo come rapporto tra (deviazione standard)/(media dei nostri dati) x100. Utilizzando i nostri valori relativi alle 5 sub-popolazioni: 11.6/11.72 = 0.10 (x100) => 10% Quindi i dati all’interno del nostro sistema variano complessivamente di ~ 10%. Ciò significa che il dato di incidenza della sub-popolazione 1 varia di ~ 10% mediamente rispetto al dato di incidenza della sub-popolazione 2, della sub popolazione 3 e così via. Questo ci dà una misura in qualche modo della dispersione dei dati nella nuvola dei dati che potremmo rappresentare in un diagramma del tipo x-y. I dati sono 5 e questi si discostano l’uno dall’altro mediamente di ~ 10%.

Quindi il nostro obbiettivo in termini di valutazione epidemiologica, statistica più in generale, è quella di massimizzare accuratezza e precisione.

  • Nel caso del campione 1 : il campione si caratterizza per una bassa precisione ma alta accuratezza. Valutiamo sempre il campione per un valore che però si caratterizza per uno scostamento molto forte rispetto al valore medio. Quindi è poco preciso ma molto accurato. Questo perché, ci sono dei valori che si discostano rispetto al valor medio su piani diversi
  • Nel caso del campione 2 : il campione è molto preciso ma poco accurato.

L’intervallo di confidenza può essere calcolato in vari modi, quello più frequentemente utilizzato è quello del ricorso al cosiddetto “ Errore standard ”. L’errore standard si definisce come rapporto tra la deviazione standard e la radice quadrata della numerosità campionaria. Nel nostro caso specifico, l’errore standard è dato da 1.16/ radice di 5 = 0. Cosa vuol dire questo 0.52? significa che attorno alla media esiste un errore standard che è funzione degli scarti che ci sono tra l’osservato e la media e rispetto alla numerosità campionaria. Se noi avessimo aumentato il numero di campioni valutati avremmo avuto un aumento sia al numeratore che al denominatore ; o viceversa potremmo aver avuto una riduzione del numeratore aumentando il numero di soggetti intervistati perché la

distanza, lo scarto tra il dato osservato e la media dei dati osservati, potrebbe essersi ridotta; mentre, il numerato è aumentato quando si ha una deviazione standard più bassa e quindi è più affidabile l’errore standard. Come facciamo a stabilire qual è l’intervallo di confidenza attorno ad una misura? Lo facciamo a partire dall’errore standard, e considerando generalmente la cosiddetta distribuzione Student’s t. Si tratta di una distribuzione che frequentemente si riscontra in natura, ecco perché è frequentemente utilizzata nell’ambito statistico, dove ad esempio le foglie di un ramo piuttosto che il numero di organismi presenti su di una foglia seguono una distribuzione che può essere prevista attraverso la distribuzione Student’s t. Quindi, c’è una frequenza di accadimenti che può essere facilmente prevista, naturalmente parlando attraverso questo tipo di funzione. Quindi bisogna immaginare di avere da un lato una funzione ideale …. In questa diapositiva vediamo la funzione Student’s t-distribution : in basso a destra descritta per n gradi di libertà. A seconda del numero di variabili in gioco avremo una serie di funzioni t-d Student’s con una capacità previsionale differenziale, fino ad arrivare ad una stabilizzazione per infiniti gradi di libertà del sistema. La struttura della funzione t-d Student’s è una struttura a campana o sigmoide:

  • Come campana : quando si valuta come densità di probabilità
  • Come sigmoide : se la valutiamo come funzione cumulativa, cioè eventi che si accumulano nel tempo piuttosto che il numero di eventi nell’unità di tempo.

Quindi il nostro obbiettivo è capire come selezionare t, un parametro caratteristico di una certa distribuzione che può essere opportunamente determinato. Bisogna sapere che i vari t ideali, cioè quelli legati alle previsioni che possiamo fare per n gradi del nostro sistema sono già presenti in modo tabulato all’interno di tavole dei cosiddetti “ t critici ”. Questi sono già calcolati da modelli previsionali e disponibili in web o alla fine dei libri di statistica. Quello che andiamo a trovare nei libri di statistica potrebbe essere una tabella di questo tipo. Si tratta di una tabella che si caratterizza per

1. Gradi di libertà del sistema (DF)

  1. Valori α che assumono valori diversi (da 0.10 a 0.01): sono i livelli di affidabilità della nostra previsione. La nostra previsione viene calcolata rispetto ad una serie di rischi. Abbiamo nel caso della previsione con α=0.01 che l’evento si possa verificare in un caso ogni 100. Cioè noi abbiamo un modello ed il nostro modello ci dice che la curva ha un certo andamento se il valore di t assume, in funzione dei gradi di libertà e variabili in gioco (numero di campioni utilizzati per la previsione statistica) che aumenta. Più aumenta il numero dei campioni più la previsione

risulta essere affidabile e il valore di t tende a diminuire (nell’ultima colonna passa da 63.66 a 3.06…) fino a stabilizzarsi a infiniti valori di t. L’ α più frequentemente utilizzato è del 5% (0.05) => quindi 5 casi ogni 100 sono sbagliati. Es: ogni 100 soggetti vaccinati 5 non rispondo al vaccino. Quindi come facciamo, nell’esempio appena fatto, a valutare l’intervallo di confidenza, e quindi incertezza, associabile al nostro valore medio? Lo calcoliamo rispetto al valore t-d Student’s. Sappiamo che abbiamo a disposizione 5 dati analitici sperimentalmente ottenuti ( osservazioni); i gradi di libertà del sistema sono 4. Ci interessa nel nostro intervallo di confidenza non più di 5 volte su 100. Possiamo quindi andare a determinare il valore t critico corrispondente a 4 DF considerando un 5% d’errore => in tabella t=2.78. questo valore verrà utilizzato nella formula per costruire il nostro valore di incertezza. Il risultato nel nostro caso sarà 11.72 (10.27 - 13.17). Arriveremo ad un certo punto in cui ci chiederemo se è vero che esiste una differenza statisticamente significativa tra questo intervallo (popolazione A) e quello di un’altra popolazione (B). Cioè tra la popolazione A e la popolazione B afflitte dalla stessa patologia, c’è mediamente un’incidenza comparabile? Ci sono altre procedure che potremmo adottare per dare questo tipo di interpretazione sempre a meno di un certo livello e grado di confidenza da introdurre nel nostro sistema. Quindi noi possiamo stimare quanti dati possono essere necessari affinché l’errore e la confidenza che possiamo attribuire ad un certo dato medio sia tale. In questo caso, abbiamo ottenuto un valore di 1.. Questo valore è o meno accettabile rispetto i nostri canoni? Noi avremmo voluto che l’incertezza attorno al nostro valore medio fosse non di 1.45 ma di 1. Su che parametro quindi possiamo andare ad intervenire? Non sulla distribuzione t-d Student’s perché è fissa.