Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Inferenza Statistica: Campionamento e Distribuzioni, Dispense di Statistica Medica

Una panoramica sull'inferenza statistica, concentrandosi sul campionamento e le distribuzioni di probabilità. Vengono trattati argomenti come il campionamento casuale semplice, il calcolo della media campionaria e la derivazione standard. Inoltre, vengono spiegate le distribuzioni di probabilità per variabili discrete e continue, con un focus sulla curva normale o gaussiana e sulla distribuzione t-student. Il documento include anche esempi pratici e formule per il calcolo degli intervalli di confidenza, rendendolo utile per studenti e professionisti che desiderano approfondire le proprie conoscenze in statistica inferenziale. Infine, vengono esaminate le tecniche per il confronto di medie tra campioni, sia con varianza nota che incognita, e i test di significatività.

Tipologia: Dispense

2024/2025

Caricato il 06/09/2025

tricaricomelissa16
tricaricomelissa16 🇮🇹

5

(1)

3 documenti

1 / 38

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA MEDICA📊
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26

Anteprima parziale del testo

Scarica Inferenza Statistica: Campionamento e Distribuzioni e più Dispense in PDF di Statistica Medica solo su Docsity!

STATISTICA MEDICA📊

Introduzione alla statistica

medica

Cosa si intende per statistica?

La statistica è:

  • Un ramo della matematica applicata che si occupa della raccolta e dell’interpretazione dei dati quantitativi e dell’uso della teoria delle probabilità per la stima di parametri di una popolazione;
  • Lo studio scientifico dei dati numerici basato sui fenomeni naturali;
  • La procedura matematica per descrivere le probabilità e la distribuzione casuale o non-casuale della materia o del verificarsi degli eventi;
  • Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendo significatività ai risultati;
  • Una raccolta di metodi per raccogliere, organizzare, riassumere, analizzare e interpretare i dati, e per trarre conclusioni basate su di essi. La metodologia clinica necessita di: quantificazione e formalizzazione matematica. Epidemiologia —> ha come oggetto lo studio della distribuzione delle malattie in una popolazione e dei fattori che la influenzano e fornisce i dati che sono di guida al procedimento clinico. Statistica —> È il mezzo oggettivo per la pianificazione dell'indagini e l'interpretazione dei risultati.

Le misure di campionamento

negli studi sanitari

Le statistiche descrittive e inferenziali

La statistica può essere di due tipi: A. Descrittiva : si occupa delle presentazioni e delle sintesi dei dati. Non viene effettuata nessuna previsione o interferenza sui parametri della popolazione; B. Inferenziale (deduttiva) : permette di trasferire le informazioni ottenute su un campione all’intera popolazione. Ciò viene effettuato attraverso un processo di ragionamento induttivo basato sulla teoria della probabilità.

In cosa consiste la fase preliminare? La fase preliminare è composta dalla formulazione degli obiettivi, l'analisi della letteratura, la definizione dell'unità statistica e di rilevazione, l'identificazione di variabili, di sistemi di rilevazione e dei confondenti. In cosa consiste la metodologia la metodologia? Consiste nella scelta della tipologia di studio, dei metodi di rilevazione, dell'identificazione di risorse disponibili e necessarie, delle autorizzazioni e della valutazione dei tempi di esecuzione. In cosa consiste il campionamento? Il campionamento consiste nella definizione della popolazione obiettivo, della scelta del campione e della determinazione campionaria. In cosa consiste lo studio pilota? Nell’addestramento del personale, nel test del questionario e nell'accettabilità dei partecipanti. Quanto ciò che rileviamo su un campione rispecchia ciò che avviene nella popolazione? Oppure: con che probabilità le misure rilevate sul campione ( stime ) sono i veri valori della popolazione ( parametri )? Le stime possono essere la media, la varianza, i conteggi e le percentuali. Tra le stime e i parametri ci sono le leggi della probabilità statistica inferenziale.

Il campionamento

Il campionamento consiste nel prelevare dalla popolazione un gruppo di elementi di adeguata numerosità e completezza rispetto alle caratteristiche della popolazione. La regola per un buon campionamento è la seguente: I. Formulare gli obiettivi dello studio; II. Decidere quale tipo di analisi si deve condurre per soddisfare tali obbiettivi; III. Decidere quali dati sono necessari per facilitare l’analisi; IV. Raccogliere i dati richiesti dalla ricerca.

I piani di campionamento

Una volta definita la popolazioni in studio, il passo successivo è decidere quali soggetti della popolazione dovrebbero costituire il campione. Le principali procedure di campionamento sono:

  • (^) Il campionamento casuale semplice ;
  • (^) Il campionamento sistematico ;
  • (^) Il campionamento stratificato ;
  • (^) Il campionamento per quote ;
  • (^) Il campionamento a grappolo. I primi tre (che noi vedremo) possono essere applicati al campionamento di popolazioni finite, cioè quando ogni membro della popolazione in studio può essere identificato.

Il campionamento casuale semplice

Nel campionamento casuale semplice tutti gli elementi della popolazione hanno la stessa probabilità di entrare a far parte del campione. Per esempio, supponiamo di voler estrarre un campione casuale di 20 persone da 800 persone. Per selezionare in modo casuale il campione a ogni persona viene assegnato un numero in modo univoco (1, 2, 3 e così via) finché le 800 persone non sono state conteggiate. Successivamente, in modo casuale, vengono scelte 20 persone che corrisponderanno al campione. Per ottenere dei numeri casuali è possibile usare le tavole dei numeri casuali, quando si sono scelti i numeri necessari per le proprie ricerche si annotano sulla tavola e la volta successiva si prosegue dal punto raggiunto la volta precedente, così da non ripescare gli stessi numeri.

Il campionamento sistematico

Nel campionamento sistematico il campione si costituisce procedendo con l’estrazione degli elementi secondo un intervallo regolare. Ad esempio: quale intervallo è richiesto per selezionare un campione sistematico di ampiezza 20 da una popolazione di 800? Si fa un calcolo: Ampiezza della popolazione/ampiezza del campione = 800/20= 40 Quindi, la prima persona verrà selezionata in modo casuale tra le persone numerate tra 1 e 40. Si supponga l’estrazione del numero 23, di conseguenza, verrà scelto il 40-esimo paziente successivo (23,63, 103 e così via).

Il campionamento stratificato

Il campionamento stratificato consiste nel suddividere gli elementi di una popolazione in più sottogruppi omogenei ed estrarre un campione casuale semplice da ogni sottogruppo. Questo campionamento consente una maggiore precisione delle stime.

Il campionamento a stadi

Il campionamento a stadi consiste nel giungere alla costituzione del campione con una procedura di estrazioni casuali che riducono progressivamente la popolazione iniziale. Supponiamo di estrarre un campione di assisti del servizio sanitario regionale la popolazione di partenza è il totale dei residenti nella regione; si eseguono uno dopo l’altro i seguenti campioni casuali: A. Delle ASL; B. Dei comuni che fanno parte delle ASL precedentemente estratte; C. Dei quartieri che costituiscono il comune; D. Delle vie; E. Dei palazzi;

La tabella di frequenza

Si vuole valutare il livello di alcol ematico mediante il test all’etilometro. Per sintetizzare ed esporre i risultati con una tabella conviene renderla più piccola, determinando delle “classi di alcolemia”. Se si conoscono uno o più valori di “cut-off” si possono utilizzare questi per determinare le classi: per esempio la guida con tasso alcolemico superiore a 0,8g/l porta alla sospensione della patente per almeno 6 mesi. Si possono scegliere due classi:

  • Alcolemia < 0,8 g/l;
  • Alcolemia > 0,8 g/l. La frequenza assoluta corrisponde al numero di persone che sono state sottoposte al test ed hanno ottenuto uno tra quei valori citati in tabella. Dove si beve di più? Per scoprire in che regione si beve di più bisogna calcolare la frequenza relativa attraverso la seguente formula: Frequenza assoluta/totale Quindi scopriremo che si beve di più in Puglia perché la frequenza relativa del livello dell’alcol, tra 0,81 e 1,6, è maggiore rispetto a quello della Basilicata. Per determinare il numero di classi (K) può essere utile la formula di Sturges : K=1+3,322(Log n) Dove n è la numerosità campionaria. L’ampiezza (W) della classe sarà data da: W=R/K Dove R è il range, ossia la differenza tra il valore più grande e quello più piccolo presenti nei dati. Quindi il numero di classi sarà K=1+3,322(Log n)=1+3,332(Log 229)=8,8, mentre l’ampiezza sarà W=R/K=(1,60-0)/8=0,2.

Osserviamo come il risultato della formula di Sturges sia attraverso la tabella. La frequenza relativa è anche definita quota a parte. La frequenza cumulativa assoluta corrisponde al numero di persone che hanno nel sangue l’alcol tra 0-0,6 quindi 177+16+11=204. La frequenza cumulativa relativa è la somma delle frequenza relative.

Descrivere i dati

Per descrivere i dati possiamo avvalerci o della tendenza centrale , ossia media, mediana e moda, che ci indicano verso quale valore tendono i valori di una variabile quantitativa, oppure della variabilità , ossia varianza (derivazione standard), coefficiente di variazione, range e differenza interquartile (differenza tra 25° e 75° percentile). I valori degli indici possono essere determinati per strato (qualora vi fossero variabili per le quali abbia senso stratificare) e presentati per mezzo di tabelle.

Indici di tendenza centrale

LA MEDIA La media , in particolare la media aritmetica, è utilizzabile sempre, quando i dati seguono una distribuzione normale. Essa si calcola dividendo la somma dei valori per il numero delle osservazioni. Se è possibile ottenere un osservazione per ogni singolo elemento, la media viene indicata con il simbolo μ (mu) ed è chiamata media della popolazione. Se invece parliamo di media data dalle osservazione del campione essa verrà rappresentata con (x-barrato) e la si chiama media campionaria. Vediamo le due formule: μ=Ʃx(i)/N (popolazione) e ẋ=Ʃx(i)/n (campionaria) Dove x(i) rappresenta la singola osservazione, N il numero di elementi (osservazione) di una popolazione e n la numerosità campionaria. Esempio Il tempo di sopravvivenza di 5 pazienti con cancro all’addome sono: 8.5 9.2 7.3 6.8 10. Calcolare la media del tempo di sopravvivenza. Ʃx(i)=8.5+9.2+7.3+6.8+10.1=41.9 mesi

I numeri di casi di sindromi cardiache tra 100 pazienti classificati in base alla classe di età è: Bambino 2 Adolescente 4 Giovane 22 Adulto 45 Anziano 14 Molto anziano 13 Qual è la moda dei seguenti valori? La moda dei seguenti valori è 45 (adulto).

Indici di variabilità (misure di dispersione)

IL RANGE Il range è la differenza tra il valore massimo e il valore minimo. LA DIFFERENZA INTERQUARTILE La differenza interquartile è la differenza tra il valore del 75° (terzo quartile) e del 25° (primo quartile) percentile. È associata alla mediana (50° percentile e secondo quartile). LA VARIANZA Nella varianza se tutte le osservazioni sono state ottenute da una popolazione, la derivazione standard è indicata con il simbolo σ² (sigma). Quando viene calcolata sulla base di un campione, il simbolo utilizzato è . Vediamo le due formule: σ²=Ʃ(x(i)-μ)²/N (popolazione) e S²=Ʃ(x(i)-ẋ)²/(n-1) (campione) (x-ẋ) è lo scarto della media e (n-1) sono i gradi di libertà , ossia il numero di osservazioni meno uno. LA VARIANZA ASSOCIATA ALLA FREQUENZA La varianza associata alla frequenza si calcola attraverso la seguente formula: S²=Ʃ 𝑓 (x(i)-ẋ)²/(n-1) LA DERIVAZIONE STANDARD La derivazione standard si ottiene facendo la radice quadrata della varianza. Vediamo le due formule: σ=σ² (popolazione) e S= (campione)

La derivazione standard e la varianza sono associate alla media. Esempio Calcolare la derivazione standard delle seguenti 10 osservazioni (mm): 81 79 82 83 80 78 80 87 82 82 Calcoliamo la media: ẋ=Σx(i)/n=(81+79+(823)+83+(802)+78+87)/10=81.40 mm Calcoliamo gli scarti della media: (x(i)-ẋ)²=(81-81.40)²=0,16 etc… Sommiamo gli scarti della media: 0.16+5.76+0.36+2.56+1.96+11.56+1.96+31.36+0.36+0.36=56. Calcoliamo la varianza: S²=Ʃ(x(i)-ẋ)²/(n-1)=(56.4)/(10-1)=6. Calcoliamo la derivazione standard: S=⎷S²=⎷6.27=2.50 mm IL COEFFICIENTE DI VARIAZIONE STANDARD Quando si confrontano le variabilità in campioni di popolazioni con medie differenti si utilizza il coefficiente di variazione (CV). La formula è la seguente: _CV=(S/ẋ)_*

La presentazione dei dati

Presentazione con i grafici

Gli istogrammi 📊

Negli istogrammi sull’asse x c’è la variabile continua suddivisa in classi e sull’asse y la frequenza (più correttamente quella “relativa”, cioè la percentuale) con cui quella classe si presenta. Essi possono rappresentare l’età, il peso e la frequenza cardiaca.

I diagrammi a torta 🥧

I diagrammi a torta sono formati da una circonferenza. L’intera circonferenza rappresenta il 100%, ciascuno spicchio indica la percentuale con cui si presenta un carattere. E’ indicato per le variabili qualitative come il sesso, il trattamento

Qual è la probabilità che un donatore selezionato casualmente non appartenga al gruppo A? P=numero di donatori di gruppo sanguigno diverso dal gruppo A/numero totale di donatori=(100-34)/100=0. Quindi si può definire con certezza che è un donatore, appartiene o non appartiene al gruppo sanguigno A, senza altre possibilità, perché 0.34+0.66=1 (certezza) Tutti i possibili risultati di un “esperimento” prendono il nome di spazio campione (gruppo sanguigno A oppure B, AB o 0)

I vari tipi di probabilità

Probabilità classica

La probabilità classica viene calcolata in seguito ad un ragionamento astratto. Se un evento può verificarsi in N modi ugualmente possibili e mutuamente esclusivi, se m di questi possiede una caratteristica E, la probabilità che si verifichi l’evento E è dato da m/N.

Probabilità come frequenza relativa

La probabilità come frequenza relativa è basata sulla possibilità di contare il numero delle ripetizioni. Se un processo si ripete un gran numero di volte n e se un certo evento con caratteristica E si verifica m volte, la probabilità di E sarà approssimativamente uguale ad m/n.

Probabilità soggettiva

La probabilità soggettiva misura il grado di fiducia che un dato individuo ripone nel verificarsi di determinati eventi in base alle proprie conoscenze. Questo concetto non si basa sulla ripetibilità di un dato processo, si può valutare la probabilità di un evento che può verificarsi una sola volta.

Le proprietà elementari delle probabilità

La probabilità di un evento E che si indica con P(E):

  • (^) É un numero sempre positivo P(E)≥ 0 ;
  • (^) È compreso tra 0 ed 1: 0 ≤P(E)≤ 1 ;

Eventi mutualmente esclusivi

Due eventi, A e B, sono mutualmente esclusivi se l’occorrenza dell’uno esclude l’altro. Esempio L’acidosi respiratoria e l’alcalosi respiratoria sono due eventi mutuamente esclusivi. Se ci si trova in una delle condizioni patologiche non si può simultaneamente avere anche l’altra. Una malattia cardiaca e il reflusso gastro- esofageo non sono eventi mutuamente esclusivi. Se un soggetto presenta dolore al torace e l’ECG conferma la presenza di un infarto, non significa necessariamente che il soggetto non possa essere affetto anche da reflusso esofageo. Se due eventi A e B sono mutuamente esclusivi allora: P(BA) =P(A)+P(B) questa è la legge della somma. ∪ —> significa oppure (unione) Dati due eventi A, B, non mutuamente esclusivi la probabilità che si verifichi l’evento A o l’evento B è : P(BA)=P(A)+P(B)-P(BA) ∩ —> significa e (intersezione)

Eventi condizionati

Due eventi, A e B, sono condizionati se il verificarsi di A dipende da B, o viceversa. Talvolta tutti i possibili risultati possono essere un sottoinsieme del totale. Se A e B sono il risultato di un esperimento può accadere che il verificarsi dell’evento B sia modificato dal fatto che si sia verificato l’evento A. Si dice allora che l’evento B è condizionato da A e la probabilità che si verifichi l’evento B è condizionata dalla probabilità dell’evento A: P(B/A) =P(BA)/P(A) B/A —> B condizionato da A (condizionante) Esempio Supponiamo che in ospedale si sia verificata una epidemia di intossicazione alimentare ci furono 99 casi di malattia tra i 158 pazienti che avevano consumato il

La distribuzione normale (Gauss)

Quando si esegue un esperimento e si descrivono i risultati si costruisce spesso un grafico (istogramma) per mostrare l’andamento del fenomeno in esame. In un istogramma:

  • Sull’asse delle ascisse (x): poniamo i valori della variabile
  • Sull’asse delle ordinate (y): poniamo le frequenze con le quali un determinato valore, un intervallo di valori in caso di variabili continue, si presenta. L’area delle colonnine di un istogramma rappresenta la frequenza con cui i valori x1 e x2 che delimitano la base della colonnina si presentano nel nostro esperimento. Esempio Supponiamo di valutare la distribuzione dei soggetti di una popolazione per età. Possiamo riprodurre la distribuzione di frequenza utilizzando un istogramma. Possiamo inoltre unire i punti medi di ciascuna classe con una linea spezzata per rappresentare il fenomeno con un poligono di frequenza. Se rendiamo l’intervallo di classe progressivamente più piccolo… …l’ampiezza può ridursi al punto che il poligono di frequenza possa essere approssimato ad una curva continua. La curva di distribuzione di probabilità di una variabile continua che presenta un andamento “a campana” prende il nome di curva normale o gaussiana. La sua espressione matematica è:
𝑓 =(1/(σ* ⎷ 2 π)exp[-(1/2)*((x-μ)/σ)²]
  • ∞≤x≤+∞ con exp=funzione esponenziale la distribuzione di Gauss è completamente definita dai valori di μ e σ: differenti valori di μ spostano la posizione della curva lungo l’asse delle ascisse, mentre differenti valori di σ modificano l’altezza della curva. La distribuzione di Gauss ha alcune caratteristiche tipiche:
  • (^) È simmetrica intorno alla sua media;
  • (^) La media, la mediana e la moda coincidono;
  • (^) L’area sotto la curva è uguale ad 1 (100%);
  • (^) L’area sotto la curva compresa nell’intervallo: μ-σ ed μ+σ è pari al 68% dell’area totale; μ-2σ e μ+2σ è pari al 95% del totale; μ-3σ ed μ+3σ è pari al 99,7% del totale. Esistono due indici per misurare la normalità della curva di Gauss: A. Asimmetria :
  • Asimmetria=0 —> curva normale;
  • Asimmetria<0 —> coda sinistra pi lunga;
  • Asimmetria>0 —> coda destra più lunga. Distribuzione di assimetria= B. Curtosi :
  • Curtosi=3 —> curva normale;
  • Curtosi<3 —> code leggere, distribuzione appuntita (ipernormale o leptocurtica);
  • Curtosi>3 —> code pesanti, distribuzione piatta (iponormale o platicurtica).

Le stime e la loro affidabilità

L’idea chiave su cui si basa l’analisi statistica è che si possono eseguire osservazioni su un campione di soggetti e che da questo si possono compiere inferenze sulla popolazione rappresentata da tutti i soggetti con caratteristiche analoghe a quelle del campione. Anche se ben pianificato uno studio può dare solo una idea della risposta cercata, a causa essenzialmente della variabilità casuale del campione stesso strettamente collegata, tra l’altro, al numero di soggetti inclusi in uno studio. Le quantità statistiche ottenute (medie, proporzioni, coefficienti di regressione, etc…) sono stime imprecise dei veri valori nella popolazione generale.

Le stime

Una misura descrittiva calcolata dai dati di una popolazione è definita parametro. Una misura descrittiva calcolata dai dati di un campione è detta stima del parametro. L’insieme dei metodi che ci consentono di estendere i risultati ottenuti dal campione a tutta la popolazione oggetto dello studio costituiscono l’inferenza statistica , ossia la stima dei parametri e la verifica delle ipotesi. Che cos’è una stima? La stima è il calcolo, dai dati di un campione, di una qualche statistica, ed è una approssimazione del corrispondente parametro della popolazione da cui il campione è stato estratto. Abbiamo due tipi di stime:

  1. Stima puntuale : si calcola un singolo valore numerico per stimare il corrispondente parametro (per esempio una media, una proporzione, una deviazione standard etc..);
  2. Stima di intervallo : si calcola un intervallo di valori che, con un certo grado di probabilità, conterrà il parametro da stimare.

Gli intervalli di confidenza

Le stime di intervallo forniscono informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilità della stima. La procedura di calcolo degli intervalli di confidenza , si basa sulla determinazione di due limiti entro i quali, con una probabilità 1-∞, è contenuto il parametro, a partire dalle informazioni campionarie. 1-∞=P(L1≤θ≤L2) con 0 ≤⍺≤ 1 Dove θ viene detto theta, L1 e L2 sono dipendenti dalla dimensione del campione e maggiore è il livello di confidenza, allora maggiore sarà il grado di attendibilità.

INTERVALLO DI CONFIDENZA CON VARIANZA NOTA Supponiamo di costruire un intervallo di confidenza per la media di una variabile casuale che segue una distribuzione di Gauss N (μ,σ²), con varianza della popolazione nota. 1-⍺=P(L1≤μ≤L2) dove μ (definito “mi”) è il possibile valore della variabile Devo individuare i valori di L1 e L2 che mi garantiscano che, estraendo dalla popolazione altri campioni di uguale dimensione n, con probabilità pari al 95% la media campionaria sarà contenuta nell’intervallo. Dopo aver eseguito la stima puntuale ẋ della media della variabile x posso considerare la “nuova” variabile casuale z, e applicando il teorema del limite centrale posso scrivere: z=(ẋ-μ)/(σ/n) Qui la varianza (σ) è unica. Dopo una serie di calcoli z prende il posto di L: 1-⍺=P(ẋ-z(σ/⎷n)≤μ≤ẋ+z(σ/⎷n)) Dato che la variabile casuale z per il Teorema Centrale del limite segue una distribuzione di Gauss standard, che è simmetrica, abbiamo potuto trasformare L e L2 in –L e +L, infine abbiamo potuto sostituirli con z(tab), che si ricavano dalle tavole della distribuzione di Gauss standard:

  • (^) Per 1-⍺=0.95 (cioè ⍺=0.05) z(tab)=±1.96;
  • (^) Per 1-⍺=0.99 (cioè ⍺=0.01) z(tab)=±2.58. INTERVALLO DI CONFIDENZA CON VARIANZA NON NOTA Intervallo di confidenza per la media di una variabile casuale con distribuzione di Gauss N (μ,σ2), con varianza incognita. Nella realtà quotidiana anche la varianza della popolazione è incognita e si stima (stima puntuale) con la varianza dei dati campionari. La varianza ha una sua distribuzione campionaria che prende il nome di distribuzione 𝓧² e dipende dai gradi di libertà (denominatore della varianza). Per costruire l’intervallo di confidenza seguiremo lo stesso ragionamento ma il rapporto z diventa t : t=(ẋ-μ)/(S/n) (distribuzione t-student) Dove la derivazione standard campionaria (S) può variare e ha distribuzione t- student che dipende dai gradi di libertà (della varianza).