Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica: Inferenza, Probabilità e Test di Ipotesi, Dispense di Statistica Medica

Una panoramica completa dei concetti fondamentali della statistica, con un focus particolare sull'inferenza statistica e la probabilità. Vengono trattati argomenti come la quantificazione dell'incertezza delle misure, le distribuzioni di frequenza, le misure di posizione e dispersione, e le distribuzioni di probabilità discrete e continue, inclusa la distribuzione normale e di poisson. Anche il test di ipotesi, gli errori di primo e secondo tipo, e i test z e t di student, fornendo una solida base per l'analisi statistica dei dati e la stima dei parametri della popolazione. Infine, vengono introdotti gli intervalli di confidenza per popolazioni gaussiane, offrendo strumenti pratici per l'interpretazione dei risultati statistici.

Tipologia: Dispense

2023/2024

Caricato il 11/07/2025

fatou-ndim-1
fatou-ndim-1 🇮🇹

6 documenti

1 / 12

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA E STIMA
La statistica è una disciplina che permette di descrivere e misurare diversi aspetti della natura
basandosi su campioni. Essa consente di quantificare l’incertezza delle misure e di
determinare la probabile entità del loro scostamento dal valore vero.
L’obiettivo principale della statistica è l’inferenza, ovvero il processo con cui viene stimata una
grandezza incognita di una popolazione utilizzando i dati campionari. Se applicati
correttamente, gli strumenti della stima permettono di approssimare pressoché ogni
grandezza tipica di una popolazione utilizzando soltanto campioni.
Un concetto fondamentale è quello di parametro, ovvero una grandezza che descrive una
popolazione. La stima di un parametro è una grandezza correlata, calcolata sulla base di un
campione e serve ad approssimare , stimare un parametro
POPOLAZIONI E CAMPIONI
Nella raccolta di dati biomedici è fondamentale decidere quale sia la popolazione da
campionare.
Popolazione: insieme di individui o unità di interesse per un ricercatore. Solitamente
è costituita da un numero molto grande di individui, tanto da rendere impossibile il
campionamento dell’intero insieme.
Esempi di popolazioni:
oTutti i geni nel genoma umano
oTutti i maggiorenni italiani
oTutti i bambini asmatici di una città
Campione: sottoinsieme della popolazione, selezionato per l’analisi.
Esempio: 1000 maggiorenni italiani scelti casualmente.
Le stime basate sui campioni differiscono dalle caratteristiche vere della popolazione per
effetto del caso. Questa differenza rispetto al valore vero è detta errore di campionamento.
L’errore di campionamento è la differenza dovuta al caso tra una stima e il parametro della
popolazione che viene stimato. Ci aspettiamo che stimando molte volte un parametro, la
media delle stime sia centrata sul parametro stesso, ovvero sul valore vero della popolazione.
In questi casi la stima è detta corretta o non distorta quindi non affetta da bias (errore).
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Statistica: Inferenza, Probabilità e Test di Ipotesi e più Dispense in PDF di Statistica Medica solo su Docsity!

STATISTICA E STIMA

La statistica è una disciplina che permette di descrivere e misurare diversi aspetti della natura basandosi su campioni. Essa consente di quantificare l’incertezza delle misure e di determinare la probabile entità del loro scostamento dal valore vero. L’obiettivo principale della statistica è l’inferenza, ovvero il processo con cui viene stimata una grandezza incognita di una popolazione utilizzando i dati campionari. Se applicati correttamente, gli strumenti della stima permettono di approssimare pressoché ogni grandezza tipica di una popolazione utilizzando soltanto campioni. Un concetto fondamentale è quello di parametro , ovvero una grandezza che descrive una popolazione. La stima di un parametro è una grandezza correlata, calcolata sulla base di un campione e serve ad approssimare , stimare un parametro POPOLAZIONI E CAMPIONI Nella raccolta di dati biomedici è fondamentale decidere quale sia la popolazione da campionare.  Popolazione : insieme di individui o unità di interesse per un ricercatore. Solitamente è costituita da un numero molto grande di individui, tanto da rendere impossibile il campionamento dell’intero insieme. Esempi di popolazioni: o Tutti i geni nel genoma umano o Tutti i maggiorenni italiani o Tutti i bambini asmatici di una città  Campione : sottoinsieme della popolazione, selezionato per l’analisi. Esempio: 1000 maggiorenni italiani scelti casualmente. Le stime basate sui campioni differiscono dalle caratteristiche vere della popolazione per effetto del caso. Questa differenza rispetto al valore vero è detta errore di campionamento. L’ errore di campionamento è la differenza dovuta al caso tra una stima e il parametro della popolazione che viene stimato. Ci aspettiamo che stimando molte volte un parametro, la media delle stime sia centrata sul parametro stesso, ovvero sul valore vero della popolazione. In questi casi la stima è detta corretta o non distorta quindi non affetta da bias (errore).

CAMPIONI CASUALI E CAMPIONI DI CONVENIENZA

Il presupposto dei metodi statistici è che i dati provengano da un campione casuale , che deve soddisfare due criteri:

  1. Ogni unità nella popolazione deve avere uguale probabilità di essere inclusa nel campione.
  2. La selezione delle unità deve essere indipendente , ovvero l’inclusione di un individuo non deve influenzare l’inclusione di un altro individuo. Se un campione non viene estratto in modo casuale, introduce una distorsione che rende i risultati meno affidabili. Un campione di convenienza (o comodo) è un insieme di individui facilmente disponibili al ricercatore, ma non sempre rappresentativo dell’intera popolazione.Questo può portare a bias un esempio rilevante è la distorsione introdotta dal volontario che si verifica quando i partecipanti scelgono autonomamente di far parte dello studio, quindi potrebbe emergere una differenza sistematica tra i volontari e la popolazione generale perchè chi partecipa potrebbe avere caratteristiche diverse da chi non lo fa influenzando la validità dei risultati. TIPI DI DATI E VARIABILI Una variabile è una qualsiasi caratteristica o misura che può variare da individuo a individuo.  Variabili qualitative (categoriche) : permettono di classificare gli elementi in categorie senza un valore numerico. Esempi: o Sopravvivenza (vivo o morto) o Genotipo (XX, XY, XO, XXY, XYY) o Lingua parlata (italiano, inglese, spagnolo) Una variabile categorica si dice nominale se le categorie non hanno un ordine intrinseco. Se le categorie possono essere ordinate, si parla di variabile ordinata (o ordinale). Esempi di variabili ordinali: o Fase biologica di un organismo o Gravità del morso di un serpente  Variabili quantitative (numeriche) : esprimono quantità misurabili su una scala numerica. Esempi: o Temperatura corporea (in °C)

x ˉ = ∑ xi nMediana : valore che divide i dati in due metà uguali. o Se il numero di osservazioni è dispari: valore in posizione ( n + 1 ) / 2. o Se il numero di osservazioni è pari: media dei due valori centrali.  Moda : valore più frequente nella distribuzione. Le misure di dispersione invece ci dicono quanto i dati si discostano dalla media e sono:  La varianza campionaria indica quanto i valori si discostano dalla media e si calcola come: (^) s^2 =

∑ ❑( xi − x^ )

2 n − 1  La deviazione standard campionaria è semplicemente la radice quadrata della

varianza e fornisce una misura della dispersione e si calcola come s =√ s^2

Il coefficiente di variazione (CV) confronta la deviazione standard con la media per esprimere la variabilità in termini relativi e si calcola come CV^ =^ s x × 100 PROBABILITÀ E DISTRIBUZIONI DI PROBABILITÀ La probabilità è alla base della statistica interferenziale ,misura la possibilità che un evento accada rispetto agli altri risultati possibili ed è sempre compresa tra zero e uno .Ogni evento appartiene allo spazio campionario ovvero l’ insieme di tutti i risultati possibili di un esperimento casuale. Le probabilità possono essere suddivise in :

  • Esclusivi/incompatibili = se non possono verificarsi contemporaneamente. Se uno accade, l’altro è automaticamente impossibile, la loro probabilità complessiva è semplicemente la somma delle probabilità individuali: P(A ∪B)=P(A)+P(B)
  • Compatibili = se possono verificarsi insieme ,la loro probabilità si calcola aggiungendo la sottrazione della loro intersezione per evitare di contare due volte la probabilità di accadimento simultaneo: P(A ∪B)=P(A)+P(B)−P(A∩B)
  • Indipendenti =Due eventi sono indipendenti se il verificarsi di uno non cambia la probabilità dell’altro, la probabilità che si verifichino entrambi è il prodotto delle probabilità individuali:

P(A∩B)=P(A)⋅P(B)

  • Dipendenti = Prima di descriverli dobbiamo considerare prima la probabilità condizionata che misura la probabilità che un evento A si verifichi dopo che B è già accaduto

P ( A ∣ B )= P ( A ∩ B ) P ( B ) Ora possiamo calcolare la probabilita di eventi dipendenti, ovvero la probabilità che entrambi gli eventi A e B si verificano sapendo che A dipende da B P ( A ∩ B )= P ( A ∣ B ) ⋅ P ( B ) -Quando invece non si parla di 2 eventi ma di più eventi condizionati subentra la probabilità totale che ci permette di calcolare la probabilità di un evento A accada data ogni causa B (B1,B2,B2 ecc)e si calcola:

P (^ A )= i ∑ P (^ A ∣ Bi )^ P (^ Bi )

-Infine il teorema di Bayes estende il concetto di probabilità condizionata calcolando il contrario della probabilità condizionata ovvero la probabilità che B accada dato A già accaduto P ( B ∣ A )= P ( B ) P ( A ∣ B )/ P ( A ) DISTRIBUZIONI DI PROBABILITÀ Una distribuzione di probabilità descrive come si distribuiscono i valori di una variabile aleatoria ovvero una variabile il cui valore dipende dal caso.La distribuzione può essere:

  • discreta = le variabili assumono valori distinti e numerabili e la distribuzione può essere rappresentata con una funzione di probabilità
  • continua = le variabili possono assumere qualsiasi valore in un intervallo continuo e la distribuzione può essere rappresentata con una funzione di densità La distribuzione discreta binomiale Si usa quando si vogliono calcolare le probabilità di ottenere un certo numero di successi in n prove indipendenti, quando ogni prova ha solo due esiti possibili (successo o insuccesso). La probabilità di ottenere esattamente k^ successi in n^ prove, con probabilità di successo p , è data dalla formula: P ( X = k )=( n k )^ p k ( 1 − p ) nk dove (^) ( n k )^ è il coefficiente binomiale, che indica in quanti modi si possono ottenere k successi in n prove.

Significato pratico: Se estraiamo campioni casuali da una popolazione e calcoliamo la media di ciascun campione, quelle medie seguiranno una distribuzione normale, anche se la popolazione di origine non è normale. Regole del σ , 2 σ , 3 σ – Approfondimento massimo La regola del sigma descrive come si distribuiscono i dati rispetto alla media in una distribuzione normale.In una distribuzione normale

  1. 68% dei dati si trova entro 1 deviazione standard dalla media( μ ± σ ): P ( μσ ≤ X ≤ μ + σ ) 68 %
  2. 95% dei dati si trova entro 2 deviazioni standard dalla media ( μ^ ±^^2 σ ): P (^ μ − 2 σ ≤ X ≤ μ + 2 σ )^ 95 %
  3. 99.7% dei dati si trova entro 3 deviazioni standard dalla media ( μ ± 3 σ ): P ( μ − 3 σ ≤ X ≤ μ + 3 σ ) 99.7 % Z-Score (Punteggio standardizzato) – Approfondimento massimo Lo Z-score è un valore che misura quanto un dato si discosta dalla media ed è espresso in unità di deviazione standard ,inoltre permette di confrontare valori appartenenti a diverse distribuzioni e calcolare la probabilità nella distribuzione normale standardizzata Z = Xμ σ Questo punteggio indica di quante deviazioni standard un valore X^ si discosta dalla media.  Se Z =^0 , il valore X^ coincide con la media.  Se Z > 0 , X è sopra la media.  Se Z < 0 , X è sotto la media. Distribuzione discreta di Poisson La distribuzione di Poisson descrive il numero di eventi rari che accadono in un intervallo di tempo o spazio quando:  Gli eventi sono indipendenti tra loro.  La probabilità di un evento è costante nel tempo/spazio.

 Gli eventi non possono verificarsi simultaneamente. La funzione di probabilità è: P ( X = k )= λ k eλ k! Dove λ^ è la media degli eventi attesi (parametro della distribuzione). Campionamento e Inferenza – Approfondimento massimo In statistica, invece di studiare un’intera popolazione spesso impossibile ,esaminiamo un campione rappresentativo.Eistono 2 tipi di campionamento:  Campionamento con sostituzione: Un elemento può essere selezionato più volte.  Campionamento senza sostituzione: Un elemento può essere selezionato solo una volta. Una volta raccolti i dati del campione tramite l’interferenza statistica possiamo stimare i parametri della popolazione usando le statistiche campionarie come la media campionaria che stima la media della popolazione e la deviazione standard campionaria che misura la dispersione dei dati rispetto alla media .Un elemento fondamentale in questo processo è l’errore standard che misura quanto la media si discosta dalla vera media della popolazione e si calocla come il rapporto tra la deviazione standard campionaria e la radice quadrata della dimensione del campione,più è piccolo l’errore standard,maggiore sarà la precisione delle nostre stime segnalando che la media campionaria è molto vicina alle nostre stime Erore standard = σ^ /^ ^ n Il TEST DI IPOTESI E SIGNIFICATIVITÀ STATISTICA Il test di ipotesi è un metodo per prendere decisioni sui dati. Si formula un’ ipotesi nulla H^ 0 (nessun effetto o nessuna differenza) e un’ ipotesi alternativa H^ 1 (presenza di effetto o differenza). Errore di Primo e Secondo Tipo E’ fondamentale accettare un probabile margine di errore essendo che nessun test statistico è perfetto  Errore di I tipo ( α ) : si verifica quando rifiutiamo H^ 0 anche se è vera perchè è un falso positivo,il rischio di commettere un errore di 1 tipo si chiama livello di significatività o alfa che viene stabilito prima dell’analisi statistica quando si sceglie la soglia di significatività di conseguenza è la soglia oltre la quale rifiutiamo l‘ipotesi nulla (ad esempio alfa=0.05 significa che accettiamo il 5%di rischio di errore di primo tipo

 Ha una forma simile alla normale, ma con code più larghe.  Dipende dal numero di gradi di libertà ( df = n − 1 ). Test t per Campioni Indipendenti – Two-Sample t-Test con Varianze Uguali Il test t per campioni indipendenti viene utilizzato per confrontare la media di due gruppi indipendenti quando i campioni sono piccoli ( n < 30 ) e le varianze sono uguali. Questo test verifica se le due medie campionarie provengono dalla stessa popolazione. La formula per la statistica t è: t = X ˉ 1 −^ X ˉ 2 sp √ 1 n 1

1 n 2 Intervalli di Confidenza per Popolazioni Gaussiane – Approfondimento massimo Un intervallo di confidenza (IC) è un intervallo di valori all’interno del quale ci aspettiamo che cada un parametro della popolazione (es. media) con un certo livello di confidenza (es. 95%). Test Chi-Quadrato di Indipendenza(distribuzione continua) Il test Chi-quadrato ( χ 2 ) è usato per verificare se esiste una relazione tra due variabili categoriali. Questo test si applica alle tabelle di contingenza , che mostrano le frequenze osservate per ciascuna combinazione di categorie delle due variabili. χ 2 =

( oij − eij )

2 eij Regressione Lineare Semplice – Approfondimento massimo La regressione lineare studia la relazione tra una variabile dipendente Y e una variabile indipendente X assumendo che la relazione sia lineare infatti cerca di trovare la retta migliore stimando i suoi parametri. Modello di regressione: Y = α + βX + ε

Dove:  α è l’intercetta (valore di Y quando X = 0 ),  β è il coefficiente angolare (indica quanto Y cambia per ogni unità di aumento in X ),  ε è l’errore residuo. Per stimare parametri ( α e β ) ancora più ottimali si utilizza il Metodo dei Minimi Quadrati che cerca di minimizzare la somma dei quadrati dei residui ,quest’ultimi sono la differenza tra il valore osservato o atteso.Questa minimizzazione è fondamentale per garantire che la retta sia quella che si avvicina di più ai dati complessivi riducendo l’errore totale b = ( xix ˉ )( yiy ˉ ) (^ xix ˉ ) (^2) a = y ˉb x ˉ Una volta calcolata la retta dobbiamo valutare quanto bene questa retta descive i dati qui entrano in gioco 2 coefficenti Coefficente di correlazione r Il coefficiente di correlazione r misura la tendenza di due variabili x e y a covariare cioè a variare insieme lungo una retta ,inoltre misura anche la forza della relazione tra le due variabili x e y e varia tra -1 e +1. Se r=0.8, significa che le due variabili sono fortemente correlate positivamente. Coefficiente di Determinazione ( R^2 ) Il coefficiente di determinazione (^) R^2 oltre ad essere una misura della qualità della previsione fatta dal modello di regressione ,è il quadrato del coefficente di determinazione e misura quanto i cambiamenti di y dipendono da x R 2 = S Sreg S Stot Dove:  S Sreg è la somma dei quadrati spiegata dalla regressione,  S^ Stot è la somma totale dei quadrati. Interpretazione: R 2 =0.4 significa che il 40% della variabilità di^ Y^ è spiegata dalla variabile^ X