






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei concetti fondamentali della statistica, con un focus particolare sull'inferenza statistica e la probabilità. Vengono trattati argomenti come la quantificazione dell'incertezza delle misure, le distribuzioni di frequenza, le misure di posizione e dispersione, e le distribuzioni di probabilità discrete e continue, inclusa la distribuzione normale e di poisson. Anche il test di ipotesi, gli errori di primo e secondo tipo, e i test z e t di student, fornendo una solida base per l'analisi statistica dei dati e la stima dei parametri della popolazione. Infine, vengono introdotti gli intervalli di confidenza per popolazioni gaussiane, offrendo strumenti pratici per l'interpretazione dei risultati statistici.
Tipologia: Dispense
1 / 12
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







La statistica è una disciplina che permette di descrivere e misurare diversi aspetti della natura basandosi su campioni. Essa consente di quantificare l’incertezza delle misure e di determinare la probabile entità del loro scostamento dal valore vero. L’obiettivo principale della statistica è l’inferenza, ovvero il processo con cui viene stimata una grandezza incognita di una popolazione utilizzando i dati campionari. Se applicati correttamente, gli strumenti della stima permettono di approssimare pressoché ogni grandezza tipica di una popolazione utilizzando soltanto campioni. Un concetto fondamentale è quello di parametro , ovvero una grandezza che descrive una popolazione. La stima di un parametro è una grandezza correlata, calcolata sulla base di un campione e serve ad approssimare , stimare un parametro POPOLAZIONI E CAMPIONI Nella raccolta di dati biomedici è fondamentale decidere quale sia la popolazione da campionare. Popolazione : insieme di individui o unità di interesse per un ricercatore. Solitamente è costituita da un numero molto grande di individui, tanto da rendere impossibile il campionamento dell’intero insieme. Esempi di popolazioni: o Tutti i geni nel genoma umano o Tutti i maggiorenni italiani o Tutti i bambini asmatici di una città Campione : sottoinsieme della popolazione, selezionato per l’analisi. Esempio: 1000 maggiorenni italiani scelti casualmente. Le stime basate sui campioni differiscono dalle caratteristiche vere della popolazione per effetto del caso. Questa differenza rispetto al valore vero è detta errore di campionamento. L’ errore di campionamento è la differenza dovuta al caso tra una stima e il parametro della popolazione che viene stimato. Ci aspettiamo che stimando molte volte un parametro, la media delle stime sia centrata sul parametro stesso, ovvero sul valore vero della popolazione. In questi casi la stima è detta corretta o non distorta quindi non affetta da bias (errore).
Il presupposto dei metodi statistici è che i dati provengano da un campione casuale , che deve soddisfare due criteri:
x ˉ = ∑ xi n Mediana : valore che divide i dati in due metà uguali. o Se il numero di osservazioni è dispari: valore in posizione ( n + 1 ) / 2. o Se il numero di osservazioni è pari: media dei due valori centrali. Moda : valore più frequente nella distribuzione. Le misure di dispersione invece ci dicono quanto i dati si discostano dalla media e sono: La varianza campionaria indica quanto i valori si discostano dalla media e si calcola come: (^) s^2 =
2 n − 1 La deviazione standard campionaria è semplicemente la radice quadrata della
Il coefficiente di variazione (CV) confronta la deviazione standard con la media per esprimere la variabilità in termini relativi e si calcola come CV^ =^ s x × 100 PROBABILITÀ E DISTRIBUZIONI DI PROBABILITÀ La probabilità è alla base della statistica interferenziale ,misura la possibilità che un evento accada rispetto agli altri risultati possibili ed è sempre compresa tra zero e uno .Ogni evento appartiene allo spazio campionario ovvero l’ insieme di tutti i risultati possibili di un esperimento casuale. Le probabilità possono essere suddivise in :
P ( A ∣ B )= P ( A ∩ B ) P ( B ) Ora possiamo calcolare la probabilita di eventi dipendenti, ovvero la probabilità che entrambi gli eventi A e B si verificano sapendo che A dipende da B P ( A ∩ B )= P ( A ∣ B ) ⋅ P ( B ) -Quando invece non si parla di 2 eventi ma di più eventi condizionati subentra la probabilità totale che ci permette di calcolare la probabilità di un evento A accada data ogni causa B (B1,B2,B2 ecc)e si calcola:
-Infine il teorema di Bayes estende il concetto di probabilità condizionata calcolando il contrario della probabilità condizionata ovvero la probabilità che B accada dato A già accaduto P ( B ∣ A )= P ( B ) P ( A ∣ B )/ P ( A ) DISTRIBUZIONI DI PROBABILITÀ Una distribuzione di probabilità descrive come si distribuiscono i valori di una variabile aleatoria ovvero una variabile il cui valore dipende dal caso.La distribuzione può essere:
Significato pratico: Se estraiamo campioni casuali da una popolazione e calcoliamo la media di ciascun campione, quelle medie seguiranno una distribuzione normale, anche se la popolazione di origine non è normale. Regole del σ , 2 σ , 3 σ – Approfondimento massimo La regola del sigma descrive come si distribuiscono i dati rispetto alla media in una distribuzione normale.In una distribuzione normale
Gli eventi non possono verificarsi simultaneamente. La funzione di probabilità è: P ( X = k )= λ k e − λ k! Dove λ^ è la media degli eventi attesi (parametro della distribuzione). Campionamento e Inferenza – Approfondimento massimo In statistica, invece di studiare un’intera popolazione spesso impossibile ,esaminiamo un campione rappresentativo.Eistono 2 tipi di campionamento: Campionamento con sostituzione: Un elemento può essere selezionato più volte. Campionamento senza sostituzione: Un elemento può essere selezionato solo una volta. Una volta raccolti i dati del campione tramite l’interferenza statistica possiamo stimare i parametri della popolazione usando le statistiche campionarie come la media campionaria che stima la media della popolazione e la deviazione standard campionaria che misura la dispersione dei dati rispetto alla media .Un elemento fondamentale in questo processo è l’errore standard che misura quanto la media si discosta dalla vera media della popolazione e si calocla come il rapporto tra la deviazione standard campionaria e la radice quadrata della dimensione del campione,più è piccolo l’errore standard,maggiore sarà la precisione delle nostre stime segnalando che la media campionaria è molto vicina alle nostre stime Erore standard = σ^ /^ √^ n Il TEST DI IPOTESI E SIGNIFICATIVITÀ STATISTICA Il test di ipotesi è un metodo per prendere decisioni sui dati. Si formula un’ ipotesi nulla H^ 0 (nessun effetto o nessuna differenza) e un’ ipotesi alternativa H^ 1 (presenza di effetto o differenza). Errore di Primo e Secondo Tipo E’ fondamentale accettare un probabile margine di errore essendo che nessun test statistico è perfetto Errore di I tipo ( α ) : si verifica quando rifiutiamo H^ 0 anche se è vera perchè è un falso positivo,il rischio di commettere un errore di 1 tipo si chiama livello di significatività o alfa che viene stabilito prima dell’analisi statistica quando si sceglie la soglia di significatività di conseguenza è la soglia oltre la quale rifiutiamo l‘ipotesi nulla (ad esempio alfa=0.05 significa che accettiamo il 5%di rischio di errore di primo tipo
Ha una forma simile alla normale, ma con code più larghe. Dipende dal numero di gradi di libertà ( df = n − 1 ). Test t per Campioni Indipendenti – Two-Sample t-Test con Varianze Uguali Il test t per campioni indipendenti viene utilizzato per confrontare la media di due gruppi indipendenti quando i campioni sono piccoli ( n < 30 ) e le varianze sono uguali. Questo test verifica se le due medie campionarie provengono dalla stessa popolazione. La formula per la statistica t è: t = X ˉ 1 −^ X ˉ 2 sp √ 1 n 1
1 n 2 Intervalli di Confidenza per Popolazioni Gaussiane – Approfondimento massimo Un intervallo di confidenza (IC) è un intervallo di valori all’interno del quale ci aspettiamo che cada un parametro della popolazione (es. media) con un certo livello di confidenza (es. 95%). Test Chi-Quadrato di Indipendenza(distribuzione continua) Il test Chi-quadrato ( χ 2 ) è usato per verificare se esiste una relazione tra due variabili categoriali. Questo test si applica alle tabelle di contingenza , che mostrano le frequenze osservate per ciascuna combinazione di categorie delle due variabili. χ 2 = ∑
2 eij Regressione Lineare Semplice – Approfondimento massimo La regressione lineare studia la relazione tra una variabile dipendente Y e una variabile indipendente X assumendo che la relazione sia lineare infatti cerca di trovare la retta migliore stimando i suoi parametri. Modello di regressione: Y = α + βX + ε
Dove: α è l’intercetta (valore di Y quando X = 0 ), β è il coefficiente angolare (indica quanto Y cambia per ogni unità di aumento in X ), ε è l’errore residuo. Per stimare parametri ( α e β ) ancora più ottimali si utilizza il Metodo dei Minimi Quadrati che cerca di minimizzare la somma dei quadrati dei residui ,quest’ultimi sono la differenza tra il valore osservato o atteso.Questa minimizzazione è fondamentale per garantire che la retta sia quella che si avvicina di più ai dati complessivi riducendo l’errore totale b = ∑ ( xi − x ˉ )( yi − y ˉ ) ∑ (^ xi − x ˉ ) (^2) a = y ˉ − b x ˉ Una volta calcolata la retta dobbiamo valutare quanto bene questa retta descive i dati qui entrano in gioco 2 coefficenti Coefficente di correlazione r Il coefficiente di correlazione r misura la tendenza di due variabili x e y a covariare cioè a variare insieme lungo una retta ,inoltre misura anche la forza della relazione tra le due variabili x e y e varia tra -1 e +1. Se r=0.8, significa che le due variabili sono fortemente correlate positivamente. Coefficiente di Determinazione ( R^2 ) Il coefficiente di determinazione (^) R^2 oltre ad essere una misura della qualità della previsione fatta dal modello di regressione ,è il quadrato del coefficente di determinazione e misura quanto i cambiamenti di y dipendono da x R 2 = S Sreg S Stot Dove: S Sreg è la somma dei quadrati spiegata dalla regressione, S^ Stot è la somma totale dei quadrati. Interpretazione: R 2 =0.4 significa che il 40% della variabilità di^ Y^ è spiegata dalla variabile^ X