Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Distribuzione Normale e Binomiale: Analisi Statistica e Applicazioni, Appunti di Statistica Medica

Analisi dettagliata delle distribuzioni normale e binomiale, modelli statistici fondamentali per comprendere fenomeni in diversi ambiti. Vengono discussi gli aspetti chiave, come media, varianza e deviazione standard, e le loro applicazioni pratiche nella misurazione di variabili continue e discrete. Il documento approfondisce inoltre il teorema del limite centrale e fornisce esempi concreti di utilizzo di queste distribuzioni per calcolare probabilità e interpretare risultati in contesti reali. Uno strumento prezioso per studenti e ricercatori interessati a comprendere i principi statistici alla base di queste importanti distribuzioni di probabilità.

Tipologia: Appunti

2022/2023

Caricato il 19/05/2024

shubhneet-kaur
shubhneet-kaur 🇮🇹

5

(1)

4 documenti

1 / 10

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Abbiamo visto che la distribuzione binomiale è definita in base al numero di prove e alla probabilità di successo della
singola prova.
La binomiale B(1,p) è quando, ad esempio, lanciamo la moneta una sola volta, o quando vogliamo avere la distribuzione
della probabilità che un singolo paziente abbia o non abbia una certa patologia o fattore di rischio. È equiparata a una
prova dove i risultati sono soltanto due: o successo o insuccesso, l’evento si verifica o non si verifica.
È possibile calcolare il parametro fondamentale della dispersione, la varianza.
La varianza di una distribuzione binomiale di cui abbiamo soltanto una prova, dipende dalla proporzione stessa. Mentre
la deviazione standard (per esempio dell’età nella classe, dice quanto ogni individuo è mediamente lontano dalla media
aritmetica) nel caso della variabile si no, dipende dalla stessa media.
Come abbiamo visto la varianza è tanto più grande quanto più p si avvicina al valore 0.5 (massima variabilità).
La binomiale estesa dipende dal numero di persone presenti nel campione o dal numero di prove.
Su n prove, la media di successo è p, allora la media su n prove sarà uguale a n volte p (si moltiplica il numero di prove
per la probabilità di successo).
Anche la varianza sarà uguale a n volte la varianza, quindi n*p*(1-p).
Quando però, invece di calcolare il numero di persone, si vuole calcolare la proporzione di persone, cioè, ad esempio,
quante sono le persone che usano il filo interdentale rispetto a tutte le persone intervistate, allora bisogna nuovamente
dividere per n, si torna quindi al valore p*(1-p).
Quando però si calcola la varianza di questa proporzione, bisogna tenere in considerazione che si tratta di una
proporzione e non di un conteggio, quindi non quanti individui usano il filo interdentale, ma la proporzione di persone
che lo usano.
Ricordiamo che la varianza è la somma degli scarti quadratici diviso n, quindi in questo senso la varianza è una media
degli scarti quadratici.
Se moltiplichiamo la x per a, un qualsiasi numero, coefficiente a, questo valore va moltiplicato per ogni x.
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Distribuzione Normale e Binomiale: Analisi Statistica e Applicazioni e più Appunti in PDF di Statistica Medica solo su Docsity!

Abbiamo visto che la distribuzione binomiale è definita in base al numero di prove e alla probabilità di successo della singola prova. La binomiale B(1,p) è quando, ad esempio, lanciamo la moneta una sola volta, o quando vogliamo avere la distribuzione della probabilità che un singolo paziente abbia o non abbia una certa patologia o fattore di rischio. È equiparata a una prova dove i risultati sono soltanto due: o successo o insuccesso, l’evento si verifica o non si verifica. È possibile calcolare il parametro fondamentale della dispersione, la varianza. La varianza di una distribuzione binomiale di cui abbiamo soltanto una prova, dipende dalla proporzione stessa. Mentre la deviazione standard (per esempio dell’età nella classe, dice quanto ogni individuo è mediamente lontano dalla media aritmetica) nel caso della variabile si no, dipende dalla stessa media. Come abbiamo visto la varianza è tanto più grande quanto più p si avvicina al valore 0.5 (massima variabilità). La binomiale estesa dipende dal numero di persone presenti nel campione o dal numero di prove. Su n prove , la media di successo è p, allora la media su n prove sarà uguale a n volte p (si moltiplica il numero di prove per la probabilità di successo). Anche la varianza sarà uguale a n volte la varianza, quindi np(1-p).** Quando però, invece di calcolare il numero di persone, si vuole calcolare la proporzione di persone , cioè, ad esempio, quante sono le persone che usano il filo interdentale rispetto a tutte le persone intervistate, allora bisogna nuovamente dividere per n, si torna quindi al valore p*(1-p). Quando però si calcola la varianza di questa proporzione , bisogna tenere in considerazione che si tratta di una proporzione e non di un conteggio, quindi non quanti individui usano il filo interdentale, ma la proporzione di persone che lo usano. Ricordiamo che la varianza è la somma degli scarti quadratici diviso n, quindi in questo senso la varianza è una media degli scarti quadratici. Se moltiplichiamo la x per a, un qualsiasi numero, coefficiente a , questo valore va moltiplicato per ogni x.

Es. Immaginiamo di misurare il dolore in 10 pazienti (il dolore si definisce da una scala che va da 0, assenza di dolore, a 10, dolore massimo sopportabile) e dei valori dati dai pazienti vogliamo calcolare media, varianza, e deviazione standard. Se il dolore si misurasse su scala 100 anziché su scala 10, è come se i valori fossero moltiplicati per 10 (es. 40 al posto di 4, ecc.), quindi la media sarebbe 10 volte la media calcolata precedentemente. La varianza invece non risulterà moltiplicata per 10, ma per un altro coefficiente, cioè 100. Questo perché, moltiplicando tutto per 10, quindi 10 per il dolore iniziale, è possibile mettere in comune a che moltiplica xi-x, il tutto al quadrato. (vedi formule nell’immagine precedente) Il quadrato di un prodotto è uguale al prodotto dei due quadrati, quindi è uguale ad a al quadrato per xi-x al quadrato. Questo a al quadrato può essere tirato fuori dalla sommatoria in quanto possibile fare la somma di questi valori e poi moltiplicare il risultato per questo coefficiente che non varia, è come fosse una costante, quindi la costante può essere tirata fuori dalla sommatoria. Quindi vediamo che la varianza di x moltiplicata per il coefficiente a, è uguale al coefficiente al quadrato per la varianza della variabile x. Usando invece 3 come coefficiente, la varianza cambierà ulteriormente. La varianza sarà sempre moltiplicata per il coefficiente al quadrato rispetto alla varianza iniziale. Se il coefficiente moltiplicativo è 1/n, ad esempio, quindi invece di essere un numero intero è un numero frazionario, allora la varianza di una certa variabile k diviso n sarà uguale a 1 su n quadro per la varianza di k. Visto che la varianza di k è np(1-p) bisogna dividere per n quadro, per cui si ottiene p*(1-p) diviso n. Questa è la ragione per cui la varianza di una proporzione non sarà n volte la varianza ma al contrario la varianza diviso n, quindi la varianza di una proporzione diventa più piccola rispetto alla varianza del conteggio dei successi. Finora abbiamo parlato di distribuzione binomiale, ma è molto importante la distribuzione normale in quanto si incontra molto spesso nei dati reali , ad esempio l’età della mamma al momento del parto aveva questa distribuzione:

Che cos’è la combinazione? È data dalla somma di queste età e che poi è determinato il valore medio. Quindi questa è la media delle varie età che avrebbero portato quella signora a partorire. Questa che otteniamo in fondo è la media di variabili uniformi tra i 20 e i 50. Ma se andiamo a contarle, si vede che questi numeri in genere oscillano e sono tutti più o meno in media sul 32 perché su 1000 abbiamo dei numeri che oscillano intorno a questo 32. Quando andiamo a vedere le medie di queste età, vediamo che non abbiamo mai 21, mai 22 e cominciamo ad avere invece molto più frequenti i valori centrali. Quando noi facciamo la somma di distribuzioni uniformi, otteniamo una forma che non è certamente uniforme, potrà un po' oscillare naturalmente, però tende sempre ad andare verso il centro. Come abbiamo visto per la moneta o per il dado, qui è come se avessimo un dado a 31 facce (da 20 a 50). Se si lancia un dado a 30 facce e ottengo sempre 20, è una cosa che può accadere, ma è molto raro. Cioè è abbastanza raro ottenere 20 volte 6 di seguito, o 20 volte 1, ma anche 20 volte 3. È difficile che si ottenga sempre lo stesso valore perché ci sono più combinazioni che portano tutte ad un verso. Cioè se io lancio 20 volte il dado, il valore 20 si ottiene soltanto se esce 1 tutte e 20 le volte e il valore 120 si ottiene soltanto se esce 6, ho molte più possibilità che mi escano i valori intermedi che si vanno a mescolare. Che cosa succede quando vado a fare la media? Devo fare la somma di questi valori e poi diviso. Quindi la media sarà un valore che tende ad andare più verso il centro. Tanto che qui che sono stati generati ben 1000, non è praticamente mai capitato di avere che la media è 20, cioè non è mai successo che la media di 10 variabili casuali uniformi tra 20 e 50 sia per 10 volte 20. Le medie più frequenti sono quelle che sono corrispondenti al centro della distribuzione. Al centro della distribuzione, il valore sarà, essendo tra 20 e 70, 35. Infatti il valore più frequente (il picco) è quasi sempre il valore 35. Quindi cosa ci dice questa simulazione? Ci dice che la somma di distribuzioni uniformi (la somma di variabili che sono veramente molto diverse dalla distribuzione triangolare o a campana), quando queste distribuzioni diventano casuali, tende a prendere una forma gaussiana. Perché noi osserviamo tanti fenomeni che sono distribuiti secondo la gaussiana? Perché dietro quello che appare ci sono tanti fattori che che hanno distribuzioni diverse: non è detto che siano uniformi, sono anche di altra natura, ma la somma di tante cose tende a diminuire la probabilità che si verifichino gli estremi (gli estremi si possono verificare, ma con probabilità molto bassa). È più tipico che invece si ottengano delle misure vicine alla media. Questo tipo di impostazione è alla base di un teorema fondamentale della statistica che è il teorema del limite centrale , cioè si va verso i valori centrali. Qualche volta l’analogo per le distribuzioni di frequenza è quello della legge dei grandi numeri, ma questo più specifico si chiama il teorema del limite centrale , cioè la tendenza ad andare verso il centro quando sommiamo distribuzioni che all'inizio non sono affatto grosse. Anche la distribuzione binomiale tende alla distribuzione gaussiana. Quando non siamo a 0.5 e siamo all'evento a probabilità più bassa, ci vuole un po' di più per andare verso la gaussiana: all’inizio si resta simmetrici, ma se faccio 100 lanci anche la distribuzione binomiale tende verso la gaussiana. Questo fenomeno dell'età delle mamme raccogliendo i dati del Fatebenefratelli, è stato questo perché è la risultante di tanti fattori che combinandosi determinano l’improbabilità di avere valori estremi. Questa distribuzione (una distribuzione osservata dai dati) la possiamo approssimare con una funzione matematica.

Questa è la funzione di densità, perché la distribuzione gaussiana è una funzione di x dove x è un numero reale (numero che va da meno infinito a più infinito) che può assumere tutti i valori possibili: è una variabile continua. Con “continua” si intende che tra due numeri c'è sempre la possibilità di trovarne un altro in mezzo e tra questi due ancora un altro: dipende dalla mia sensibilità. Quando la distribuzione è continua (come si può vedere tutto l'asse reale tende a infinito), la funzione di densità vi dice qual è la probabilità di osservare quel dato valore di x. Questo dipende, nel caso della distribuzione gaussiana, da due parametri che sono un indice di posizione (e cioè la media ) e un indice di variabilità (e cioè la deviazione standard ). Se io conosco la media e la deviazione standard, io so tutto di questa distribuzione. Riesco a calcolare qual è la probabilità di osservare quel certo valore x. La funzione è stata ricavata anche prima di Gauss, però quella di Gauss è quella più formalizzata ottenuta come la soluzione di un equazione differenziale. Questa funzione è apparentemente un po’ complessa ma la possiamo semplificare così: Se ho la media e la deviazione standard posso calcolarmi la probabilità di trovare x : x sarebbe un certo valore di una distribuzione. Se io metto per esempio x = 20 anni, la media a cui si partorisce è 34, la deviazione standard è 5, a questo punto so qual è la probabilità di partorire a 20 anni (se questo modello è ben rappresentativo di quello che succede nella realtà, come effettivamente è). Per semplificare questa formula, possiamo fare una trasformazione di x , cioè invece di x noi calcoliamo una trasformata z , che è la differenza di x dalla media (cioè lo scarto dalla media) diviso la deviazione standard. Se io utilizzo z invece di x , la media sarà per definizione 0. Quando x è uguale alla media sarà pari a 0 e sigma diventa pari a 1. Quando utilizziamo la trasformata z di x , questa funzione si semplifica e diventa la funzione z standardizzata e diventa molto più semplice:

É una formula di ripartizione, cioè mi dice che ovviamente il 100% dei valori è inferiore a più infinito perché qui noi andiamo come asintoto verso l'uno. In realtà, Excel già dispone di una funzione per calcolare la probabilità di osservare il valore -3, dato che la variabile segue una distribuzione normale standardizzata (normast). Tuttavia, il punto di confusione risiede nel fatto che quando si dice "falso", ci si riferisce alla funzione di densità di probabilità, che calcola la probabilità di ottenere un singolo valore o un intervallo. Ciò che è più significativo è se la funzione restituisce o meno un valore, perché ciò indica che solo l'1 per mille dei valori è inferiore o uguale a -3. Quindi, sono molto pochi i valori che sono inferiori o uguali a -3. Allo stesso modo, se guardiamo dalla parte opposta, cioè per valori superiori o uguali a +3, sono 99,9 i valori che rientrano in questa categoria. Questo può essere chiaramente visualizzato tramite la funzione. Unisce i dati in modo simile a un grafico a linee, ma rappresenta le frequenze relative delle diverse età delle mamme al momento della nascita del bambino, come se fosse un istogramma. È essenzialmente ciò che abbiamo sempre notato analizzando i dati del 2011. Ora, riguardo a questa curva, il motivo per cui appare un po' irregolare è perché l'andamento potrebbe essere leggermente diverso l'anno successivo; ad esempio, potrebbero variare leggermente le percentuali di donne di 34 anni rispetto a quelle di 35 anni, a causa di fluttuazioni casuali. Tuttavia, ciò che mi interessa è individuare una funzione che si adatti il più possibile a questi dati. È improbabile trovare una funzione perfetta, poiché raramente i fenomeni naturali si adattano perfettamente a modelli matematici. Con la distribuzione gaussiana s i può ottenere una buona o addirittura ottima approssimazione che descriva la distribuzione delle età. Questo significa che abbiamo compreso come si distribuisce il fenomeno, abbiamo identificato la legge che ne determina la manifestazione e quindi, conoscendo questa legge, possiamo prevedere come si distribuirà il fenomeno l'anno successivo, anche se potrebbe subire leggere oscillazioni. In pratica, abbiamo identificato una regola o una legge che governa questo fenomeno, pur lasciando spazio alla possibilità naturale di variazioni nel tempo. Allora, per calcolare questi valori, iniziamo osservando che la media dell'età delle mamme nel momento del parto è stata di 34 e 22 anni, con una deviazione standard di 4,8. Questi dati sono stati ottenuti dall'analisi dei dati effettivi dei pazienti. Successivamente, abbiamo individuato che c'era una madre di 15 anni. Ricordate che c'era una ragazza che ha partorito a 15 anni, tre a 16, quattro a 17 e così via. Quindi, se prendiamo in considerazione la frequenza relativa - non si tratta di una probabilità, ma della frequenza relativa - osserviamo quanti sono i casi di mamme di 15 anni rispetto al totale delle mamme che partoriscono, che era 0. equivale a circa 1 su 4mila, quindi circa 2 su 10 mila. Per calcolare la cosiddetta variabile Z , che è la variabile standardizzata, sottraiamo l'età della mamma al momento del parto, in questo caso 15 anni, dalla media e dividiamo per la deviazione standard. La variabile Z (standardizzata) è lo scarto dalla media diviso la deviazione standard. Questo ci fornisce lo scostamento dalla media espresso in deviazioni standard.

Questa mamma è una mamma che avrebbe un valore z pari a - 4, qual è la probabilità di osservare meno 4? qui applicando la formula, è ancora più bassa. É veramente improbabile dato il fenomeno, dato la deviazione standard, osservare, mamma di 15 anni. Quindi può dire che è così basso, che quell'anno è capitato, ma il prossimo anno potrebbe non capitare perché è successo quest'anno, ma effettivamente guardando il fenomeno nel suo complesso e seguendo questa legge di distribuzione è u molto raro, cioè potrebbe capitare solo 3 volte su 100.000, quindi è un dato molto molto importante. Vedete come invece cresce la probabilità all'aumentare di questo valore. Quando andiamo a 34 per esempio, allora 34, innanzitutto ho visto 378 mamme di 34 anni. In realtà sono da 75 a 35 però vedete che il dato è più alto quindi è proprio 378, questo valore qui. Questo 378 quindi rappresenta il 9% circa, di tutte le mamme. Quindi il 9% partisce a 34 anni. Calcolo banale: la differenza rispetto alla media diviso la deviazione standard. La probabilità di osservare questo valore se la variabile si distribuisce secondo una perfetta gaussiana. Ora, osservate qui: questa curva non è identica a quella rossa, tuttavia è evidente anche graficamente che si tratta di un buon adattamento. Ciò implica che questa funzione matematica descrive in modo accurato il fenomeno che stiamo analizzando. È chiaro che questo fenomeno si è manifestato in quel particolare anno. Vorrei sottolineare che l'anno precedente potrebbe essere stato diverso, ma questa descrizione sarà sicuramente più stabile nel tempo. Anche se ogni tanto può deviare leggermente dalla realtà, dobbiamo considerare che la realtà stessa può essere soggetta a variazioni. Se vogliamo comprendere quale sia la legge che governa questo fenomeno, dobbiamo tenere conto che intorno a questa legge matematica ci potrebbero essere delle discrepanze, seppur minime. Tuttavia, è fondamentale notare che rischiamo di avere un divario tra la velocità ideale e quella reale. Se questo divario è troppo ampio, significa che la distribuzione è reale anziché ideale. In tal caso, se la curva si discosta significativamente dalla linea rossa, potremmo concludere che il modello non è adatto a rappresentare adeguatamente il fenomeno. Prendiamo ad esempio IQ che è quasi tarato nella popolazione: per avere la media 100 e la deviazione standard 15. Quindi abbiamo che la maggior parte delle persone ha valori vicini al 100, anzi 100 è proprio il valore più frequente e mano a mano che diminuisce la gaussiana, rimangono poche le persone che hanno valori sia alti che bassi. La distribuzione gaussiana dipende da due parametri: la media e la deviazione standard. La distribuzione Gaussiana è la distribuzione di probabilità che meglio rappresenta molte variabili biologiche, ed è anche la distribuzione di probabilità degli errori casuali e delle statistiche campionarie. La distribuzione gaussiana o “normale” comprende una famiglia di curve, i cui parametri sono la media μ e la deviazione standard σ.

  • La media determina la posizione centrale della curva. La curva, infatti, risulta simmetrica rispetto al valore medio, μ, della distribuzione dei dati.
  • La deviazione standard determina l'ampiezza della curva. Data una variabile la cui distribuzione di probabilità è gaussiana, possiamo misurare la probabilità corrispondente a determinati intervalli di valori della variabile. Quindi quando cambia la deviazione standard come cambierà la distribuzione? Se io la seconda distribuzione al posto di farla diventare 15 la faccio diventare 10, quindi sarà più piccola,come cambierà secondo voi la distribuzione? Se diventa più piccola la deviazione standard si alza. Perché? Perché vuol dire che la mia distanza media dalla media è più piccola. Siccome la deviazione standard è una media delle distanze dalla media, alla fine la curva diventa più stretta. Se io facessi 20 invece, allora la deviazione standard si allarga. E’ sempre

In questo modo ottengo questo tipo di informazione. Abbiamo 186 e 162. Vedete che 186 e 162 sono due valori simmetrici speculari perché uno è 12 punti più della media e l’altro 12 punti in meno della media e infatti questo da una standardizzata di +1(186) e l’altro -1 (162). Quindi si invertono le percentuali,ma questo ci permette di vedere che questa differenza tra 186 e 162, cioè praticamente tra due deviazioni standard tra la (media - DV;174-12)e la (media + DV;174+12), all'interno ci cadrà il 68% dei valori.Quindi ogni volta che abbiamo una distribuzione gaussiana noi già sappiamo che 68% delle osservazioni sarà compresa tra la media -1 della deviazione standard e la media +1 DV. La cosa che non si può dimenticare è un’altra percentuale: quella quando aggiungiamo o togliamo due deviazioni standard:174+24 (12 che era la DV moltiplicata per 2) e 174-24. In questo caso passiamo da 150 a 198.Adesso vedete che i 48 punti tra 150 e 198 corrispondono a 4 deviazioni standard perchè sono +2 e -2 ( sarebbe 4 volte 12), quindi nello spazio tra la media + 2 e media -2 di deviazioni standard abbiamo il 95,4% dei valori. Quando abbiamo una distribuzione gaussiana già sappiamo che se aggiungiamo o togliamo 2 volte la media,sappiamo già quanto cade la percentuale all’interno ovvero 95,4%. Per essere esattamente il 95 % dobbiamo fare 1,96 e non 2. Se io voglio sapere, data questa funzione, qual’è il valore Z sotto il quale c’è solo il 2,5%: faccio la funzione inversa.Ho calcolato la probabilità dato il valore Z,qui invece mi calcolo il valore Z data la probabilità.Questa è la funzione inversa. Da Z alla probabilità la funzione è diretta. Se io voglio sapere il valore Z per cui il 2,5% è inferiore, questo valore sarà -1,96. E ovviamente se vado a 97,5 sarà 1,96 perchè è simmetrico.Quindi tra +1,96 e -1,96 ci saranno 95% dei valori.Quindi quando abbiamo una distribuzione gaussiana noi sappiamo che tra la media + o - 1 deviazioni standard ci sarà 68%; tra la media 1,96 deviazione standard ci sarà il 95% ;se facciamo 2 deviazione standard ci sarà 95,4% e se facciamo tra +3 e -3 ci sarà sostanzialmente il 99,7%.Quindi la maggior parte delle osservazioni sarà compresa tra - deviazioni standard e + 3.