






























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica sull'inferenza statistica, concentrandosi sul campionamento e le distribuzioni di probabilità. Vengono trattati argomenti come il campionamento casuale semplice, il calcolo della media campionaria e la derivazione standard. Inoltre, vengono spiegate le distribuzioni di probabilità per variabili discrete e continue, con un focus sulla curva normale o gaussiana e sulla distribuzione t-student. Il documento include anche esempi pratici e formule per il calcolo degli intervalli di confidenza, rendendolo utile per studenti e professionisti che desiderano approfondire le proprie conoscenze in statistica inferenziale. Infine, vengono esaminate le tecniche per il confronto di medie tra campioni, sia con varianza nota che incognita, e i test di significatività.
Tipologia: Dispense
1 / 38
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!































La statistica è:
La statistica può essere di due tipi: A. Descrittiva : si occupa delle presentazioni e delle sintesi dei dati. Non viene effettuata nessuna previsione o interferenza sui parametri della popolazione; B. Inferenziale (deduttiva) : permette di trasferire le informazioni ottenute su un campione all’intera popolazione. Ciò viene effettuato attraverso un processo di ragionamento induttivo basato sulla teoria della probabilità.
In cosa consiste la fase preliminare? La fase preliminare è composta dalla formulazione degli obiettivi, l'analisi della letteratura, la definizione dell'unità statistica e di rilevazione, l'identificazione di variabili, di sistemi di rilevazione e dei confondenti. In cosa consiste la metodologia la metodologia? Consiste nella scelta della tipologia di studio, dei metodi di rilevazione, dell'identificazione di risorse disponibili e necessarie, delle autorizzazioni e della valutazione dei tempi di esecuzione. In cosa consiste il campionamento? Il campionamento consiste nella definizione della popolazione obiettivo, della scelta del campione e della determinazione campionaria. In cosa consiste lo studio pilota? Nell’addestramento del personale, nel test del questionario e nell'accettabilità dei partecipanti. Quanto ciò che rileviamo su un campione rispecchia ciò che avviene nella popolazione? Oppure: con che probabilità le misure rilevate sul campione ( stime ) sono i veri valori della popolazione ( parametri )? Le stime possono essere la media, la varianza, i conteggi e le percentuali. Tra le stime e i parametri ci sono le leggi della probabilità statistica inferenziale.
Il campionamento consiste nel prelevare dalla popolazione un gruppo di elementi di adeguata numerosità e completezza rispetto alle caratteristiche della popolazione. La regola per un buon campionamento è la seguente: I. Formulare gli obiettivi dello studio; II. Decidere quale tipo di analisi si deve condurre per soddisfare tali obbiettivi; III. Decidere quali dati sono necessari per facilitare l’analisi; IV. Raccogliere i dati richiesti dalla ricerca.
Una volta definita la popolazioni in studio, il passo successivo è decidere quali soggetti della popolazione dovrebbero costituire il campione. Le principali procedure di campionamento sono:
Nel campionamento casuale semplice tutti gli elementi della popolazione hanno la stessa probabilità di entrare a far parte del campione. Per esempio, supponiamo di voler estrarre un campione casuale di 20 persone da 800 persone. Per selezionare in modo casuale il campione a ogni persona viene assegnato un numero in modo univoco (1, 2, 3 e così via) finché le 800 persone non sono state conteggiate. Successivamente, in modo casuale, vengono scelte 20 persone che corrisponderanno al campione. Per ottenere dei numeri casuali è possibile usare le tavole dei numeri casuali, quando si sono scelti i numeri necessari per le proprie ricerche si annotano sulla tavola e la volta successiva si prosegue dal punto raggiunto la volta precedente, così da non ripescare gli stessi numeri.
Nel campionamento sistematico il campione si costituisce procedendo con l’estrazione degli elementi secondo un intervallo regolare. Ad esempio: quale intervallo è richiesto per selezionare un campione sistematico di ampiezza 20 da una popolazione di 800? Si fa un calcolo: Ampiezza della popolazione/ampiezza del campione = 800/20= 40 Quindi, la prima persona verrà selezionata in modo casuale tra le persone numerate tra 1 e 40. Si supponga l’estrazione del numero 23, di conseguenza, verrà scelto il 40-esimo paziente successivo (23,63, 103 e così via).
Il campionamento stratificato consiste nel suddividere gli elementi di una popolazione in più sottogruppi omogenei ed estrarre un campione casuale semplice da ogni sottogruppo. Questo campionamento consente una maggiore precisione delle stime.
Il campionamento a stadi consiste nel giungere alla costituzione del campione con una procedura di estrazioni casuali che riducono progressivamente la popolazione iniziale. Supponiamo di estrarre un campione di assisti del servizio sanitario regionale la popolazione di partenza è il totale dei residenti nella regione; si eseguono uno dopo l’altro i seguenti campioni casuali: A. Delle ASL; B. Dei comuni che fanno parte delle ASL precedentemente estratte; C. Dei quartieri che costituiscono il comune; D. Delle vie; E. Dei palazzi;
Si vuole valutare il livello di alcol ematico mediante il test all’etilometro. Per sintetizzare ed esporre i risultati con una tabella conviene renderla più piccola, determinando delle “classi di alcolemia”. Se si conoscono uno o più valori di “cut-off” si possono utilizzare questi per determinare le classi: per esempio la guida con tasso alcolemico superiore a 0,8g/l porta alla sospensione della patente per almeno 6 mesi. Si possono scegliere due classi:
Osserviamo come il risultato della formula di Sturges sia attraverso la tabella. La frequenza relativa è anche definita quota a parte. La frequenza cumulativa assoluta corrisponde al numero di persone che hanno nel sangue l’alcol tra 0-0,6 quindi 177+16+11=204. La frequenza cumulativa relativa è la somma delle frequenza relative.
Per descrivere i dati possiamo avvalerci o della tendenza centrale , ossia media, mediana e moda, che ci indicano verso quale valore tendono i valori di una variabile quantitativa, oppure della variabilità , ossia varianza (derivazione standard), coefficiente di variazione, range e differenza interquartile (differenza tra 25° e 75° percentile). I valori degli indici possono essere determinati per strato (qualora vi fossero variabili per le quali abbia senso stratificare) e presentati per mezzo di tabelle.
LA MEDIA La media , in particolare la media aritmetica, è utilizzabile sempre, quando i dati seguono una distribuzione normale. Essa si calcola dividendo la somma dei valori per il numero delle osservazioni. Se è possibile ottenere un osservazione per ogni singolo elemento, la media viene indicata con il simbolo μ (mu) ed è chiamata media della popolazione. Se invece parliamo di media data dalle osservazione del campione essa verrà rappresentata con ẋ (x-barrato) e la si chiama media campionaria. Vediamo le due formule: μ=Ʃx(i)/N (popolazione) e ẋ=Ʃx(i)/n (campionaria) Dove x(i) rappresenta la singola osservazione, N il numero di elementi (osservazione) di una popolazione e n la numerosità campionaria. Esempio Il tempo di sopravvivenza di 5 pazienti con cancro all’addome sono: 8.5 9.2 7.3 6.8 10. Calcolare la media del tempo di sopravvivenza. Ʃx(i)=8.5+9.2+7.3+6.8+10.1=41.9 mesi
I numeri di casi di sindromi cardiache tra 100 pazienti classificati in base alla classe di età è: Bambino 2 Adolescente 4 Giovane 22 Adulto 45 Anziano 14 Molto anziano 13 Qual è la moda dei seguenti valori? La moda dei seguenti valori è 45 (adulto).
IL RANGE Il range è la differenza tra il valore massimo e il valore minimo. LA DIFFERENZA INTERQUARTILE La differenza interquartile è la differenza tra il valore del 75° (terzo quartile) e del 25° (primo quartile) percentile. È associata alla mediana (50° percentile e secondo quartile). LA VARIANZA Nella varianza se tutte le osservazioni sono state ottenute da una popolazione, la derivazione standard è indicata con il simbolo σ² (sigma). Quando viene calcolata sulla base di un campione, il simbolo utilizzato è S². Vediamo le due formule: σ²=Ʃ(x(i)-μ)²/N (popolazione) e S²=Ʃ(x(i)-ẋ)²/(n-1) (campione) (x-ẋ) è lo scarto della media e (n-1) sono i gradi di libertà , ossia il numero di osservazioni meno uno. LA VARIANZA ASSOCIATA ALLA FREQUENZA La varianza associata alla frequenza si calcola attraverso la seguente formula: S²=Ʃ 𝑓 (x(i)-ẋ)²/(n-1) LA DERIVAZIONE STANDARD La derivazione standard si ottiene facendo la radice quadrata della varianza. Vediamo le due formule: σ= ⎷ σ² (popolazione) e S= ⎷ S² (campione)
La derivazione standard e la varianza sono associate alla media. Esempio Calcolare la derivazione standard delle seguenti 10 osservazioni (mm): 81 79 82 83 80 78 80 87 82 82 Calcoliamo la media: ẋ=Σx(i)/n=(81+79+(823)+83+(802)+78+87)/10=81.40 mm Calcoliamo gli scarti della media: (x(i)-ẋ)²=(81-81.40)²=0,16 etc… Sommiamo gli scarti della media: 0.16+5.76+0.36+2.56+1.96+11.56+1.96+31.36+0.36+0.36=56. Calcoliamo la varianza: S²=Ʃ(x(i)-ẋ)²/(n-1)=(56.4)/(10-1)=6. Calcoliamo la derivazione standard: S=⎷S²=⎷6.27=2.50 mm IL COEFFICIENTE DI VARIAZIONE STANDARD Quando si confrontano le variabilità in campioni di popolazioni con medie differenti si utilizza il coefficiente di variazione (CV). La formula è la seguente: _CV=(S/ẋ)_*
Negli istogrammi sull’asse x c’è la variabile continua suddivisa in classi e sull’asse y la frequenza (più correttamente quella “relativa”, cioè la percentuale) con cui quella classe si presenta. Essi possono rappresentare l’età, il peso e la frequenza cardiaca.
I diagrammi a torta sono formati da una circonferenza. L’intera circonferenza rappresenta il 100%, ciascuno spicchio indica la percentuale con cui si presenta un carattere. E’ indicato per le variabili qualitative come il sesso, il trattamento
Qual è la probabilità che un donatore selezionato casualmente non appartenga al gruppo A? P=numero di donatori di gruppo sanguigno diverso dal gruppo A/numero totale di donatori=(100-34)/100=0. Quindi si può definire con certezza che è un donatore, appartiene o non appartiene al gruppo sanguigno A, senza altre possibilità, perché 0.34+0.66=1 (certezza) Tutti i possibili risultati di un “esperimento” prendono il nome di spazio campione (gruppo sanguigno A oppure B, AB o 0)
La probabilità classica viene calcolata in seguito ad un ragionamento astratto. Se un evento può verificarsi in N modi ugualmente possibili e mutuamente esclusivi, se m di questi possiede una caratteristica E, la probabilità che si verifichi l’evento E è dato da m/N.
La probabilità come frequenza relativa è basata sulla possibilità di contare il numero delle ripetizioni. Se un processo si ripete un gran numero di volte n e se un certo evento con caratteristica E si verifica m volte, la probabilità di E sarà approssimativamente uguale ad m/n.
La probabilità soggettiva misura il grado di fiducia che un dato individuo ripone nel verificarsi di determinati eventi in base alle proprie conoscenze. Questo concetto non si basa sulla ripetibilità di un dato processo, si può valutare la probabilità di un evento che può verificarsi una sola volta.
La probabilità di un evento E che si indica con P(E):
Due eventi, A e B, sono mutualmente esclusivi se l’occorrenza dell’uno esclude l’altro. Esempio L’acidosi respiratoria e l’alcalosi respiratoria sono due eventi mutuamente esclusivi. Se ci si trova in una delle condizioni patologiche non si può simultaneamente avere anche l’altra. Una malattia cardiaca e il reflusso gastro- esofageo non sono eventi mutuamente esclusivi. Se un soggetto presenta dolore al torace e l’ECG conferma la presenza di un infarto, non significa necessariamente che il soggetto non possa essere affetto anche da reflusso esofageo. Se due eventi A e B sono mutuamente esclusivi allora: P(B ∪ A) =P(A)+P(B) questa è la legge della somma. ∪ —> significa oppure (unione) Dati due eventi A, B, non mutuamente esclusivi la probabilità che si verifichi l’evento A o l’evento B è : P(B ∪ A)=P(A)+P(B)-P(B ∩ A) ∩ —> significa e (intersezione)
Due eventi, A e B, sono condizionati se il verificarsi di A dipende da B, o viceversa. Talvolta tutti i possibili risultati possono essere un sottoinsieme del totale. Se A e B sono il risultato di un esperimento può accadere che il verificarsi dell’evento B sia modificato dal fatto che si sia verificato l’evento A. Si dice allora che l’evento B è condizionato da A e la probabilità che si verifichi l’evento B è condizionata dalla probabilità dell’evento A: P(B/A) =P(B ∩ A)/P(A) B/A —> B condizionato da A (condizionante) Esempio Supponiamo che in ospedale si sia verificata una epidemia di intossicazione alimentare ci furono 99 casi di malattia tra i 158 pazienti che avevano consumato il
Quando si esegue un esperimento e si descrivono i risultati si costruisce spesso un grafico (istogramma) per mostrare l’andamento del fenomeno in esame. In un istogramma:
L’idea chiave su cui si basa l’analisi statistica è che si possono eseguire osservazioni su un campione di soggetti e che da questo si possono compiere inferenze sulla popolazione rappresentata da tutti i soggetti con caratteristiche analoghe a quelle del campione. Anche se ben pianificato uno studio può dare solo una idea della risposta cercata, a causa essenzialmente della variabilità casuale del campione stesso strettamente collegata, tra l’altro, al numero di soggetti inclusi in uno studio. Le quantità statistiche ottenute (medie, proporzioni, coefficienti di regressione, etc…) sono stime imprecise dei veri valori nella popolazione generale.
Una misura descrittiva calcolata dai dati di una popolazione è definita parametro. Una misura descrittiva calcolata dai dati di un campione è detta stima del parametro. L’insieme dei metodi che ci consentono di estendere i risultati ottenuti dal campione a tutta la popolazione oggetto dello studio costituiscono l’inferenza statistica , ossia la stima dei parametri e la verifica delle ipotesi. Che cos’è una stima? La stima è il calcolo, dai dati di un campione, di una qualche statistica, ed è una approssimazione del corrispondente parametro della popolazione da cui il campione è stato estratto. Abbiamo due tipi di stime:
Le stime di intervallo forniscono informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilità della stima. La procedura di calcolo degli intervalli di confidenza , si basa sulla determinazione di due limiti entro i quali, con una probabilità 1-∞, è contenuto il parametro, a partire dalle informazioni campionarie. 1-∞=P(L1≤θ≤L2) con 0 ≤⍺≤ 1 Dove θ viene detto theta, L1 e L2 sono dipendenti dalla dimensione del campione e maggiore è il livello di confidenza, allora maggiore sarà il grado di attendibilità.
INTERVALLO DI CONFIDENZA CON VARIANZA NOTA Supponiamo di costruire un intervallo di confidenza per la media di una variabile casuale che segue una distribuzione di Gauss N (μ,σ²), con varianza della popolazione nota. 1-⍺=P(L1≤μ≤L2) dove μ (definito “mi”) è il possibile valore della variabile Devo individuare i valori di L1 e L2 che mi garantiscano che, estraendo dalla popolazione altri campioni di uguale dimensione n, con probabilità pari al 95% la media campionaria sarà contenuta nell’intervallo. Dopo aver eseguito la stima puntuale ẋ della media della variabile x posso considerare la “nuova” variabile casuale z, e applicando il teorema del limite centrale posso scrivere: z=(ẋ-μ)/(σ/ ⎷ n) Qui la varianza (σ) è unica. Dopo una serie di calcoli z prende il posto di L: 1-⍺=P(ẋ-z(σ/⎷n)≤μ≤ẋ+z(σ/⎷n)) Dato che la variabile casuale z per il Teorema Centrale del limite segue una distribuzione di Gauss standard, che è simmetrica, abbiamo potuto trasformare L e L2 in –L e +L, infine abbiamo potuto sostituirli con z(tab), che si ricavano dalle tavole della distribuzione di Gauss standard: