Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Dispensa statistica applicata secondo modulo, Dispense di Statistica Applicata

Dispensa statistica applicata secondo modulo

Tipologia: Dispense

2025/2026

Caricato il 23/04/2026

federicotomasoni
federicotomasoni 🇮🇹

4 documenti

1 / 63

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA APPLICATA – 2^Modulo
Test da due popolazioni
In questa sezione considereremo due popolazioni e ci occuperemo del:
- Test sul confronto di medie
- Test sul confronto di varianze
- Test sul confronto di proporzioni
Test per il confronto di DUE medie
Se siamo interessati ad un test per effettuare il confronto fra le medie di due popolazioni
indipendenti, possiamo trovarci in una di queste due situazioni:
Caso A È valida l’ipotesi di distribuzione normale (verifica effettuata su ciascuno dei due campi)
Caso B Non è verificata l’ipotesi di normalità
Caso A
Caso A1: normali con varianze note
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f

Anteprima parziale del testo

Scarica Dispensa statistica applicata secondo modulo e più Dispense in PDF di Statistica Applicata solo su Docsity!

STATISTICA APPLICATA – 2^Modulo

Test da due popolazioni

In questa sezione considereremo due popolazioni e ci occuperemo del:

  • Test sul confronto di medie
  • Test sul confronto di varianze
  • Test sul confronto di proporzioni Test per il confronto di DUE medie Se siamo interessati ad un test per effettuare il confronto fra le medie di due popolazioni indipendenti, possiamo trovarci in una di queste due situazioni: Caso A → È valida l’ipotesi di distribuzione normale (verifica effettuata su ciascuno dei due campi) Caso B → Non è verificata l’ipotesi di normalità Caso A Caso A1: normali con varianze note

Osservazione Funzione Test Funzione bilaterale - Regione di Rifiuto La probabilità di compiere un errore di I tipo è α Test unilaterale La regione di rifiuto per i test unilaterali si ricavano in analogia a quanto già visto per i test su una singola media: N.B. Oltre a effettuare un test d’ipotesi con una prefissata significatività α, possiamo calcolare il p- value. Quest’ultima è l’opzione generalmente preferita negli output dei pacchetti statistici

Nel caso le varianze siano ignote , prima di poter applicare il test di confronto tra due medie, sotto l’assunzione di normalità, bisogna verificare se le incognite varianze sono tra loro uguali a diverse. A tale scopo è possibile effettuare un test i uguaglianza tra le varianze di due campioni indipendenti, valido esclusivamente sotto l’ipotesi di normalità. Caso A2: normali con varianze ignote – test di uguaglianza delle varianze Si tratta quindi di effettuare la seguente verifica di ipotesi:

In R A seconda del risultato ottenuto nel test di confronto delle varianze (accetto H0, dunque varianze uguali o rifiuto H0, dunque varianze diverse), dovrò applicare coerentemente il test di confronto delle medie per:

  • Varianze incognite ma uguali →Caso A 3
  • Varianze incognite ma diverse → Caso A Caso A3: normali con varianze ignote ma uguali

In R Esempio

Caso A4: normali con varianze ignote e diverse Test Regione di Rifiuto La probabilità di compiere un errore di I tipo è pari ad α Il grado di libertà g del test t di Student è stimato dalla seguente formula: Anche in questo caso, per grandi campioni, è spesso possibile approssimare la distribuzione della t di Student con quella di una normale. Test unilaterale Le regioni di rifiuto per i test unilaterali si ricavano in analogia a quanto già visto per i test su una singola media:

Osservazione: correzione di Bonferroni nel test congiunto Caso A5: test per dati appaiati Quando si devono effettuare test per confrontare la media su due campioni di osservazioni, è bene verificare se si tratti di due campioni tra loro indipendenti o no. Se ad esempio, si ha lo stesso campione di unità statistiche osservato in due circostanze diverse, i campioni non sono sicuramente indipendenti. (Es: campione di stessi pazienti prima e dopo la cura, campione di medesime aziende di cui si confronta il fatturato a gennaio di due anni consecutivi o un paniere di alimenti il cui prezzo viene confrontato in due ipermercati differenti). In questo caso si parla di dati appaiati e l’interesse è quello di verificare se vi sia stata una variazione nella media di una variabile di interesse. È sbagliato in questo caso utilizzare i test appena visti per il confronto delle medie perché le osservazioni dei due campioni non sono tra di loro indipendenti: sono o le medesime unità statistiche (Es: pazienti e aziende), o unità statistiche con caratteristiche tali da renderle equivalenti nei due gruppi (Es: paniere di alimenti). In R

Esempio Ragionando sulle differenze (Test da una popolazione)

Caso B Nel caso in cui non sia assumibile la condizione di normalità per effettuare un confronto di medie è necessario ricorrere a test non parametrici come il test di WILCOXON. Test per il confronto di due proporzioni Se siamo interessati ad un test per effettuare il confronto fra le proporzioni di due campioni casuali indipendenti, per quanto già detto nelle pagine precedenti, dovremo assumere di avere campioni estratti dalle V.C. Dunque, al contrario dei test di confronto delle medie non abbiamo il problema di interrogarci sulla uguaglianza o meno delle varianze. Ci chiediamo:

Test Regione di Rifiuto In R

La popolazione di riferimento Possiamo concludere dunque che nei dati campionari c’è qualche forma di dipendenza tra le due variabili, ma cosa possiamo concludere dal punto di vista inferenziale? È possibile estendere e generalizzare questo risultato, vale a dire che esiste una associazione tra le due variabili? Quale è la POPOLAZIONE DI RIFERIMENTO? Questa questione è l’argomento più rilevante. Infatti, il nostro interesse principale è lo studio della relazione tra grado di soddisfazione e sconti in generale e non solamente relativamente al parere espresso al riguardo dei 1398 croceristi intervistati. Gli elementi del campione sono stati estratti casualmente tra i croceristi clienti di una particolare compagnia di navigazione in un anno preciso. Possiamo dunque pensare che quei dati ci possano parlare direttamente della relazione esistente tra le due variabili in questo gruppo più grande di individui, di cui i 1398 croceristi sono un campione. Ci chiediamo: la dipendenza che abbiamo osservato nel campione è una peculiarità caratteristica dei doli croceristi estratti e quindi l’abbiamo osservata per puro caso ovvero è la manifestazione di una reale associazione tra i due fenomeni esistente nella popolazione di riferimento? Si tratta di un problema di verifica di ipotesi che può essere scritto nella forma:

Conclusione: i risultati sono significativi al 5% ma non al 1%. I dati suggeriscono di rifiutare l’ipotesi nulla ma non così chiaramente. In R In Excel ATTENZIONE! Associazione non significa relazione causale L’associazione statistica non implica necessariamente una relazione causa-effetto. La dipendenza statistica tra due variabili Y e X è infatti una condizione necessaria, ma non sufficiente, per dire che X è causa di Y. Per l’identificazione di una relazione di causa-effetto infatti è necessario raccogliere i dati attraverso una procedura adeguata che prende il nome di Randomized Control Trials (RCT), cioè una vera sperimentazione come in laboratorio. I dati non possono dunque essere di tipo osservazionale, ma devono provenire da un esperimento controllato.

Relazione spuria e relazione casuale Se i dati non provengono da un esperimento il rischio è quello di confondere una relazione spuria con una relazione causale. La relazione tra Y e X potrebbe essere spuria, cioè indotta da una terza variabile (Z) ad esempio la dimensione dell’incendio che potrebbe agire in modo concomitate sia su X che su Y. Come facciamo a valutare tale ipotesi? Verifichiamo se la relazione tra Y e X svanisce tenendo conto della variabile Z.

Se si tiene conto della gravità dell’incendio la relazione tra Y e X svanisce e in questo caso si dice che la relazione è spuria. Attenzione : una relazione spuria potrebbe anche celare una reale relazione causa-effetto, ovvero la relazione tra Y e X non c’è, ma si palesa solo se controllo rispetto ad una terza variabile di controllo Z. CONCLUSIONI : Con dati osservazionali, cioè non derivanti da esperimenti randomizzati, per stabilire una relazione di causa-effetto tra Y e X bisognerebbe verificare la relazione tra le due variabili al netto del possibile effetto di altre variabili che potrebbero agire in modo concomitante tra Y ed X, in modo da escludere la possibilità di una relazione spuria. Questa operazione non è molto agevole. Questa cautela va seguita anche qualora si voglia attribuire una relazione di causa- effetto solo a seguito della presenza di un legame lineare (correlazione) tra le variabili nella regressione multipla. Abbiamo visto come il test χ2 risulti utile per confrontare un insieme di frequenze osservate con delle frequenze attese, calcolate ipotizzando un particolare modello per il fenomeno di interesse (l’indipendenza stocastica nelle pagine precedenti). Esiste però un’altra applicazione del χ2 come « test sulla bontà di adattamento », cioè come test utile per verificare l’ipotesi che i dati campionari provengano da una v.c. la cui distribuzione di probabilità è nota. La verifica riguarda quindi l’intera distribuzione. Test Chi-quadrato di adattamento Operativamente: I dati campionari devono essere suddivisi in k classi C1, C2, …, Ck cui saranno associate le frequenze assolute n1, n2, …, nk. Si indichi poi con π1, π2, …, πk la probabilità che la v.c. assunta sotto l’ipotesi nulla assuma valori nelle corrispondenti classi. Ciò che andremo a confrontare, per ogni classe, sarà dunque la frequenza campionaria osservata (ni ) e la frequenza “vera” sotto l’ipotesi nulla (nπi ). A queste due frequenze (osservata e teorica) si applica il test che misura la distanza tra queste due situazioni per ogni classe