









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Formulario per l'esame del corso di Statistica tenuto dalla prof. Silvia Bacci. Facoltà di Scienze e Tecniche Psicologiche (L-24) presso l'Università degli Studi di Firenze.
Tipologia: Schemi e mappe concettuali
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










𝒊𝒋
𝒊𝒋
oppure
Con frequenza condizionata di riga:
𝒋𝒊
𝒊𝒋
𝒊
Con frequenza condizionata di colonna:
𝒊𝒋
𝒊𝒋
𝒋
f ji
𝑖𝑗
= Frequenze assolute congiunte osservate
Frequenza Relativa:
Tabella frequenze condizionate di riga:
Tabella frequenze condizionate di colonna:
Indipendenza e dipendenza tra variabili categoriali : nel confronto tra frequenze relative condizionate si può
capire se c’è una dipendenza o un’indipendenza fra le variabili categoriali.
Situazione di indipendenza perfetta : nella popolazione due variabili categoriali sono statisticamente
indipendenti se tutte le frequenze assolute congiunte attese sono uguali tra loro e uguali alla distribuzione
marginale della variabile X e della variabile Y.
Situazione di dipendenza perfetta : se si conosce X, in modo automatico si conosce anche Y. Due casi:
Y dipende perfettamente da X. Il viceversa non è vero. Quindi noto X si riesce a prevedere Y, ma se
è noto Y non si riesce a prevedere X. Si può se la tabella è quadrata (stesse righe e stesse colonne)
teorico, si può pensare ad una interdipendenza perfetta tra X e Y e tra Y e X. L’interdipendenza
diventa un concetto simmetrico: X dipende in modo perfetto da Y e viceversa. Si può calcolare sia X
che Y. Si può avere solo se la tabella è quadrata (stesse righe e stesse colonne)
Indice Chi Quadrato ( 𝝌
𝟐
Test d’Ipotesi Chi Quadrato (con tabella frequenze assolute congiunte attese) :
2
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
2
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
(sulla Tavola): una volta calcolato 𝜒
2
, con il metodo tradizionale si individua la regione critica
che cade sempre sulla coda di destra.
Se è diverso da 0
c’è associazione
tra i due caratteri
𝟏
𝟐
𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕à 𝒅𝒊 𝒔𝒖𝒄𝒄𝒆𝒔𝒔𝒐
𝒑𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒕à 𝒅𝒊 𝒊𝒏𝒔𝒖𝒄𝒄𝒆𝒔𝒔𝒐
𝟏
𝟏
𝟏
𝟐
𝟐
𝟐
⟹ Si rifiuta 𝐻
0
⟹
Si accetta 𝐻
0
Se 1 − 𝛼 = 0. 𝟗𝟗
Se 1 − 𝛼 = 0. 𝟗𝟓
Se 1 − 𝛼 = 0. 𝟗𝟎
𝛼/ 2
𝛼/ 2
𝛼/ 2
Es interpretazione dell’OR: 𝑂𝑅 =
1 . 04 (𝑝𝑟𝑜𝑏 𝑢𝑠𝑜 𝑚𝑎𝑟𝑖𝑗𝑢𝑎𝑛𝑎)
= 4. 73. La propensione all’uso di M. è oltre 4
volte superiore della propensione all’uso di cocaina.
2
𝑐ritic𝑜
(Tavole): regione rifiuto nelle code cerco 1 −
𝜶
𝟐
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
2
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
e 𝑍
2
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
Il test del chi
2
e il test per il confronto tra proporzioni sono esattamente la stessa cosa, quindi: 𝒁
𝟐
𝟐
ODDS – RATIO (solo nel caso di tavole 2X2)
L’ ODD dice qual è la probabilità di successo rispetto alla probabilità di insuccesso di un gruppo.
Es interpretazione dell’ODD: 𝑂𝐷𝐷 =
969 (𝑝𝑟𝑜𝑏.𝑏𝑒𝑟𝑒 𝑎𝑙𝑐𝑜𝑙𝑖𝑐𝑖)
031 (𝑝𝑟𝑜𝑏 𝑛𝑜𝑛 𝑏𝑒𝑟𝑒 𝑎𝑙𝑐𝑜𝑙𝑖𝑐𝑖)
= 31. 26. Per un fumatore la
probabilità di bere alcolici e 31 volte superiore alla probabilità di non berli.
L’OR è un rapporto tra due ODD e confronta la propensione al successo in un gruppo (propensione
al successo = frequenza con la quale un evento si verifica in un gruppo) con la propensione al successo
in un altro.
accetta l’ipotesi nulla e quindi il test è significativo.
rifiuta l’ipotesi nulla, e quindi il test non è significativo.
Gli ODDS-RATIO stabiliscono la forza della relazione
𝟏
𝟐
Relative Risk (solo nel caso di tavole 2X2)
È il rapporto tra le due probabilità di successo in gruppi diversi:
Il RR stabilisce la struttura dell’associazione.
Date due variabili X e Y:
diminuire di una variabile diminuisce anche l’altra.
diminuire di una variabile l’altra aumenta
Anche in questo caso si usa una tabella di contingenza. Se X e Y sono due variabili qualitative ordinali c’è:
valori di Y e viceversa. Se c’è associazione positiva le coppie di unità sono tra loro concordanti.
di Y. Se c’è associazione negativa le coppie di unità sono tra loro discordanti.
Se le coppie concordanti predominano ci saranno associazioni positive. Se le coppie discordanti
predominano ci saranno associazioni negative. Se invece il numero di coppie concordanti e discordanti sono
presenti in misura più o meno uguale, non si ha associazione.
Calcolo coppie concordanti (rispetto ad un valore esso concorda con quelli che stanno più a dx e più in basso):
𝒙,𝒚
𝒙
𝒚
𝒊
𝒊
∗
𝒊
L’associazione, dipendenza, tra variabili quantitative si misura con la covarianza campionaria o correlazione :
Se 𝝈
𝒚𝒙
Se 𝝈
𝒚𝒙
Se 𝝈 𝒚𝒙
La varianza dice come varia una variabile rispetto a sé stessa ed è un caso particolare della covarianza, cioè
quando 𝑌 = 𝑋. Se X e Y sono statisticamente indipendenti allora la covarianza=0.
La covarianza ci dice se c’è dipendenza lineare o no e se questa è positiva o negativa, ma non dà informazioni
sulla forza della relazione.
Coefficiente di correlazione di Pearson :
Serve per valutare la forza della relazione lineare. È compreso tra - 1 ed 1: −𝟏 ≤ 𝝆
𝒙,𝒚
Valori vicini ad 1 o a − 1 indicano una relazione di dipendenza lineare positiva o negativa forte. Vi è
un’associazione forte positiva quando 𝜌 è vicino a + 0. 7. Vi è un’associazione forte negativa quando 𝜌 assume
valori da − 0. 7 fino a − 1.
Si analizza la relazione tra 2 sole variabili: la Y (variabile risposta o dipendente) in funzione di una e una sola
variabile X (variabile esplicativa o indipendente). Si vuole quindi spiegare Y a partire da X. Si vuole vedere la
variazione subita mediamente da Y quando X aumenta di un’unità
Equazione di previsione del modello di regressione lineare semplice:
Errore 𝜺 𝒊
𝛼 e 𝛽 sono i parametri della retta. In particolare:
che subisce la Y quando X aumenta di un’unità.
𝒚𝒙=
𝒊
𝒊
𝒏
𝒊=𝟏
𝒚𝒙
𝒊
𝒙
𝒊
𝒚
𝑵
𝒊=𝟏
𝒙
𝒚
𝒊
𝒊
𝟐
𝒏
𝒊=𝟏
𝒊
𝒊
𝒊
𝟐
𝒚𝒙
𝟐
𝒙
𝒚𝒙
𝒀𝑿
𝑿
𝒀
𝒀𝑿
𝒀𝑿
𝑿
𝒀
𝒀𝑿
𝒀
𝑿
𝒀𝑿
𝒀
𝑿
𝑆=Deviazione standard. Se con varianza (𝑆
2
𝒚𝒙
𝒀𝑿
𝟐
𝑿
𝟐
𝒀
Si distinguono tre situazioni differenti che riguardano 𝛽:
indipendenza.
𝛼 e 𝛽 vengono stimati attraverso il metodo dei minimi quadrati.
Metodo dei minimi quadrati :
Stima dell’errore residuo : 𝒆
𝒊
𝒊
𝒊
la somma di tutti i residui e 0.
Stima di 𝜷:
Stima si 𝜶:
in funzione di 𝒓 ( nel campione ):
Bontà di adattamento della retta :
Essa corrisponde a:
La bontà di adattamento viene misurata attraverso il coefficiente di determinazione 𝑹
𝟐
Questo rapporto varia tra 0 e 1:
𝟐
= 𝟏 : tutta la variabilità della Y viene spiegata in maniera perfetta dalla relazione lineare con X.
𝟐
= 𝟎 : tutta la variabilità della X è dovuta ad errore. Le variazioni di Y non sono dovute ad X.
Inoltre si dimostra che il coefficiente di correlazione al quadrato (𝜌
2
) è proprio l’𝑅
2
𝟐
𝟐
𝒚𝒙
cioè 𝑹
𝟐
𝟐
𝒀𝑿
poiché 𝑟 è lo stimatore di 𝜌. 𝒓
𝟐
𝒀𝑿
𝟐
𝒊
𝟐
𝒊
𝒊
𝒊
𝒊
𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒕à 𝒕𝒐𝒕𝒂𝒍𝒆 = 𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒕à 𝒅𝒐𝒗𝒖𝒕𝒂 𝒂𝒍𝒍𝒂 𝒓𝒆𝒍𝒂𝒛𝒊𝒐𝒏𝒆 𝒍𝒊𝒏𝒆𝒂𝒓𝒆 𝒄𝒐𝒏 𝑿 + 𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒕à 𝒅𝒐𝒗𝒖𝒕𝒂 𝒂𝒅 𝒆𝒓𝒓𝒐𝒓𝒆
Che è la somma dei
residui al quadrato
𝟐
𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒕à 𝒔𝒑𝒊𝒆𝒈𝒂𝒕𝒂 𝒅𝒂𝒍𝒍𝒂 𝑿
𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒕à 𝒕𝒐𝒕𝒂𝒍𝒆
𝒊
𝟐
𝒊
𝒊
𝟐
𝒊
𝒊
𝟐
𝒊
𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡à 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 𝑑𝑎𝑙𝑙𝑎 𝑋
𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡à 𝑡𝑜𝑡𝑎𝑙𝑒
⟹ Si rifiuta 𝐻
0
⟹
Si accetta 𝐻
0
𝑐ritic𝑜
(Tavola): vedi calcolo di t negli intervalli di confidenza
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
e 𝑇
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
Il test su 𝛽 è equivalente al test sul coefficiente di correlazione 𝑟. Di fatti come misura di sintesi, per capire
se c’è o meno correlazione, si calcola il coefficiente 𝑟. Sul coefficiente di correlazione ci si può fare un test
per verificare se sia, anche al livello di popolazione, diverso da 0 oppure no.
Caso di una variabile X binaria/dicotomica (Vale il modello di regressione):
Variabile binaria vuol dire che X può assumere 2 valori:
𝑖
𝑖
Invece di una variabile esplicativa x se ne hanno 𝑘. Tutte le k variabili contribuiscono a spiegare la Y.
Nelle relazioni multivariate si suppone di osservare tre variabili; X, Y, Z :
Classificazione delle relazioni multivariate :
Se si ha un incremento di 1 nella variabile
esplicativa X, allora si ha una variazione di 𝛽
̂
.
Si può avere un unico incremento, da 0 a 1.
𝑖
1
𝑖
2
𝑖
𝑖
Variabili sopprimenti
Differenza tra regressione multipla e multivariata:
dipendente Y ed un insieme di variabili esplicative X.
Retta del modello di regressione lineare multipla :
Nel caso della regressione multipla si hanno un’ 𝛼, un 𝛽 1
ed un 𝛽
2
1
e 𝛽
2
regolano l’inclinazione del piano rispetto a 𝑋
1
e 𝑋
2
I vari coefficienti angolari 𝛽 1
2
𝑘
esprimono la variazione attesa media di Y per un incremento unitario
(di un’unità) della corrispondente variabile esplicativa (𝑋
1
2
𝑘
), ferme rimanendo le altre variabili
esplicative.
Coefficienti di regressione parziale : 𝛽 1
2
𝑘
Classificazione delle relazioni multivariate a livello del modello di regressione lineare multipla :
Variabili sopprimenti
Nessuna delle variabili inserita nel modello contribuisce a spiegare Y.
Almeno una delle variabili inserita nel modello contribuisce in modo
significativo a spiegare Y.
lineare semplice.
Coefficiente di correlazione multipla : 𝒓
𝟐
𝒀
̂
,𝒀
𝟐
Si correla la Y con la Y prevista sulla base del modello di regressione lineare stimato:
La correlazione tra valori previsti e valori osservati è in generale un valore che varia tra 0 e 1:
𝟐
= 𝟏 se si ha una correlazione perfetta tra valori osservati e valori previsti. Vi è quindi un perfetto
adattamento del modello di regressione ai dati osservati. Questo significa che tutti gli errori sono 0 ,
ovvero tra la Y e le 𝑋
𝑖
esiste un legame di dipendenza lineare perfetta.
𝟐
= 𝟎 se si ha una correlazione pari a 0 tra valori osservati e valori previsti, ovvero le variazioni della
Y non sono dovute all’effetto delle variabili indipendenti
Nella regressione semplice, √𝑅
2
da la correlazione tra la Y e la X, ma non si sa il segno, perché il coefficiente
di correlazione tra due variabili Y e X varia tra - 1 ed 1. Nella regressione multipla, √𝑅
2
da la correlazione tra
la Y osservata e la Y prevista. Essendo questa sempre positiva, allora la radice dell’𝑅
2
è un valore positivo.
Finora, nel modello di regressione multipla, abbiamo visto i test d’ipotesi per i singoli coefficienti di
regressione (𝛽 1
2
3
𝑘
). Con il test F ci si chiede se complessivamente il modello è statisticamente
significativo. Quindi ci si chiede se nel loro complesso, le 𝑘 variabili danno un contributo a spiegare la Y. Se
la risposta è no, vuol dire che non è possibile utilizzare il modello di regressione multipla.
Quindi quello che si vuole fare è un test sull’𝑅
2
, poiché se questo è piccolo del modello di regressione non
se ne fa di niente. Cioè l’𝑅
2
può assumere valori tra 0 e 1, quanto più questo è vicino ad 1 e meglio è, più è
vicino a 0 e peggio è, e di conseguenza se l’𝑅
2
, è piccolo (es di 0.30).
La statistica che si costruisce è basata sull’idea di confrontare:
Questa formula si può scrivere in modo equivalente come segue:
𝟏
= 𝒌 (numero di variabili esplicative del modello)
𝟐
Ad un F grande
corrisponde ad un 𝑅
2
grande.
𝑐ritic𝑜
(Tavola):
𝟏
si trovano sulla colonna (quella di sinistra)
𝟐
si trovano sulla riga (quella in alto)
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
e 𝐹
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
0
𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑜
𝑐𝑟𝑖𝑡𝑖𝑐𝑜
0
Si confrontano due modelli dove il numero di variabili esplicative è diverso. Si confronta:
che sono un sottoinsieme del modello completo. Quindi il modello ridotto è un caso particolare di
quello completo.
N.B. il modello ridotto non si adatterà mai meglio di quello completo, ma al massimo si adatta nello
stesso modo.
Quindi:
In modo equivalente si può utilizzare la formula che riguarda la somma degli errori (SSE):
𝟐
𝟏
i 2 modelli sono equivalenti, hanno quindi la stessa bontà di adattamento
il modello completo si adatta significativamente meglio del modello ridotto
2
𝐶𝑂𝑀𝑃𝐿𝐸𝑇𝑂
2
𝑅𝐼𝐷𝑂𝑇𝑇𝑂
1
2
𝐶𝑂𝑀𝑃𝐿𝐸𝑇𝑂
2
1
2
𝑅𝐼𝐷𝑂𝑇𝑇𝑂
𝐶𝑂𝑀𝑃𝐿𝐸𝑇𝑂
1
𝐶𝑂𝑀𝑃𝐿𝐸𝑇𝑂
2
1
2
Numero di variabili esplicative del modello completo
Numero di parametri vincolati sotto 𝐻
0
4
5
6