

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Formulario completo di spiegazioni e dimostrazioni di tutte le formule del programma 2023/2024 corso di Statistica (I° corso) A-L. Le formule sono state prese dal libro+slide
Tipologia: Schemi e mappe concettuali
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























Osservazioni e distribuzioni di frequenza
Supporto 𝑆 𝑋
= {𝑥 ∈ 𝐿| ∃𝑢 ∈ 𝑈 𝑐𝑜𝑛 𝑋(𝑢) = 𝑥} Cardinalità del supporto 𝐾 = #𝑆
𝑋
Frequenza assoluta 𝑛 𝑋
o 𝑛
𝑖
𝑋
le sue proprietà :
a) 𝑛
𝑋
𝑋
(positività nel supporto)
b) 𝑛
𝑋
(𝑥) ≤ 𝑁 (la frequenza assoluta è minore della ampiezza N)
c)
𝑋
𝑥∈𝑆 𝑋
= 𝑁 (condizione di normalizzazione)
Frequenza relativa le sue proprietà :
a) 𝑝
𝑋
𝑋
(non negatività del supporto)
b) 𝑝
𝑋
(𝑥) ≤ 1 (la frequenza relativa non può essere maggiore di 1)
c) ∑ 𝑝
𝑋
𝑥∈𝑆
𝑋
= 1 (condizione di normalizzazione)
Frequenza percentuale 𝑝 𝑋
∗ 100 con
𝑋
𝑥∈𝑆 𝑋
= 100 e 0 ≤ 𝑝
𝑋
Frequenza assoluta cumulata 𝑁 𝑖
1
2
3
𝑖
dove ∑ 𝑛
𝑖
𝑘
𝑖= 1
Frequenza relativa cumulata
Variabile statistica raggruppata in classi
Ampiezza della classe i-esima 𝑎 𝑖
𝑖+ 1
𝑖
𝑖
𝑥 𝑖+ 1
−𝑥 𝑖
2
Densità di frequenza assoluta 𝑓 𝑖
𝑖
𝑖
Densità di frequenza relativa 𝑓
𝑖
𝑖
𝑖
Inoltre 𝑓
𝑖
𝑖
𝑖
Frequenza distribuzione uniforme dove 𝛿 è l’ampiezza del sotto-intervallo
Operatore frequenza relativa P( • ) : se ho una variabile discreta uso la funzione di frequenza relativa 𝑝 𝑋
altrimenti se ho una variabile continua (anche teorica) o una variabile raggruppata in classi, uso la funzione di
densità di frequenza relativa 𝒇 𝑿
𝑋
𝑏
𝑎
Funzione di densità di frequenza relativa e le sue proprietà:
a) 𝑓
𝑋
(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝑅 in particolare, 𝑓
𝑋
𝑋
b) ∫ 𝑓
𝑋
+∞
−∞
= 1 condizione di normalizzazione
c) ∫ 𝑓
𝑋
+∞
−∞
1
2
3
𝑋
𝑋
𝑖
𝑋
𝑖
𝑖
𝑋
𝑖
𝑖
𝑋
𝑋
𝑋
𝑋
𝑋
1
1
1
2
1
2
2
3
1
2
𝑖
𝑖
𝑖+ 1
1
2
𝐾− 1
𝐾− 1
𝐾
𝐾
1
𝑖
𝑖
𝑖+ 1
𝐾
Variabili statistiche continue teoriche
𝑋
Condizioni : Una funzione reale 𝑓 𝑋
di variabile reale è una densità di frequenza relativa se:
a) Esiste per ogni numero reale
b) È non negativa per ogni valore di 𝑥 ovvero 𝑓
𝑋
c) Il suo integrale deve essere uguale a 1 cioè ∫ 𝑓
𝑋
+∞
−∞
Funzione di ripartizione
𝑋
(𝑥) = 𝑃(𝑋 ≤ 𝑥), 𝑥 ∈ 𝑅 dove P = operatore di frequenza relativa 0 ≤ 𝐹
𝑋
Proprietà:
a) È monotona non decrescente 𝐹(𝑥) ≤ 𝐹(𝑥 + ℎ) ∀ 𝑥 ∈ 𝑅 𝑒 ∀ ℎ > 0 cioè non può decrescere
b) La funzione di ripartizione è continua a destra lim
𝑥→𝑥
𝑖
𝑖
c) Comportamento a −∞: lim
𝑥→−∞
d) Comportamento a +∞: lim
𝑥→+∞
Variabile statistica quantitativa discreta
Data {(𝑥 𝑖
𝑖
𝑋
la funzione di ripartizione sarà:
Osservazione: 𝐹(𝑥 𝑖
) è la frequenza cumulata dunque 𝐹(𝑥
𝑖
𝑖− 1
𝑖
In 𝑥 0
0
Le proprietà non cambiano ma se ne aggiunge una: 𝑝(𝑥 𝑖
𝑖
𝑖− 1
Variabile statistica quantitativa raggruppata in classi
𝑋
𝑥
𝑥
−∞
Le proprietà non cambiano ma se ne aggiungono due:
a) 𝐹(𝑥) è continua in 𝑅
b) 𝐹
è derivabile negli intervalli 𝑥 ∈
𝑖
𝑖+ 1
𝑋
𝑑𝐹
( 𝑥
)
𝑑𝑥
𝑖
densità di frequenza relativa
Nell’istogramma la larghezza equivale all’ampiezza, l’altezza equivale alla densità di frequenza, l’area equivale alla
frequenza perché è l’ampiezza per la densità
Nel caso di una variabile statistica continua teorica la media aritmetica si calcola attraverso l’integrale:
𝑋
𝑋
+∞
−∞
Proprietà 1 : è quel valore che sostituito a ciascuna osservazione lascia invariata la somma.
𝑋
𝑖
𝑖
𝐾
𝑖= 1
𝑖
𝑖
𝐾
𝑖= 1
Proprietà 2 di internalità o di Cauchy: data la variabilità statistica 𝑋 con supporto 𝑆 𝑋
risulta:
𝑋
𝑋
Dati grezzi Distribuzione di frequenza
Variabili continue
questa dimostrazione vale anche per
le variabili raggruppate in classi
Proprietà 3 del baricentro: Definiamo scarto la variabile statistica 𝑇 = 𝑋 − 𝐸(𝑋). La proprietà del baricentro dice
che la media della variabile statistica 𝑇 (scarto) è uguale a zero: 𝐸(𝑇) = 𝐸[𝑋 − 𝐸
DIM: dati grezzi. Avremo 𝑡 𝑖
𝑖
𝑖
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
𝑁
𝑖= 1
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
DIM: variabili continue.
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑋
+∞
−∞
𝑖
𝑖
𝑁 𝐺
𝑖= 1
𝑖
𝑁 𝐺
𝑖= 1
Proprietà 4: media di una trasformazione di dati. Sia 𝑇 una trasformazione dei dati (anche lo scarto lo è): 𝑇 =
𝑔(𝑋) dove 𝑔 è la funzione che trasforma i dati della variabile statistica 𝑋 nei dati della variabile statistica 𝑇. Vale
la proprietà:
Casi particolari:
→ Se 𝑇 = 𝑔(𝑋) = 𝑐 è una costante allora: 𝑬
= 𝒄, la media di una costante è la costante. DIM:
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
𝑁
𝑖= 1
→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋, dove 𝑚 è una costante allora: 𝑬(𝑻) = 𝑬(𝒎𝑿) = 𝒎𝑬(𝑿). DIM:
𝑖
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
𝑖
𝑁
𝑖= 1
= media di 𝑿
𝑋
+∞
−∞
𝑋
+∞
−∞
→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋 + 𝑞, dove 𝑚,𝑞 costanti, allora 𝑬(𝑻) = 𝑬(𝒎𝑿 + 𝒒) = 𝒎𝑬(𝑿) + 𝒒. DIM:
𝑖
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
𝑖
𝑁
𝑖= 1
𝑁
𝑖= 1
Disuguaglianza di Jensen
Se “𝑔” è una funzione convessa allora:
Se “𝑔” è una funzione concava allora:
Abbiamo visto che se 𝑔 è lineare, cioé 𝑔(𝑥) = 𝑚𝑥 + 𝑞, allora la diseguaglianza diventa una eguaglianza:
Proprietà 5 associativa della media. La media del gruppo è uguale alla media aritmetica delle medie aritmetiche
dei singoli gruppi:
𝐺
= numero gruppi;
Proprietà 6 dei minimi quadrati. La media è il valore che minimizza la funzione che misura la media degli scarti
quadratici di 𝑋 da una costante 𝑐.
2
2
], 𝑐 ∈ 𝑅 cioè la media è la soluzione a min 𝑔(𝑐) = 𝐸[(𝑋 − 𝑐)
2
𝑋
(𝑠)
𝑠
1 /𝑠
𝑖
𝑠
𝑖
𝐾
𝑖= 1
1 /𝑠
𝑋
(𝑠)
𝑠
1 /𝑠
𝑖
𝑠
𝑁
𝑖= 1
1 /𝑠
media quadratica → 𝒔 = 𝟐
𝑋
( 2 )
𝑖
2
𝑖
𝐾
𝑖= 1
1 / 2
𝑖
2
𝑖
𝐾
𝑖= 1
𝑋
( 2 )
𝑖
2
𝑁
𝑖= 1
1 / 2
𝑖
2
𝑁
𝑖= 1
media armonica → 𝒔 = −𝟏
𝑋
(− 1 )
𝑖
− 1
𝑖
𝐾
𝑖= 1
− 1
𝑖
𝑖
𝐾
𝑖= 1
1
1
2
2
𝐾
𝐾
𝑋
(− 1 )
𝑖
− 1
𝑁
𝑖= 1
− 1
𝑖
𝑁
𝑖= 1
1
2
𝑁
media geometrica → 𝒔 = 𝟎
𝑋
( 0 )
1
𝑝
1
2
𝑝
2
3
𝑝
3
𝐾
𝑝
𝐾
𝑖
𝑝
𝑖
𝐾
𝑖= 1
𝑋
( 0
)
1
2
3
𝑁
𝑁
𝑖
𝑁
𝑖= 1
1
𝑁
𝑋
( 0
)
𝑖
ln(𝑥
𝑖
𝐾
𝑖= 1
media ponderata
𝑋
1
1
2
2
3
3
1
2
3
𝑖
𝑖
𝐾
𝑖= 1
Proprietà :
𝑚𝑖𝑛
𝑋
𝑋
(𝑠)
𝑋
𝑚𝑎𝑥
Se 𝑠 < 𝑡 → 𝜇
𝑋
( 𝑠
)
𝑋
( 𝑡
)
lim
𝑠→−∞
𝑋
(𝑠)
𝑚𝑖𝑛
lim
𝑠→+∞
𝑋
(𝑠)
𝑚𝑎𝑥
Media di Chisini
Dato un insieme di osservazioni numeriche 𝑥 1
2
3
𝑁
e una funzione 𝑔 degli elementi precedenti, definiamo
media degli 𝑁 elementi 𝑥 1
2
3
𝑁
quell’unico numero 𝑀, se esiste, tale che:
1
2
3
𝑁
Medie potenziate-Legame con operatore 𝑬(∙)
In sintesi, le medie potenziate di ordine 𝑠 sono ottenute come la potenza 1 /𝑠 della media aritmetica della
trasformazione 𝑇 = 𝑋
𝑠
Momenti di una distribuzione
Si definisce momento di ordine “𝑚” la media della potenza 𝑚-esima (𝑚 ∈ 𝑁) della variabile statistica 𝑋:
𝑚
𝑚
Per 𝑚 = 1 abbiamo la media aritmetica cioè 𝜇 = 𝜇 1
= 𝐸[𝑋] mentre per 𝑚 = 2 𝜇 = 𝜇
2
2
Se 𝑋 è una variabile statistica che assume valori positivi allora:
𝑚
𝑋
(𝑚)
𝑚
𝑋
(𝑚)
𝑚
𝑚
𝑚
1 /𝑚
o Variabile statistica discreta assegnata attraverso
dati grezzi:
𝑚
𝑚
𝑖
𝑚
𝑁
𝑖= 1
o Variabile statistica discreta assegnata attraverso
distribuzione di frequenza:
𝑚
𝑚
𝑖
𝑚
𝑖
𝐾
𝑖= 1
o Variabile statistica continua raggruppata in
classi:
𝑚
𝑚
𝑚
𝑋
+∞
−∞
o Variabile statistica continua teorica (possono
anche non esistere):
𝑚
𝑚
𝑚
𝑋
+∞
−∞
Indici di variabilità
Range o campo di variazione : 𝑅 = 𝑠𝑢𝑝𝑆 𝑋
𝑋
Differenza interquartile: 𝐼𝑄 = 𝑄 3
1
con 𝑄
1
primo quartile: 𝑥
0 , 25
3
terzo quartile: 𝑥
0 , 75
Variabilità da un centro: scostamento medio da un polo (centro): 𝑆
𝑐
𝑋 discreta-Dati grezzi:
𝑖
𝑁
𝑖= 1
𝑋 discreta-Distribuzione di frequenza:
𝑖
𝐾
𝑖= 1
𝑖
𝑋 continua raggruppata in classi
𝑋
+∞
−∞
𝑋 continua teorica:
𝑋
+∞
−∞
Variabilità dalla media: scostamento semplice medio: 𝑆 𝜇
𝑋
𝑋
𝑋 discreta-Dati grezzi:
𝑋
𝑖
𝑋
𝑁
𝑖= 1
𝑋 discreta-Distribuzione di frequenza:
𝑋
𝑖
𝑋
𝐾
𝑖= 1
𝑖
𝑋 continua raggruppata in classi
𝑋
𝑋
𝑋
+∞
−∞
𝑋 continua teorica:
𝑋
𝑋
𝑋
+∞
−∞
Proprietà 4 omogeneità di grado due:
2
DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 ha media 𝐸(𝑇) = 𝐸(𝑚𝑋) = 𝑚𝐸(𝑋) = 𝑚𝜇 dunque
2
2
2
2
2
2
2
Proprietà 5 invarianza e omogeneità di grado 2:
2
DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 + 𝑞 ha media 𝐸(𝑚𝑇 + 𝑞) = 𝑚𝐸(𝑋) + 𝑞 = 𝑚𝜇 + 𝑞.
Proprietà 6 varianza di una variabile degenere (costante):
DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑆 𝑋
= {𝑐}, Per le proprietà dell’operatore media 𝐸(𝑐) = 𝑐, quindi
la variabile statistica 𝑇 = (𝑋 − 𝜇)
2
2
= 0 è degenere e vale sempre zero: 𝑉(𝑋) = 𝐸(𝑇) = 0
Diseguaglianza di Chebyshev
Sia data la variabile 𝑋 con media e varianza 𝜎
2
. Risulta:
2
2
entrambi gli addendi sono positivi
2
2
2
2
2
2
Proprietà:
DIM: 𝑃(|𝑋 − 𝜇| < 𝑐) + 𝑃(|𝑋 − 𝜇| ≥ 𝑐) = 1 da cui 𝑃(|𝑋 − 𝜇| < 𝑐) = 1 − 𝑃(|𝑋 − 𝜇| ≥ 𝑐), poiché:
allora
Altro modo di rappresentarla:
2
2
2
2
2
2
2
2
2
𝑖
2
𝐾
𝑖= 1
𝑖
𝑖
2
𝑖
|𝑥
𝑖
−𝜇|≥𝑐
𝑖
2
𝑖
|𝑥
𝑖
−𝜇|<𝑐
2
𝑖
2
𝑖
|𝑥
𝑖
−𝜇|≥𝑐
2
𝑖
|𝑥
𝑖
−𝜇|≥𝑐
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Ricordando che 𝑉(𝑋) = 𝜎
2
𝑋
2
) e siano 𝑐 > 0 e 𝛽 ∈ 𝑅 allora:
2
2
Variabili Statistiche Bivariate
La cardinalità del supporto di 𝑋 lo indichiamo con 𝑟 (righe), e con 𝑐 (colonne) la cardinalità del supporto di 𝑌
Frequenza assoluta congiunta: 𝑛 𝑋,𝑌
𝑖
𝑗
𝑖,𝑗
→ La somma di tutte le frequenze assolute congiunte è
uguale all’ampiezza della popolazione 𝑁.
Osserviamo che: 0 < 𝑛 𝑋,𝑌
𝑖
𝑗
Le coppie (𝑥 𝑖
𝑖 0
), 𝑖 = 1 , 2 , … , 𝑟 frequenze marginali di 𝑋
Le coppie (𝑦 𝑗
0 𝑗
), 𝑗 = 1 , 2 , … , 𝑐 frequenze marginali di 𝑌
Definiamo frequenze assolute marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:
𝑋 0
𝑖
𝑖 0
𝑖,𝑗
𝑐
𝑗= 1
0Y
𝑗
0 𝑗
𝑖,𝑗
𝑟
𝑖= 1
Entrambi soddisfano la condizione di normalizzazione:
Frequenza relativa congiunta: 𝑝 𝑋,𝑌
𝑖
𝑗
𝑖,𝑗
cioè
𝑋,𝑌
𝑖
𝑗
𝑋,𝑌
𝑖
𝑗
𝑖,𝑗
𝑋,𝑌
𝑖
𝑗
Definiamo le frequenze relative marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:
𝑋 0
𝑖
𝑖 0
𝑖,𝑗
𝑐
𝑗= 1
0Y
𝑗
0 𝑗
𝑖,𝑗
𝑟
𝑖= 1
Entrambi le frequenze marginali soddisfano la condizione di normalizzazione.
Condizione di normalizzazione:
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑟
𝑖= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
Analisi della dipendenza della variabile statistica bivariata (𝑋, 𝑌):
o Dipendenza di 𝑌 da 𝑋. La frequenza condizionata di 𝑌 da 𝑋 e si indica 𝑝 𝑌|𝑋
definita da:
𝑌|𝑋=𝑥
𝑖
𝑗
𝑗|𝑖
𝑖,𝑗
𝑖 0
𝑖,𝑗
𝑖 0
𝑖,𝑗
𝑖 0
o Dipendenza di 𝑋 da 𝑌.
𝑋|𝑌=𝑦 𝑗
𝑖
𝑖|𝑗
𝑖,𝑗
0j
𝑖,𝑗
0j
𝑖,𝑗
0j
0 𝑗
𝑐
𝑗= 1
𝑖 0
𝑟
𝑖= 1
0 𝑗
𝑐
𝑗= 1
𝑖 0
𝑟
𝑖= 1
L’indice 𝜒
2
è uguale a zero se le variabili 𝑋 e 𝑌 sono assolutamente indipendenti. In questo caso:
𝑖,𝑗
𝑖 0
0j
Il massimo valore di 𝜒
2
è 𝑁 𝑚𝑖𝑛 {𝑟 − 1 , 𝑐 − 1 } quindi 𝜒
2
soddisfa 0 ≤ 𝜒
2
≤ 𝑁 min{𝑟 − 1 , 𝑐 − 1 }
Raggiunge il suo massimo valore in caso di dipendenza perfetta , ovvero quando per un valore fissato di una
variabile esiste un solo valore dell’altra variabile. A differenza dell’indipendenza non vale la reciprocità quindi
𝑌 dipende perfettamente da 𝑋 se ad ogni modalità di 𝑋 corrisponde una sola modalità di 𝑌 e viceversa, ma non
possono contemporaneamente dipendere perfettamente l’una dall’altra, al contrario, nel caso dell’indipendenza
se 𝑋 è indipendente da 𝑌 allora anche 𝑌 è indipendente da 𝑋
Poiché l’indice 𝜒
2
si può calcolare solo conoscendo l’ampiezza del campione si introduce un nuovo indice che è
detto phi-quadro:
2
2
2
≤ min{𝑟 − 1 , 𝑐 − 1 }
Indice 𝑽 di Cramer:
2
2
min{𝑟 − 1 , 𝑐 − 1 }
2
𝑁 min{𝑟 − 1 , 𝑐 − 1 }
2
𝑁 min{𝑟 − 1 , 𝑐 − 1 }
Media, varianza e covarianza di una variabile doppia
Per calcolare la media di 𝑋 usiamo tutte le frequenze congiunte. Questo equivale a calcolare la media marginale
di 𝑋.
𝑋
𝑖
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖
𝑟
𝑖= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑖
𝑟
𝑖= 1
𝑖 0
𝑌
𝑗
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑖
𝑐
𝑗= 1
𝑖,𝑗
𝑟
𝑖= 1
𝑖
𝑐
𝑗= 1
0 𝑗
𝑖 0
0 𝑗
Varianza :
𝑋
2
𝑖
𝑋
2
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖
𝑋
2
𝑟
𝑖= 1
𝑖,𝑗
𝑐
𝑗= 1
𝑖
𝑋
2
𝑟
𝑖= 1
𝑖 0
𝑌
2
𝑗
𝑌
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑗
𝑌
2
𝑐
𝑗= 1
𝑖,𝑗
𝑟
𝑖= 1
𝑗
𝑌
2
𝑐
𝑗= 1
0 𝑗
Covarianza : La covarianza misura il comovimento delle variabili nel piano 𝑋 𝑌.
𝑋𝑌
𝑋
𝑌
𝑖
𝑋
𝑗
𝑌
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
Proprietà 1 :
𝑋𝑌
𝑋
𝑌
𝑋𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
Proprietà 2:
Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora la covarianza è
uguale a zero: 𝜎 𝑋𝑌
𝑋
𝑌
DIM: assoluta indipendenza → 𝑝 𝑖,𝑗
𝑖 0
0j
𝑋𝑌
𝑖
𝑋
𝑗
𝑌
𝑖,𝑗
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖
𝑋
𝑗
𝑌
𝑖 0
0j
𝑐
𝑗= 1
𝑟
𝑖= 1
𝑖
𝑋
𝑟
𝑖= 1
𝑖 0
𝑗
𝑌
0j
𝑐
𝑗= 1
Proprietà 3:
Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora: 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌)
DIM : abbiamo che 𝜎 𝑋𝑌
𝑋
𝑌
𝐸(𝑌). Essendo indipendenti 𝜎
𝑋𝑌
= 0 , quindi:
Proprietà 4:
DIM : ricordiamo che 𝐸(𝑎𝑋) = 𝑎𝐸(𝑋) = 𝑎𝜇 𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
𝑋
𝑌
Proprietà 5:
DIM : ricordiamo che 𝐸
𝑋
𝑋
𝑌
𝑋
𝑌
Proprietà 6: Sia (𝑋, 𝑌) una variabile doppia allora se 𝑇 = 𝑎𝑋 + 𝑏𝑌 risulta:
2
2
DIM : ricordiamo che 𝑉
𝑇
2
𝑋
𝑌
𝑋
𝑌
2
𝑋
𝑌
2
𝑋
𝑌
2
2
𝑋
2
2
𝑌
2
𝑋
𝑌
2
𝑋
2
2
𝑌
2
𝑋
𝑌
2
2
Se 𝑇 = 𝑎𝑋 − 𝑏𝑌 risulta: 𝑉(𝑇) = 𝑉(𝑎𝑋 + 𝑏𝑌) = 𝑎
2
2
Proprietà 7:
La covarianza soddisfa 𝜎 𝑋𝑌
2
𝑋
2
𝑌
2
DIM : Consideriamo la trasformata delle variabili 𝑋 e 𝑌 definita da: 𝑇 = 𝜎 𝑌
2
𝑋𝑌
𝑌 e calcoliamo la varianza di 𝑇
usando le regole dell’operatore varianza:
𝑌
2
𝑋𝑌
𝑌
4
𝑋𝑌
2
𝑋𝑌
𝑌
2
𝐶𝑜𝑣(𝑋, 𝑌) ricordiamo che: 𝑉
𝑋
2
𝑌
2
𝑌
4
𝑋
2
𝑋𝑌
2
𝑌
2
𝑋𝑌
2
𝑌
2
𝑌
4
𝑋
2
𝑋𝑌
2
𝑌
2
𝑌
2
𝑌
2
𝑋
2
𝑋𝑌
2
) poiché 𝜎
𝑌
2
è positiva se Y non è degenere
(ovvero costante) allora vale la relazione 0 ≤ (𝜎
𝑌
2
𝑋
2
𝑋𝑌
2
𝑋𝑌
2
𝑋
2
𝑌
2
Decomposizione varianza:
𝑌
2
𝑗
𝑌
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑗
𝑌
𝑖
𝑌
𝑖
𝑌
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑗
𝑌
𝑖
2
𝑌
𝑖
𝑌
2
𝑌
𝑖
𝑌
𝑗
𝑌
𝑖
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑗
𝑌
𝑖
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑌
𝑖
𝑌
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑌
𝑖
𝑌
𝑗
𝑌
𝑖
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
questo perché:
𝑗
𝑌
𝑖
𝑖,𝑗
𝑐
𝑗= 1
𝑌
𝑖
𝑌
2
𝑖,𝑗
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑌
𝑖
𝑌
2
𝑖 0
𝑟
𝑖= 1
𝑌
𝑌
2
𝑗
𝑌
𝑖
2 𝑝
𝑖,𝑗
𝑖 0
𝑖 0
𝑟
𝑖= 1
𝑐
𝑗= 1
𝑌
𝑗
𝑌
𝑖
2
𝑗|𝑖
𝑖 0
𝑟
𝑖= 1
𝑌
𝑐
𝑗= 1
𝑖 0
𝑟
𝑖= 1
𝑌
2
𝑌
𝑌
2
𝑌
𝑌
2
Funzione di regressione lineare : 𝑔(𝑥) = 𝑚𝑥 + 𝑞
Ricordiamo che vale la seguente uguaglianza: 𝐸 ((𝑌 − 𝑔(𝑋))
2
𝑌
2
𝑌
2
Quindi otteniamo: 𝐸 ((𝑌 −
2
𝑌
2
𝑌
2
La funzione di regressione lineare (o interpolante lineare) si ottiene risolvendo il problema dei minimi quadrati :
min⏟
𝑚,𝑞
𝑌
2
Dunque, cerchiamo il minimo della seguente funzione di due variabili 𝑚, 𝑞 definita da:
𝑌
2
𝑌
𝑖
2
𝑖 0
𝑟
𝑖= 1
Dobbiamo derivare rispetto a 𝑚 e 𝑞 e porre le derivate uguali a 0 a sistema.
𝑌
2
𝑖 0
𝑟
𝑖= 1
𝑌
2
𝑖
2
𝑌
𝑖
2
𝑖 0
𝑟
𝑖= 1
Derivo rispetto a 𝑚 e 𝑞:
𝑖
2
𝑖
𝑖
𝑌
𝑖
𝑖 0
𝑟
𝑖= 1
𝑖
2
𝑖 0
𝑟
𝑖= 1
𝑖
𝑖 0
𝑟
𝑖= 1
𝑖
𝑌
𝑖
𝑖 0
𝑟
𝑖= 1
2
𝑋
2
𝑋
2
𝑋
𝑋𝑌
𝑋
𝑌
𝑖
𝑌
𝑖
𝑖 0
𝑟
𝑖= 1
𝑖 0
𝑟
𝑖= 1
𝑖
𝑖 0
𝑟
𝑖= 1
𝑌
𝑖
𝑖 0
𝑟
𝑖= 1
𝑋
𝑌
2
𝑖
2
2
𝑖
Le metto a sistema entrambe uguali a 0: {
𝑋
2
𝑋
2
𝑋
𝑋𝑌
𝑋
𝑌
𝑋
𝑌
risolvendo ottengo
𝑋𝑌
𝑋
2
𝑌
𝑋
𝑋
𝑌
𝑋
𝑌
2
𝑋𝑌
𝑋
2
2
𝑋
2
𝑋𝑌
2
𝑋
2
L’indice di bontà di adattamento della retta alla nuvola di punti osservati è l’indice di determinazione :
2
𝑋𝑌
2
𝑋
2
𝑌
2
𝑋𝑌
2
Indice di dipendenza funzionale :
𝑌|𝑋
2
𝑌
𝑌|𝑋
2
𝑌
𝑌
2
Con 𝜂 𝑌|𝑋
2
= 0 e 𝜌
𝑋𝑌
2
= 0 allora Y è regressivamente indipendente da X 𝑉(𝜇
𝑌
𝑌
Con 𝜂 𝑌|𝑋
2
= 1 allora 𝑉(𝜇
𝑌
Attenzione: se X e Y sono assolutamente indipendenti allora sono anche regressivamente indipendenti (cioè
indipendenti in media), ma non è detto che valga il contrario, posso avere Y indipendente in media da X e X e Y
non assolutamente indipendenti
𝑋𝑌
2
𝑌|𝑋
2
𝑌|𝑋
2
𝑋𝑌
2
𝑌|𝑋
2
𝑋𝑌
2
Probabilità
o Intersezione di Eventi: 𝐴 ∩ 𝐵 è l’insieme di tutti gli eventi elementari in 𝑆 che appartengono sia ad 𝐴 che a 𝐵
o Unione di Eventi: 𝐴 ∪ 𝐵 è l’insieme di tutti gli eventi elementari di 𝛺 che appartengono ad 𝐴 oppure a 𝐵
o Gli eventi 𝐸 1
2
3
𝐾
sono collettivamente esaustivi se 𝐸
1
2
3
𝐾
o Evento complementare (𝐴
) di un evento 𝐴 è l’insieme di tutti gli eventi elementari nello spazio campionario
che non appartengono ad 𝐴.
o Eventi incompatibili: se l’intersezione, 𝐴 ∩ 𝐵, è l’evento impossibile. Cioè 𝐴 ∩ 𝐵 = ∅
o Gli eventi 𝐴 1
2
3
𝐾
sono una partizione di 𝛺 se sono: Collettivamente Esaustivi e Incompatibili
(mutuamente esclusivi), 𝐴
1
2
3
𝐾
𝑖
𝑗
= ∅ e 𝐴
𝑖
Valutazione probabilità:
𝐴
numero di eventi elementari che soddisfano la condizione dell′evento
numero complessivo di eventi elementari dello spazio campionario
𝐴
numero di eventi nella popolazione che soddisfano l
′
evento A
numero complessivo di eventi nella popolazione
Osserviamo anche che 𝐴 ∪ 𝐵 = 𝐴 ∪
∩ 𝐵) sono incompatibili.
Scomposizione in due insiemi disgiunti per applicare l’assioma (c), che adesso applico:
Sottraggo alla seconda riga la prima
Probabilità condizionata
La probabilità condizionata è la probabilità di
un evento, dato che l’altro evento si è verificato:
Avremo che 𝑃(𝐴 ∩ 𝐵) corrisponde alla
frequenza relativa congiunta mentre 𝑃 (𝐴) e
𝑃(𝐵) corrispondono alle frequenze marginali
dell’evento condizionante.
Teorema delle probabilità composte:
Regola moltiplicativa per due eventi 𝐴 e 𝐵: se 𝑃
se 𝑃(𝐴) > 0 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)
Ricavando 𝑃 (𝐴 ∩ 𝐵) dalle equazioni sopra otteniamo immediatamente la tesi. Infatti:
Indipendenza statistica: Due eventi sono statisticamente indipendenti (o indipendenti) se e solo se:
Teorema: Se A e B sono indipendenti, allora se 𝑃(𝐵) > 0 𝑃(𝐴|𝐵) = 𝑃(𝐴) se 𝑃(𝐴) > 0 𝑃(𝐵| 𝐴) = 𝑃(𝐵)
Indipendenza di tre eventi 𝐴, 𝐵, 𝐶 ∈ ∁ spazio degli eventi. Tre eventi si dicono indipendenti se:
o 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)
o 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐶)
o 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵)𝑃(𝐶)
o 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐵)𝑃(𝐶)
Probabilità Bivariate-Congiunte-Marginali
La probabilità di un evento congiunto, 𝐴 ∩ 𝐵 si può calcolare in modo classico:
numero di eventi semplici che soddisfano A e B
numero complessivo di eventi elementari
Calcolo di una probabilità marginale utilizzando le congiunte:
1
2
𝐾
Dove 𝐵 1
2
𝐾
sono 𝐾 eventi mutuamente esclusivi (incompatibili) e collettivamente esaustivi.
Teorema di Bayes:
𝑖
𝑖
𝑖
𝑖
𝑖
1
1
2
2
𝐾
𝐾
Dove 𝐵 𝑖
evento di 𝐾 eventi mutuamente esclusivi e collettivamente esaustivi cioè 𝐵
1
2
𝐾
sono una collezione
di eventi che costituiscono una partizione di 𝛺 mentre 𝐴 è un nuovo evento che può avere un impatto su 𝑃(𝐵 𝑖
𝑖
𝑖
𝑖
𝑖
1
2
𝐾
1
2
𝐾
Per il teorema delle probabilità composte: 𝑃
𝑖
𝑖
𝑖
Sostituendo: 𝑃(𝐴) = 𝑃(𝐴|𝐵 1
1
2
2
𝐾
𝐾
Regola del prodotto: Quando vogliamo calcolare la probabilità di un evento congiunto (𝐴 intersecato 𝐵,
l’intersezione di due eventi) in generale questo calcolo comporta un prodotto perché potremmo avere che alla
prima estrazione esca 𝐴, e che alla seconda esca 𝐵 condizionato al fatto che prima, appunto, sia uscito 𝐴.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴) Oppure che si verifichi 𝐵 e poi il verificarsi di 𝐴 dato 𝐵 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴|𝐵)
Siano dati 𝐾 eventi 𝐴 1
2
𝐾
tutti possibili 𝑃(𝐴
1
) > 0 allora:
o Se gli eventi sono indipendenti: 𝑃
1
2
𝐾
1
2
𝐾
o Se gli eventi non sono indipendenti: 𝑃(𝐴 1
2
𝐾
1
2
1
2
1
2
𝐾
1
2
𝐾− 1
Variabili casuali (aleatoria, random, stocastica)
1
2
𝑛
} spazio campionario
𝑖
) variabile aleatoria → 𝑋(𝑢
𝑖
) variabile statistica
𝑝(𝑋 = 𝑥) probabilità di 𝑋 = 𝑥 → 𝑝(𝑋 = 𝑥) frequenza relativa
Distribuzione di Probabilità per variabili casuali discrete. Proprietà Necessarie
𝑝(𝑥) ≥ 0 per ogni valore di 𝑥
Le singole probabilità sommano a 1: ∑ 𝑝
𝑥