Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Formule e dimostrazioni - Statistica (I° corso), Schemi e mappe concettuali di Statistica

Formulario completo di spiegazioni e dimostrazioni di tutte le formule del programma 2023/2024 corso di Statistica (I° corso) A-L. Le formule sono state prese dal libro+slide

Tipologia: Schemi e mappe concettuali

2023/2024

In vendita dal 09/01/2025

CClarissa
CClarissa 🇮🇹

4.4

(5)

12 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
FORMULE E DIMOSTRAZIONI
Osservazioni e distribuzioni di frequenza
Supporto 𝑆𝑋={𝑥𝐿| ∃𝑢𝑈 𝑐𝑜𝑛 𝑋(𝑢)=𝑥} Cardinalità del supporto 𝐾=#𝑆𝑋
Frequenza assoluta 𝑛𝑋(𝑥) o 𝑛𝑖 𝑥𝑆𝑋 le sue proprietà:
a) 𝑛𝑋(𝑥)>0,𝑥𝑆𝑋 (positività nel supporto)
b) 𝑛𝑋(𝑥)𝑁 (la frequenza assoluta è minore della ampiezza N)
c) 𝑛𝑋(𝑥)
𝑥∈𝑆𝑋=𝑁 (condizione di normalizzazione)
Frequenza relativa le sue proprietà:
a) 𝑝𝑋(𝑥)>0,𝑥𝑆𝑋 (non negatività del supporto)
b) 𝑝𝑋(𝑥)1 (la frequenza relativa non può essere maggiore di 1)
c) 𝑝𝑋(𝑥)
𝑥∈𝑆𝑋=1 (condizione di normalizzazione)
Frequenza percentuale 𝑝𝑋(𝑥)100 con 𝑝𝑋(𝑥)100
𝑥∈𝑆𝑋=100 e 0𝑝𝑋(𝑥)100100
Frequenza assoluta cumulata 𝑁𝑖= 𝑛1+𝑛2+𝑛3𝑛𝑖 dove 𝑛𝑖
𝑘
𝑖=1 =𝑁
Frequenza relativa cumulata
Variabile statistica raggruppata in classi
Ampiezza della classe i-esima 𝑎𝑖=𝑥𝑖+1𝑥𝑖
Valore centrale della classe 𝑥𝑖
=𝑥𝑖+1−𝑥𝑖
2
Densità di frequenza assoluta 𝑓𝑖=𝑛𝑖/𝑎𝑖 Densità di frequenza relativa 𝑓𝑖=𝑝𝑖/𝑎𝑖 Inoltre 𝑓𝑖𝑎𝑖=𝑝𝑖
Frequenza distribuzione uniforme dove 𝛿 è l’ampiezza del sotto-intervallo
Operatore frequenza relativa P() : se ho una variabile discreta uso la funzione di frequenza relativa 𝑝𝑋(𝑥)
altrimenti se ho una variabile continua (anche teorica) o una variabile raggruppata in classi , uso la funzione di
densità di frequenza relativa 𝒇𝑿(𝒙)
𝑃(𝑎𝑋𝑏)=𝑃(𝑎<𝑋<𝑏)=𝑃(𝑎𝑋<𝑏)=𝑃(𝑎<𝑋𝑏)=𝑓𝑋(𝑥)𝑑𝑥
𝑏
𝑎
Funzione di densità di frequenza relativa e le sue proprietà:
a) 𝑓𝑋(𝑥)0 ∀ 𝑥𝑅 in particolare, 𝑓𝑋(𝑥)>0, 𝑥𝑆𝑋
b) 𝑓𝑋(𝑥)𝑑𝑥
+∞
−∞ =1 condizione di normalizzazione
c) 𝑓𝑋(𝑥)𝑑𝑥
+∞
−∞ = 𝑝1+𝑝2+𝑝3
𝑝𝑋(𝑥)=𝑛𝑋(𝑥)
𝑁= 𝑛𝑖
𝑁, 𝑥𝑆𝑋
𝐹𝑖=𝑁𝑖
𝑁, 𝑥𝑆𝑋
𝑛(𝛿;𝑖)=𝑛𝑖
𝑎𝑖𝛿,
𝑓𝑋(𝑥)=𝑝𝑋(𝑥)
𝑎𝑋(𝑥), 𝑓𝑋(𝑥)=0 𝑥𝑆𝑋
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Formule e dimostrazioni - Statistica (I° corso) e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

FORMULE E DIMOSTRAZIONI

Osservazioni e distribuzioni di frequenza

Supporto 𝑆 𝑋

= {𝑥 ∈ 𝐿| ∃𝑢 ∈ 𝑈 𝑐𝑜𝑛 𝑋(𝑢) = 𝑥} Cardinalità del supporto 𝐾 = #𝑆

𝑋

Frequenza assoluta 𝑛 𝑋

o 𝑛

𝑖

𝑋

le sue proprietà :

a) 𝑛

𝑋

𝑋

(positività nel supporto)

b) 𝑛

𝑋

(𝑥) ≤ 𝑁 (la frequenza assoluta è minore della ampiezza N)

c)

𝑋

𝑥∈𝑆 𝑋

= 𝑁 (condizione di normalizzazione)

Frequenza relativa le sue proprietà :

a) 𝑝

𝑋

𝑋

(non negatività del supporto)

b) 𝑝

𝑋

(𝑥) ≤ 1 (la frequenza relativa non può essere maggiore di 1)

c) ∑ 𝑝

𝑋

𝑥∈𝑆

𝑋

= 1 (condizione di normalizzazione)

Frequenza percentuale 𝑝 𝑋

∗ 100 con

𝑋

𝑥∈𝑆 𝑋

= 100 e 0 ≤ 𝑝

𝑋

Frequenza assoluta cumulata 𝑁 𝑖

1

2

3

𝑖

dove ∑ 𝑛

𝑖

𝑘

𝑖= 1

Frequenza relativa cumulata

Variabile statistica raggruppata in classi

Ampiezza della classe i-esima 𝑎 𝑖

𝑖+ 1

𝑖

Valore centrale della classe 𝑥

𝑖

𝑥 𝑖+ 1

−𝑥 𝑖

2

Densità di frequenza assoluta 𝑓 𝑖

𝑖

𝑖

Densità di frequenza relativa 𝑓

𝑖

𝑖

𝑖

Inoltre 𝑓

𝑖

𝑖

𝑖

Frequenza distribuzione uniforme dove 𝛿 è l’ampiezza del sotto-intervallo

Operatore frequenza relativa P() : se ho una variabile discreta uso la funzione di frequenza relativa 𝑝 𝑋

altrimenti se ho una variabile continua (anche teorica) o una variabile raggruppata in classi, uso la funzione di

densità di frequenza relativa 𝒇 𝑿

𝑋

𝑏

𝑎

Funzione di densità di frequenza relativa e le sue proprietà:

a) 𝑓

𝑋

(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝑅 in particolare, 𝑓

𝑋

𝑋

b) ∫ 𝑓

𝑋

+∞

−∞

= 1 condizione di normalizzazione

c) ∫ 𝑓

𝑋

+∞

−∞

1

2

3

𝑋

𝑋

𝑖

𝑋

𝑖

𝑖

𝑋

𝑖

𝑖

𝑋

𝑋

𝑋

𝑋

𝑋

1

1

1

2

1

2

2

3

1

2

𝑖

𝑖

𝑖+ 1

1

2

𝐾− 1

𝐾− 1

𝐾

𝐾

1

𝑖

𝑖

𝑖+ 1

𝐾

Variabili statistiche continue teoriche

𝑋

Condizioni : Una funzione reale 𝑓 𝑋

di variabile reale è una densità di frequenza relativa se:

a) Esiste per ogni numero reale

b) È non negativa per ogni valore di 𝑥 ovvero 𝑓

𝑋

c) Il suo integrale deve essere uguale a 1 cioè ∫ 𝑓

𝑋

+∞

−∞

Funzione di ripartizione

𝑋

(𝑥) = 𝑃(𝑋 ≤ 𝑥), 𝑥 ∈ 𝑅 dove P = operatore di frequenza relativa 0 ≤ 𝐹

𝑋

Proprietà:

a) È monotona non decrescente 𝐹(𝑥) ≤ 𝐹(𝑥 + ℎ) ∀ 𝑥 ∈ 𝑅 𝑒 ∀ ℎ > 0 cioè non può decrescere

b) La funzione di ripartizione è continua a destra lim

𝑥→𝑥

𝑖

𝑖

c) Comportamento a −∞: lim

𝑥→−∞

d) Comportamento a +∞: lim

𝑥→+∞

Variabile statistica quantitativa discreta

Data {(𝑥 𝑖

𝑖

𝑋

la funzione di ripartizione sarà:

Osservazione: 𝐹(𝑥 𝑖

) è la frequenza cumulata dunque 𝐹(𝑥

𝑖

𝑖− 1

𝑖

In 𝑥 0

0

Le proprietà non cambiano ma se ne aggiunge una: 𝑝(𝑥 𝑖

𝑖

𝑖− 1

Variabile statistica quantitativa raggruppata in classi

𝑋

𝑥

𝑥

−∞

Le proprietà non cambiano ma se ne aggiungono due:

a) 𝐹(𝑥) è continua in 𝑅

b) 𝐹

è derivabile negli intervalli 𝑥 ∈

𝑖

𝑖+ 1

𝑋

𝑑𝐹

( 𝑥

)

𝑑𝑥

𝑖

densità di frequenza relativa

Nell’istogramma la larghezza equivale all’ampiezza, l’altezza equivale alla densità di frequenza, l’area equivale alla

frequenza perché è l’ampiezza per la densità

Nel caso di una variabile statistica continua teorica la media aritmetica si calcola attraverso l’integrale:

𝑋

𝑋

+∞

−∞

Proprietà 1 : è quel valore che sostituito a ciascuna osservazione lascia invariata la somma.

𝑋

𝑖

𝑖

𝐾

𝑖= 1

𝑖

𝑖

𝐾

𝑖= 1

Proprietà 2 di internalità o di Cauchy: data la variabilità statistica 𝑋 con supporto 𝑆 𝑋

risulta:

𝑋

𝑋

DIM :

Dati grezzi Distribuzione di frequenza

Variabili continue

questa dimostrazione vale anche per

le variabili raggruppate in classi

Proprietà 3 del baricentro: Definiamo scarto la variabile statistica 𝑇 = 𝑋 − 𝐸(𝑋). La proprietà del baricentro dice

che la media della variabile statistica 𝑇 (scarto) è uguale a zero: 𝐸(𝑇) = 𝐸[𝑋 − 𝐸

] = 0

DIM: dati grezzi. Avremo 𝑡 𝑖

𝑖

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

DIM: variabili continue.

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑖

𝑖

𝑁 𝐺

𝑖= 1

𝑖

𝑁 𝐺

𝑖= 1

Proprietà 4: media di una trasformazione di dati. Sia 𝑇 una trasformazione dei dati (anche lo scarto lo è): 𝑇 =

𝑔(𝑋) dove 𝑔 è la funzione che trasforma i dati della variabile statistica 𝑋 nei dati della variabile statistica 𝑇. Vale

la proprietà:

Casi particolari:

→ Se 𝑇 = 𝑔(𝑋) = 𝑐 è una costante allora: 𝑬

= 𝒄, la media di una costante è la costante. DIM:

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑁

𝑖= 1

→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋, dove 𝑚 è una costante allora: 𝑬(𝑻) = 𝑬(𝒎𝑿) = 𝒎𝑬(𝑿). DIM:

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

= media di 𝑿

𝑋

+∞

−∞

𝑋

+∞

−∞

→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋 + 𝑞, dove 𝑚,𝑞 costanti, allora 𝑬(𝑻) = 𝑬(𝒎𝑿 + 𝒒) = 𝒎𝑬(𝑿) + 𝒒. DIM:

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

Disuguaglianza di Jensen

Se “𝑔” è una funzione convessa allora:

𝐸[𝑔(𝑥)] ≥ 𝑔(𝐸(𝑥))

Se “𝑔” è una funzione concava allora:

𝐸[𝑔(𝑥)] ≤ 𝑔(𝐸(𝑥))

Abbiamo visto che se 𝑔 è lineare, cioé 𝑔(𝑥) = 𝑚𝑥 + 𝑞, allora la diseguaglianza diventa una eguaglianza:

𝐸[𝑔(𝑥)] = 𝑔(𝐸(𝑥))

Proprietà 5 associativa della media. La media del gruppo è uguale alla media aritmetica delle medie aritmetiche

dei singoli gruppi:

𝐺

= numero gruppi;

Proprietà 6 dei minimi quadrati. La media è il valore che minimizza la funzione che misura la media degli scarti

quadratici di 𝑋 da una costante 𝑐.

𝐸[(𝑋 − 𝜇)

2

] ≤ 𝐸[(𝑋 − 𝑐)

2

], 𝑐 ∈ 𝑅 cioè la media è la soluzione a min 𝑔(𝑐) = 𝐸[(𝑋 − 𝑐)

2

]

𝑋

(𝑠)

= [𝐸

𝑠

]

1 /𝑠

= [∑ 𝑥

𝑖

𝑠

𝑖

𝐾

𝑖= 1

]

1 /𝑠

𝑋

(𝑠)

= [𝐸(𝑋

𝑠

)]

1 /𝑠

= [

𝑖

𝑠

𝑁

𝑖= 1

]

1 /𝑠

media quadratica → 𝒔 = 𝟐

𝑋

( 2 )

= [∑ 𝑥

𝑖

2

𝑖

𝐾

𝑖= 1

]

1 / 2

𝑖

2

𝑖

𝐾

𝑖= 1

𝑋

( 2 )

= [

𝑖

2

𝑁

𝑖= 1

]

1 / 2

𝑖

2

𝑁

𝑖= 1

media armonica → 𝒔 = −𝟏

𝑋

(− 1 )

= [∑ 𝑥

𝑖

− 1

𝑖

𝐾

𝑖= 1

]

− 1

𝑖

𝑖

𝐾

𝑖= 1

1

1

2

2

𝐾

𝐾

𝑋

(− 1 )

= [

𝑖

− 1

𝑁

𝑖= 1

]

− 1

𝑖

𝑁

𝑖= 1

1

2

𝑁

media geometrica → 𝒔 = 𝟎

𝑋

( 0 )

1

𝑝

1

2

𝑝

2

3

𝑝

3

𝐾

𝑝

𝐾

𝑖

𝑝

𝑖

𝐾

𝑖= 1

𝑋

( 0

)

1

2

3

𝑁

𝑁

= [∏ 𝑥

𝑖

𝑁

𝑖= 1

]

1

𝑁

𝑋

( 0

)

𝑖

ln(𝑥

𝑖

𝐾

𝑖= 1

media ponderata

𝑋

1

1

2

2

3

3

1

2

3

𝑖

𝑖

𝐾

𝑖= 1

Proprietà :

  1. Proprietà di Cauchy o dell’internalità

𝑚𝑖𝑛

𝑋

𝑋

(𝑠)

𝑋

𝑚𝑎𝑥

  1. Proprietà di monotonia

Se 𝑠 < 𝑡 → 𝜇

𝑋

( 𝑠

)

𝑋

( 𝑡

)

  1. Limiti

lim

𝑠→−∞

𝑋

(𝑠)

𝑚𝑖𝑛

lim

𝑠→+∞

𝑋

(𝑠)

𝑚𝑎𝑥

Media di Chisini

Dato un insieme di osservazioni numeriche 𝑥 1

2

3

𝑁

e una funzione 𝑔 degli elementi precedenti, definiamo

media degli 𝑁 elementi 𝑥 1

2

3

𝑁

quell’unico numero 𝑀, se esiste, tale che:

1

2

3

𝑁

Medie potenziate-Legame con operatore 𝑬(∙)

In sintesi, le medie potenziate di ordine 𝑠 sono ottenute come la potenza 1 /𝑠 della media aritmetica della

trasformazione 𝑇 = 𝑋

𝑠

Momenti di una distribuzione

Si definisce momento di ordine “𝑚” la media della potenza 𝑚-esima (𝑚 ∈ 𝑁) della variabile statistica 𝑋:

𝑚

𝑚

) con 𝑚 = 0 , 1 , 2 …

Per 𝑚 = 1 abbiamo la media aritmetica cioè 𝜇 = 𝜇 1

= 𝐸[𝑋] mentre per 𝑚 = 2 𝜇 = 𝜇

2

= 𝐸[𝑋

2

]

Se 𝑋 è una variabile statistica che assume valori positivi allora:

𝑚

= [𝜇

𝑋

(𝑚)

]

𝑚

𝑋

(𝑚)

𝑚

𝑚

𝑚

1 /𝑚

o Variabile statistica discreta assegnata attraverso

dati grezzi:

𝑚

𝑚

𝑖

𝑚

𝑁

𝑖= 1

o Variabile statistica discreta assegnata attraverso

distribuzione di frequenza:

𝑚

𝑚

𝑖

𝑚

𝑖

𝐾

𝑖= 1

o Variabile statistica continua raggruppata in

classi:

𝑚

𝑚

𝑚

𝑋

+∞

−∞

o Variabile statistica continua teorica (possono

anche non esistere):

𝑚

𝑚

𝑚

𝑋

+∞

−∞

Indici di variabilità

Range o campo di variazione : 𝑅 = 𝑠𝑢𝑝𝑆 𝑋

𝑋

Differenza interquartile: 𝐼𝑄 = 𝑄 3

1

con 𝑄

1

primo quartile: 𝑥

0 , 25

3

terzo quartile: 𝑥

0 , 75

Variabilità da un centro: scostamento medio da un polo (centro): 𝑆

𝑐

𝑋 discreta-Dati grezzi:

𝑖

𝑁

𝑖= 1

𝑋 discreta-Distribuzione di frequenza:

𝑖

𝐾

𝑖= 1

𝑖

𝑋 continua raggruppata in classi

𝑋

+∞

−∞

𝑋 continua teorica:

𝑋

+∞

−∞

Variabilità dalla media: scostamento semplice medio: 𝑆 𝜇

𝑋

𝑋

𝑋 discreta-Dati grezzi:

𝑋

𝑖

𝑋

𝑁

𝑖= 1

𝑋 discreta-Distribuzione di frequenza:

𝑋

𝑖

𝑋

𝐾

𝑖= 1

𝑖

𝑋 continua raggruppata in classi

𝑋

𝑋

𝑋

+∞

−∞

𝑋 continua teorica:

𝑋

𝑋

𝑋

+∞

−∞

Proprietà 4 omogeneità di grado due:

2

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 ha media 𝐸(𝑇) = 𝐸(𝑚𝑋) = 𝑚𝐸(𝑋) = 𝑚𝜇 dunque

2

2

2

2

2

2

2

Proprietà 5 invarianza e omogeneità di grado 2:

2

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 + 𝑞 ha media 𝐸(𝑚𝑇 + 𝑞) = 𝑚𝐸(𝑋) + 𝑞 = 𝑚𝜇 + 𝑞.

Proprietà 6 varianza di una variabile degenere (costante):

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑆 𝑋

= {𝑐}, Per le proprietà dell’operatore media 𝐸(𝑐) = 𝑐, quindi

la variabile statistica 𝑇 = (𝑋 − 𝜇)

2

2

= 0 è degenere e vale sempre zero: 𝑉(𝑋) = 𝐸(𝑇) = 0

Diseguaglianza di Chebyshev

Sia data la variabile 𝑋 con media e varianza 𝜎

2

. Risulta:

2

2

DIM:

entrambi gli addendi sono positivi

2

2

2

2

2

2

Proprietà:

DIM: 𝑃(|𝑋 − 𝜇| < 𝑐) + 𝑃(|𝑋 − 𝜇| ≥ 𝑐) = 1 da cui 𝑃(|𝑋 − 𝜇| < 𝑐) = 1 − 𝑃(|𝑋 − 𝜇| ≥ 𝑐), poiché:

allora

Altro modo di rappresentarla:

2

2

2

2

2

2

2

2

2

𝑖

2

𝐾

𝑖= 1

𝑖

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|<𝑐

2

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

Ricordando che 𝑉(𝑋) = 𝜎

2

𝑋

2

) e siano 𝑐 > 0 e 𝛽 ∈ 𝑅 allora:

2

2

Variabili Statistiche Bivariate

La cardinalità del supporto di 𝑋 lo indichiamo con 𝑟 (righe), e con 𝑐 (colonne) la cardinalità del supporto di 𝑌

Frequenza assoluta congiunta: 𝑛 𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

→ La somma di tutte le frequenze assolute congiunte è

uguale all’ampiezza della popolazione 𝑁.

Osserviamo che: 0 < 𝑛 𝑋,𝑌

𝑖

𝑗

Le coppie (𝑥 𝑖

𝑖 0

), 𝑖 = 1 , 2 , … , 𝑟 frequenze marginali di 𝑋

Le coppie (𝑦 𝑗

0 𝑗

), 𝑗 = 1 , 2 , … , 𝑐 frequenze marginali di 𝑌

Definiamo frequenze assolute marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:

𝑋 0

𝑖

𝑖 0

𝑖,𝑗

𝑐

𝑗= 1

0Y

𝑗

0 𝑗

𝑖,𝑗

𝑟

𝑖= 1

Entrambi soddisfano la condizione di normalizzazione:

Frequenza relativa congiunta: 𝑝 𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

cioè

𝑋,𝑌

𝑖

𝑗

𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

𝑋,𝑌

𝑖

𝑗

Definiamo le frequenze relative marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:

𝑋 0

𝑖

𝑖 0

𝑖,𝑗

𝑐

𝑗= 1

0Y

𝑗

0 𝑗

𝑖,𝑗

𝑟

𝑖= 1

Entrambi le frequenze marginali soddisfano la condizione di normalizzazione.

Condizione di normalizzazione:

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

Analisi della dipendenza della variabile statistica bivariata (𝑋, 𝑌):

o Dipendenza di 𝑌 da 𝑋. La frequenza condizionata di 𝑌 da 𝑋 e si indica 𝑝 𝑌|𝑋

definita da:

𝑌|𝑋=𝑥

𝑖

𝑗

𝑗|𝑖

𝑖,𝑗

𝑖 0

𝑖,𝑗

𝑖 0

𝑖,𝑗

𝑖 0

o Dipendenza di 𝑋 da 𝑌.

𝑋|𝑌=𝑦 𝑗

𝑖

𝑖|𝑗

𝑖,𝑗

0j

𝑖,𝑗

0j

𝑖,𝑗

0j

0 𝑗

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

0 𝑗

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

L’indice 𝜒

2

è uguale a zero se le variabili 𝑋 e 𝑌 sono assolutamente indipendenti. In questo caso:

𝑖,𝑗

𝑖 0

0j

Il massimo valore di 𝜒

2

è 𝑁 𝑚𝑖𝑛 {𝑟 − 1 , 𝑐 − 1 } quindi 𝜒

2

soddisfa 0 ≤ 𝜒

2

≤ 𝑁 min{𝑟 − 1 , 𝑐 − 1 }

Raggiunge il suo massimo valore in caso di dipendenza perfetta , ovvero quando per un valore fissato di una

variabile esiste un solo valore dell’altra variabile. A differenza dell’indipendenza non vale la reciprocità quindi

𝑌 dipende perfettamente da 𝑋 se ad ogni modalità di 𝑋 corrisponde una sola modalità di 𝑌 e viceversa, ma non

possono contemporaneamente dipendere perfettamente l’una dall’altra, al contrario, nel caso dell’indipendenza

se 𝑋 è indipendente da 𝑌 allora anche 𝑌 è indipendente da 𝑋

Poiché l’indice 𝜒

2

si può calcolare solo conoscendo l’ampiezza del campione si introduce un nuovo indice che è

detto phi-quadro:

2

2

2

≤ min{𝑟 − 1 , 𝑐 − 1 }

Indice 𝑽 di Cramer:

2

2

min{𝑟 − 1 , 𝑐 − 1 }

2

𝑁 min{𝑟 − 1 , 𝑐 − 1 }

2

𝑁 min{𝑟 − 1 , 𝑐 − 1 }

Media, varianza e covarianza di una variabile doppia

Per calcolare la media di 𝑋 usiamo tutte le frequenze congiunte. Questo equivale a calcolare la media marginale

di 𝑋.

𝑋

𝑖

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖

𝑟

𝑖= 1

𝑖 0

𝑌

𝑗

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑖

𝑐

𝑗= 1

𝑖,𝑗

𝑟

𝑖= 1

𝑖

𝑐

𝑗= 1

0 𝑗

𝑖 0

0 𝑗

Varianza :

𝑋

2

𝑖

𝑋

2

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

2

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖

𝑋

2

𝑟

𝑖= 1

𝑖 0

𝑌

2

𝑗

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

2

𝑐

𝑗= 1

𝑖,𝑗

𝑟

𝑖= 1

𝑗

𝑌

2

𝑐

𝑗= 1

0 𝑗

Covarianza : La covarianza misura il comovimento delle variabili nel piano 𝑋 𝑌.

𝑋𝑌

𝑋

𝑌

𝑖

𝑋

𝑗

𝑌

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

Proprietà 1 :

𝑋𝑌

𝑋

𝑌

DIM: 𝜎

𝑋𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

Proprietà 2:

Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora la covarianza è

uguale a zero: 𝜎 𝑋𝑌

𝑋

𝑌

DIM: assoluta indipendenza → 𝑝 𝑖,𝑗

𝑖 0

0j

𝑋𝑌

𝑖

𝑋

𝑗

𝑌

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

𝑗

𝑌

𝑖 0

0j

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

𝑟

𝑖= 1

𝑖 0

𝑗

𝑌

0j

𝑐

𝑗= 1

Proprietà 3:

Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora: 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌)

DIM : abbiamo che 𝜎 𝑋𝑌

𝑋

𝑌

𝐸(𝑌). Essendo indipendenti 𝜎

𝑋𝑌

= 0 , quindi:

Proprietà 4:

DIM : ricordiamo che 𝐸(𝑎𝑋) = 𝑎𝐸(𝑋) = 𝑎𝜇 𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

Proprietà 5:

DIM : ricordiamo che 𝐸

𝑋

𝑋

𝑌

𝑋

𝑌

Proprietà 6: Sia (𝑋, 𝑌) una variabile doppia allora se 𝑇 = 𝑎𝑋 + 𝑏𝑌 risulta:

2

2

DIM : ricordiamo che 𝑉

𝑇

2

𝑋

𝑌

𝑉(𝑇) = 𝑉(𝑎𝑋 + 𝑏𝑌) = 𝐸 [((𝑎𝑋 + 𝑏𝑌) − (𝑎𝜇

𝑋

𝑌

2

] = 𝐸 [((𝑎𝑋 − 𝑎𝜇

𝑋

𝑌

2

]

= 𝐸 [(𝑎

𝑋

𝑌

2

] = 𝐸

[

2

𝑋

2

2

𝑌

2

𝑋

𝑌

)]

2

𝐸[(𝑋 − 𝜇

𝑋

2

] + 𝑏

2

𝐸[(𝑌 − 𝜇

𝑌

2

] + 2 𝑎𝑏𝐸[(𝑋 − 𝜇

𝑋

𝑌

)] = 𝑎

2

2

Se 𝑇 = 𝑎𝑋 − 𝑏𝑌 risulta: 𝑉(𝑇) = 𝑉(𝑎𝑋 + 𝑏𝑌) = 𝑎

2

2

Proprietà 7:

La covarianza soddisfa 𝜎 𝑋𝑌

2

𝑋

2

𝑌

2

DIM : Consideriamo la trasformata delle variabili 𝑋 e 𝑌 definita da: 𝑇 = 𝜎 𝑌

2

𝑋𝑌

𝑌 e calcoliamo la varianza di 𝑇

usando le regole dell’operatore varianza:

𝑌

2

𝑋𝑌

𝑌

4

𝑋𝑌

2

𝑋𝑌

𝑌

2

𝐶𝑜𝑣(𝑋, 𝑌) ricordiamo che: 𝑉

𝑋

2

𝑌

2

𝑌

4

𝑋

2

𝑋𝑌

2

𝑌

2

𝑋𝑌

2

𝑌

2

𝑌

4

𝑋

2

𝑋𝑌

2

𝑌

2

𝑌

2

𝑌

2

𝑋

2

𝑋𝑌

2

) poiché 𝜎

𝑌

2

è positiva se Y non è degenere

(ovvero costante) allora vale la relazione 0 ≤ (𝜎

𝑌

2

𝑋

2

𝑋𝑌

2

𝑋𝑌

2

𝑋

2

𝑌

2

Decomposizione varianza:

𝑌

2

𝑗

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

𝑖

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

= ∑ ∑ [(𝑦

𝑗

𝑌

𝑖

2

𝑌

𝑖

𝑌

2

𝑌

𝑖

𝑌

𝑗

𝑌

𝑖

)] 𝑝

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

𝑖

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

𝑗

𝑌

𝑖

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

questo perché:

𝑗

𝑌

𝑖

𝑖,𝑗

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖 0

𝑟

𝑖= 1

𝑌

𝑌

2

𝑗

𝑌

𝑖

2 𝑝

𝑖,𝑗

𝑖 0

𝑖 0

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑗

𝑌

𝑖

2

𝑗|𝑖

𝑖 0

𝑟

𝑖= 1

𝑌

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

𝑌

2

𝑌

𝑌

2

𝑌

𝑌

2

Funzione di regressione lineare : 𝑔(𝑥) = 𝑚𝑥 + 𝑞

Ricordiamo che vale la seguente uguaglianza: 𝐸 ((𝑌 − 𝑔(𝑋))

2

𝑌

2

𝑌

2

Quindi otteniamo: 𝐸 ((𝑌 −

2

𝑌

2

𝑌

2

La funzione di regressione lineare (o interpolante lineare) si ottiene risolvendo il problema dei minimi quadrati :

min⏟

𝑚,𝑞

𝑌

2

Dunque, cerchiamo il minimo della seguente funzione di due variabili 𝑚, 𝑞 definita da:

𝑌

2

𝑌

𝑖

2

𝑖 0

𝑟

𝑖= 1

Dobbiamo derivare rispetto a 𝑚 e 𝑞 e porre le derivate uguali a 0 a sistema.

𝑌

2

𝑖 0

𝑟

𝑖= 1

𝑌

2

𝑖

2

𝑌

𝑖

2

𝑖 0

𝑟

𝑖= 1

Derivo rispetto a 𝑚 e 𝑞:

𝑖

2

𝑖

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖

2

𝑖 0

𝑟

𝑖= 1

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

2

𝑋

2

𝑋

2

𝑋

𝑋𝑌

𝑋

𝑌

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖 0

𝑟

𝑖= 1

𝑖

𝑖 0

𝑟

𝑖= 1

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑋

𝑌

2

𝑖

2

2

𝑖

Le metto a sistema entrambe uguali a 0: {

𝑋

2

𝑋

2

𝑋

𝑋𝑌

𝑋

𝑌

𝑋

𝑌

risolvendo ottengo

𝑋𝑌

𝑋

2

𝑌

𝑋

𝑋

𝑌

𝑋

𝑌

2

𝑋𝑌

𝑋

2

2

𝑋

2

𝑋𝑌

2

𝑋

2

L’indice di bontà di adattamento della retta alla nuvola di punti osservati è l’indice di determinazione :

2

𝑋𝑌

2

𝑋

2

𝑌

2

𝑋𝑌

2

Indice di dipendenza funzionale :

𝑌|𝑋

2

𝑌

𝑌|𝑋

2

𝑌

𝑌

2

Con 𝜂 𝑌|𝑋

2

= 0 e 𝜌

𝑋𝑌

2

= 0 allora Y è regressivamente indipendente da X 𝑉(𝜇

𝑌

𝑌

Con 𝜂 𝑌|𝑋

2

= 1 allora 𝑉(𝜇

𝑌

Attenzione: se X e Y sono assolutamente indipendenti allora sono anche regressivamente indipendenti (cioè

indipendenti in media), ma non è detto che valga il contrario, posso avere Y indipendente in media da X e X e Y

non assolutamente indipendenti

𝑋𝑌

2

𝑌|𝑋

2

𝑌|𝑋

2

𝑋𝑌

2

𝑌|𝑋

2

𝑋𝑌

2

Probabilità

o Intersezione di Eventi: 𝐴 ∩ 𝐵 è l’insieme di tutti gli eventi elementari in 𝑆 che appartengono sia ad 𝐴 che a 𝐵

o Unione di Eventi: 𝐴 ∪ 𝐵 è l’insieme di tutti gli eventi elementari di 𝛺 che appartengono ad 𝐴 oppure a 𝐵

o Gli eventi 𝐸 1

2

3

𝐾

sono collettivamente esaustivi se 𝐸

1

2

3

𝐾

o Evento complementare (𝐴

) di un evento 𝐴 è l’insieme di tutti gli eventi elementari nello spazio campionario

che non appartengono ad 𝐴.

o Eventi incompatibili: se l’intersezione, 𝐴 ∩ 𝐵, è l’evento impossibile. Cioè 𝐴 ∩ 𝐵 = ∅

o Gli eventi 𝐴 1

2

3

𝐾

sono una partizione di 𝛺 se sono: Collettivamente Esaustivi e Incompatibili

(mutuamente esclusivi), 𝐴

1

2

3

𝐾

𝑖

𝑗

= ∅ e 𝐴

𝑖

Valutazione probabilità:

  1. Probabilità classica (Laplace)

𝐴

numero di eventi elementari che soddisfano la condizione dell′evento

numero complessivo di eventi elementari dello spazio campionario

  1. Interpretazione frequentista

𝐴

numero di eventi nella popolazione che soddisfano l

evento A

numero complessivo di eventi nella popolazione

Osserviamo anche che 𝐴 ∪ 𝐵 = 𝐴 ∪

∩ 𝐵) sono incompatibili.

Scomposizione in due insiemi disgiunti per applicare l’assioma (c), che adesso applico:

Sottraggo alla seconda riga la prima

∩ 𝐵) − [𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴

∩ 𝐵)]

Probabilità condizionata

La probabilità condizionata è la probabilità di

un evento, dato che l’altro evento si è verificato:

Avremo che 𝑃(𝐴 ∩ 𝐵) corrisponde alla

frequenza relativa congiunta mentre 𝑃 (𝐴) e

𝑃(𝐵) corrispondono alle frequenze marginali

dell’evento condizionante.

Teorema delle probabilità composte:

Regola moltiplicativa per due eventi 𝐴 e 𝐵: se 𝑃

se 𝑃(𝐴) > 0 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

DIM:

Ricavando 𝑃 (𝐴 ∩ 𝐵) dalle equazioni sopra otteniamo immediatamente la tesi. Infatti:

Indipendenza statistica: Due eventi sono statisticamente indipendenti (o indipendenti) se e solo se:

Teorema: Se A e B sono indipendenti, allora se 𝑃(𝐵) > 0 𝑃(𝐴|𝐵) = 𝑃(𝐴) se 𝑃(𝐴) > 0 𝑃(𝐵| 𝐴) = 𝑃(𝐵)

DIM:

Indipendenza di tre eventi 𝐴, 𝐵, 𝐶 ∈ ∁ spazio degli eventi. Tre eventi si dicono indipendenti se:

o 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)

o 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐶)

o 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵)𝑃(𝐶)

o 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐵)𝑃(𝐶)

Probabilità Bivariate-Congiunte-Marginali

La probabilità di un evento congiunto, 𝐴 ∩ 𝐵 si può calcolare in modo classico:

numero di eventi semplici che soddisfano A e B

numero complessivo di eventi elementari

Calcolo di una probabilità marginale utilizzando le congiunte:

1

2

𝐾

Dove 𝐵 1

2

𝐾

sono 𝐾 eventi mutuamente esclusivi (incompatibili) e collettivamente esaustivi.

Teorema di Bayes:

𝑖

𝑖

𝑖

𝑖

𝑖

1

1

2

2

𝐾

𝐾

Dove 𝐵 𝑖

evento di 𝐾 eventi mutuamente esclusivi e collettivamente esaustivi cioè 𝐵

1

2

𝐾

sono una collezione

di eventi che costituiscono una partizione di 𝛺 mentre 𝐴 è un nuovo evento che può avere un impatto su 𝑃(𝐵 𝑖

DIM:

𝑖

𝑖

𝑖

𝑖

1

2

𝐾

1

2

𝐾

Per il teorema delle probabilità composte: 𝑃

𝑖

𝑖

𝑖

Sostituendo: 𝑃(𝐴) = 𝑃(𝐴|𝐵 1

1

2

2

𝐾

𝐾

Regola del prodotto: Quando vogliamo calcolare la probabilità di un evento congiunto (𝐴 intersecato 𝐵,

l’intersezione di due eventi) in generale questo calcolo comporta un prodotto perché potremmo avere che alla

prima estrazione esca 𝐴, e che alla seconda esca 𝐵 condizionato al fatto che prima, appunto, sia uscito 𝐴.

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴) Oppure che si verifichi 𝐵 e poi il verificarsi di 𝐴 dato 𝐵 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴|𝐵)

Siano dati 𝐾 eventi 𝐴 1

2

𝐾

tutti possibili 𝑃(𝐴

1

) > 0 allora:

o Se gli eventi sono indipendenti: 𝑃

1

2

𝐾

1

2

𝐾

o Se gli eventi non sono indipendenti: 𝑃(𝐴 1

2

𝐾

1

2

1

2

1

2

𝐾

1

2

𝐾− 1

Variabili casuali (aleatoria, random, stocastica)

1

2

𝑛

} spazio campionario

𝑖

) variabile aleatoria → 𝑋(𝑢

𝑖

) variabile statistica

𝑝(𝑋 = 𝑥) probabilità di 𝑋 = 𝑥 → 𝑝(𝑋 = 𝑥) frequenza relativa

Distribuzione di Probabilità per variabili casuali discrete. Proprietà Necessarie

𝑝(𝑥) ≥ 0 per ogni valore di 𝑥

Le singole probabilità sommano a 1: ∑ 𝑝

𝑥