Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Formule e dimostrazioni - Statistica (I° corso), Schemi e mappe concettuali di Statistica

Università Politecnica delle Marche (UNIVPM)Statistica

Prof. Gloria Polinesi

Formulario completo di spiegazioni e dimostrazioni di tutte le formule del programma 2023/2024 corso di Statistica (I° corso) A-L. Le formule sono state prese dal libro+slide

Tipologia: Schemi e mappe concettuali

2023/2024

In vendita dal 09/01/2025

CClarissa 🇮🇹

4.4

(5)

12 documenti

1 / 33

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

FORMULE E DIMOSTRAZIONI

Osservazioni e distribuzioni di frequenza

Supporto 𝑆𝑋={𝑥∈𝐿| ∃𝑢∈𝑈 𝑐𝑜𝑛 𝑋(𝑢)=𝑥} Cardinalità del supporto 𝐾=#𝑆𝑋

Frequenza assoluta 𝑛𝑋(𝑥) o 𝑛𝑖 𝑥∈𝑆𝑋 le sue proprietà:

a) 𝑛𝑋(𝑥)>0,𝑥∈𝑆𝑋 (positività nel supporto)

b) 𝑛𝑋(𝑥)≤𝑁 (la frequenza assoluta è minore della ampiezza N)

c) ∑𝑛𝑋(𝑥)

𝑥∈𝑆𝑋=𝑁 (condizione di normalizzazione)

Frequenza relativa le sue proprietà:

a) 𝑝𝑋(𝑥)>0,𝑥∈𝑆𝑋 (non negatività del supporto)

b) 𝑝𝑋(𝑥)≤1 (la frequenza relativa non può essere maggiore di 1)

c) ∑𝑝𝑋(𝑥)

𝑥∈𝑆𝑋=1 (condizione di normalizzazione)

Frequenza percentuale 𝑝𝑋(𝑥)∗100 con ∑𝑝𝑋(𝑥)∗100

𝑥∈𝑆𝑋=100 e 0≤𝑝𝑋(𝑥)∗100≤100

Frequenza assoluta cumulata 𝑁𝑖= 𝑛1+𝑛2+𝑛3…𝑛𝑖 dove ∑𝑛𝑖

𝑘

𝑖=1 =𝑁

Frequenza relativa cumulata

Variabile statistica raggruppata in classi

Ampiezza della classe i-esima 𝑎𝑖=𝑥𝑖+1−𝑥𝑖

Valore centrale della classe 𝑥𝑖

=𝑥𝑖+1−𝑥𝑖

2

Densità di frequenza assoluta 𝑓𝑖=𝑛𝑖/𝑎𝑖 Densità di frequenza relativa 𝑓𝑖=𝑝𝑖/𝑎𝑖 Inoltre 𝑓𝑖∗𝑎𝑖=𝑝𝑖

Frequenza distribuzione uniforme dove 𝛿 è l’ampiezza del sotto-intervallo

Operatore frequenza relativa P(•) : se ho una variabile discreta uso la funzione di frequenza relativa 𝑝𝑋(𝑥)

altrimenti se ho una variabile continua (anche teorica) o una variabile raggruppata in classi , uso la funzione di

densità di frequenza relativa 𝒇𝑿(𝒙)

𝑃(𝑎≤𝑋≤𝑏)=𝑃(𝑎<𝑋<𝑏)=𝑃(𝑎≤𝑋<𝑏)=𝑃(𝑎<𝑋≤𝑏)=∫𝑓𝑋(𝑥)𝑑𝑥

𝑏

𝑎

Funzione di densità di frequenza relativa e le sue proprietà:

a) 𝑓𝑋(𝑥)≥0 ∀ 𝑥∈𝑅 in particolare, 𝑓𝑋(𝑥)>0, 𝑥∈𝑆𝑋

b) ∫𝑓𝑋(𝑥)𝑑𝑥

+∞

−∞ =1 condizione di normalizzazione

c) ∫𝑓𝑋(𝑥)𝑑𝑥

+∞

−∞ = 𝑝1+𝑝2+𝑝3…

𝑝𝑋(𝑥)=𝑛𝑋(𝑥)

𝑁= 𝑛𝑖

𝑁, 𝑥∈𝑆𝑋

𝐹𝑖=𝑁𝑖

𝑁, 𝑥∈𝑆𝑋

𝑛(𝛿;𝑖)=𝑛𝑖

𝑎𝑖∗𝛿,

𝑓𝑋(𝑥)=𝑝𝑋(𝑥)

𝑎𝑋(𝑥), 𝑓𝑋(𝑥)=0 𝑥∉𝑆𝑋

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

Scopri Schemi e mappe concettuali di Statistica Università Politecnica delle Marche (UNIVPM)

Documenti correlati

Formulario(formule+dimostrazioni) Statistica descrittiva e inferenziale

(10)

dimostrazioni teoriche di statistica

Appunti Statistica UNIVPM - Esercizi d'esame, Risposte e Dimostrazioni

(1)

Statistica - Dimostrazioni Statistica Inferenziale

Formulario di Statistica 1: teoria, grafici e dimostrazioni analitiche.

Elettromagnetismo dimostrazioni e formule

Dimostrazioni formule

Formule microeconomia

Statistica UNIVPM - Risposte domande d'esame - Teoria e dimostrazioni

Dimostrazioni Fluidodinamica

Stima intervallare formule

(1)

FORMULE DI MICROECONOMIA

Anteprima parziale del testo

Scarica Formule e dimostrazioni - Statistica (I° corso) e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

FORMULE E DIMOSTRAZIONI

Osservazioni e distribuzioni di frequenza

Supporto 𝑆 𝑋

= {𝑥 ∈ 𝐿| ∃𝑢 ∈ 𝑈 𝑐𝑜𝑛 𝑋(𝑢) = 𝑥} Cardinalità del supporto 𝐾 = #𝑆

𝑋

Frequenza assoluta 𝑛 𝑋

o 𝑛

𝑖

𝑋

le sue proprietà :

a) 𝑛

𝑋

𝑋

(positività nel supporto)

b) 𝑛

𝑋

(𝑥) ≤ 𝑁 (la frequenza assoluta è minore della ampiezza N)

c)

𝑋

𝑥∈𝑆 𝑋

= 𝑁 (condizione di normalizzazione)

Frequenza relativa le sue proprietà :

a) 𝑝

𝑋

𝑋

(non negatività del supporto)

b) 𝑝

𝑋

(𝑥) ≤ 1 (la frequenza relativa non può essere maggiore di 1)

c) ∑ 𝑝

𝑋

𝑥∈𝑆

𝑋

= 1 (condizione di normalizzazione)

Frequenza percentuale 𝑝 𝑋

∗ 100 con

𝑋

𝑥∈𝑆 𝑋

= 100 e 0 ≤ 𝑝

𝑋

Frequenza assoluta cumulata 𝑁 𝑖

1

2

3

𝑖

dove ∑ 𝑛

𝑖

𝑘

𝑖= 1

Frequenza relativa cumulata

Variabile statistica raggruppata in classi

Ampiezza della classe i-esima 𝑎 𝑖

𝑖+ 1

𝑖

Valore centrale della classe 𝑥

𝑖

𝑥 𝑖+ 1

−𝑥 𝑖

2

Densità di frequenza assoluta 𝑓 𝑖

𝑖

𝑖

Densità di frequenza relativa 𝑓

𝑖

𝑖

𝑖

Inoltre 𝑓

𝑖

𝑖

𝑖

Frequenza distribuzione uniforme dove 𝛿 è l’ampiezza del sotto-intervallo

Operatore frequenza relativa P( • ) : se ho una variabile discreta uso la funzione di frequenza relativa 𝑝 𝑋

altrimenti se ho una variabile continua (anche teorica) o una variabile raggruppata in classi, uso la funzione di

densità di frequenza relativa 𝒇 𝑿

𝑋

𝑏

𝑎

Funzione di densità di frequenza relativa e le sue proprietà:

a) 𝑓

𝑋

(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝑅 in particolare, 𝑓

𝑋

𝑋

b) ∫ 𝑓

𝑋

+∞

−∞

= 1 condizione di normalizzazione

c) ∫ 𝑓

𝑋

+∞

−∞

1

2

3

𝑋

𝑋

𝑖

𝑋

𝑖

𝑖

𝑋

𝑖

𝑖

𝑋

𝑋

𝑋

𝑋

𝑋

1

1

1

2

1

2

2

3

1

2

𝑖

𝑖

𝑖+ 1

1

2

𝐾− 1

𝐾− 1

𝐾

𝐾

1

𝑖

𝑖

𝑖+ 1

𝐾

Variabili statistiche continue teoriche

𝑋

Condizioni : Una funzione reale 𝑓 𝑋

di variabile reale è una densità di frequenza relativa se:

a) Esiste per ogni numero reale

b) È non negativa per ogni valore di 𝑥 ovvero 𝑓

𝑋

c) Il suo integrale deve essere uguale a 1 cioè ∫ 𝑓

𝑋

+∞

−∞

Funzione di ripartizione

𝑋

(𝑥) = 𝑃(𝑋 ≤ 𝑥), 𝑥 ∈ 𝑅 dove P = operatore di frequenza relativa 0 ≤ 𝐹

𝑋

Proprietà:

a) È monotona non decrescente 𝐹(𝑥) ≤ 𝐹(𝑥 + ℎ) ∀ 𝑥 ∈ 𝑅 𝑒 ∀ ℎ > 0 cioè non può decrescere

b) La funzione di ripartizione è continua a destra lim

𝑥→𝑥

𝑖

𝑖

c) Comportamento a −∞: lim

𝑥→−∞

d) Comportamento a +∞: lim

𝑥→+∞

Variabile statistica quantitativa discreta

Data {(𝑥 𝑖

𝑖

𝑋

la funzione di ripartizione sarà:

Osservazione: 𝐹(𝑥 𝑖

) è la frequenza cumulata dunque 𝐹(𝑥

𝑖

𝑖− 1

𝑖

In 𝑥 0

0

Le proprietà non cambiano ma se ne aggiunge una: 𝑝(𝑥 𝑖

𝑖

𝑖− 1

Variabile statistica quantitativa raggruppata in classi

𝑋

𝑥

𝑥

−∞

Le proprietà non cambiano ma se ne aggiungono due:

a) 𝐹(𝑥) è continua in 𝑅

b) 𝐹

è derivabile negli intervalli 𝑥 ∈

𝑖

𝑖+ 1

𝑋

𝑑𝐹

( 𝑥

)

𝑑𝑥

𝑖

densità di frequenza relativa

Nell’istogramma la larghezza equivale all’ampiezza, l’altezza equivale alla densità di frequenza, l’area equivale alla

frequenza perché è l’ampiezza per la densità

Nel caso di una variabile statistica continua teorica la media aritmetica si calcola attraverso l’integrale:

𝑋

𝑋

+∞

−∞

Proprietà 1 : è quel valore che sostituito a ciascuna osservazione lascia invariata la somma.

𝑋

𝑖

𝑖

𝐾

𝑖= 1

𝑖

𝑖

𝐾

𝑖= 1

Proprietà 2 di internalità o di Cauchy: data la variabilità statistica 𝑋 con supporto 𝑆 𝑋

risulta:

𝑋

𝑋

DIM :

Dati grezzi Distribuzione di frequenza

Variabili continue

questa dimostrazione vale anche per

le variabili raggruppate in classi

Proprietà 3 del baricentro: Definiamo scarto la variabile statistica 𝑇 = 𝑋 − 𝐸(𝑋). La proprietà del baricentro dice

che la media della variabile statistica 𝑇 (scarto) è uguale a zero: 𝐸(𝑇) = 𝐸[𝑋 − 𝐸

] = 0

DIM: dati grezzi. Avremo 𝑡 𝑖

𝑖

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

DIM: variabili continue.

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑋

+∞

−∞

𝑖

𝑖

𝑁 𝐺

𝑖= 1

𝑖

𝑁 𝐺

𝑖= 1

Proprietà 4: media di una trasformazione di dati. Sia 𝑇 una trasformazione dei dati (anche lo scarto lo è): 𝑇 =

𝑔(𝑋) dove 𝑔 è la funzione che trasforma i dati della variabile statistica 𝑋 nei dati della variabile statistica 𝑇. Vale

la proprietà:

Casi particolari:

→ Se 𝑇 = 𝑔(𝑋) = 𝑐 è una costante allora: 𝑬

= 𝒄, la media di una costante è la costante. DIM:

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑁

𝑖= 1

→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋, dove 𝑚 è una costante allora: 𝑬(𝑻) = 𝑬(𝒎𝑿) = 𝒎𝑬(𝑿). DIM:

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

= media di 𝑿

𝑋

+∞

−∞

𝑋

+∞

−∞

→ Se 𝑇 = 𝑔(𝑋) = 𝑚𝑋 + 𝑞, dove 𝑚,𝑞 costanti, allora 𝑬(𝑻) = 𝑬(𝒎𝑿 + 𝒒) = 𝒎𝑬(𝑿) + 𝒒. DIM:

𝑖

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

𝑖

𝑁

𝑖= 1

𝑁

𝑖= 1

Disuguaglianza di Jensen

Se “𝑔” è una funzione convessa allora:

𝐸[𝑔(𝑥)] ≥ 𝑔(𝐸(𝑥))

Se “𝑔” è una funzione concava allora:

𝐸[𝑔(𝑥)] ≤ 𝑔(𝐸(𝑥))

Abbiamo visto che se 𝑔 è lineare, cioé 𝑔(𝑥) = 𝑚𝑥 + 𝑞, allora la diseguaglianza diventa una eguaglianza:

𝐸[𝑔(𝑥)] = 𝑔(𝐸(𝑥))

Proprietà 5 associativa della media. La media del gruppo è uguale alla media aritmetica delle medie aritmetiche

dei singoli gruppi:

𝐺

= numero gruppi;

Proprietà 6 dei minimi quadrati. La media è il valore che minimizza la funzione che misura la media degli scarti

quadratici di 𝑋 da una costante 𝑐.

𝐸[(𝑋 − 𝜇)

2

] ≤ 𝐸[(𝑋 − 𝑐)

2

], 𝑐 ∈ 𝑅 cioè la media è la soluzione a min 𝑔(𝑐) = 𝐸[(𝑋 − 𝑐)

2

]

𝑋

(𝑠)

= [𝐸

𝑠

]

1 /𝑠

= [∑ 𝑥

𝑖

𝑠

𝑖

𝐾

𝑖= 1

]

1 /𝑠

𝑋

(𝑠)

= [𝐸(𝑋

𝑠

)]

1 /𝑠

= [

𝑖

𝑠

𝑁

𝑖= 1

]

1 /𝑠

media quadratica → 𝒔 = 𝟐

𝑋

( 2 )

= [∑ 𝑥

𝑖

2

𝑖

𝐾

𝑖= 1

]

1 / 2

𝑖

2

𝑖

𝐾

𝑖= 1

𝑋

( 2 )

= [

𝑖

2

𝑁

𝑖= 1

]

1 / 2

𝑖

2

𝑁

𝑖= 1

media armonica → 𝒔 = −𝟏

𝑋

(− 1 )

= [∑ 𝑥

𝑖

− 1

𝑖

𝐾

𝑖= 1

]

− 1

𝑖

𝑖

𝐾

𝑖= 1

1

1

2

2

𝐾

𝐾

𝑋

(− 1 )

= [

𝑖

− 1

𝑁

𝑖= 1

]

− 1

𝑖

𝑁

𝑖= 1

1

2

𝑁

media geometrica → 𝒔 = 𝟎

𝑋

( 0 )

1

𝑝

1

2

𝑝

2

3

𝑝

3

𝐾

𝑝

𝐾

𝑖

𝑝

𝑖

𝐾

𝑖= 1

𝑋

( 0

)

1

2

3

𝑁

𝑁

= [∏ 𝑥

𝑖

𝑁

𝑖= 1

]

1

𝑁

𝑋

( 0

)

𝑖

ln(𝑥

𝑖

𝐾

𝑖= 1

media ponderata

𝑋

1

1

2

2

3

3

1

2

3

𝑖

𝑖

𝐾

𝑖= 1

Proprietà :

Proprietà di Cauchy o dell’internalità

𝑚𝑖𝑛

𝑋

𝑋

(𝑠)

𝑋

𝑚𝑎𝑥

Proprietà di monotonia

Se 𝑠 < 𝑡 → 𝜇

𝑋

( 𝑠

)

𝑋

( 𝑡

)

Limiti

lim

𝑠→−∞

𝑋

(𝑠)

𝑚𝑖𝑛

lim

𝑠→+∞

𝑋

(𝑠)

𝑚𝑎𝑥

Media di Chisini

Dato un insieme di osservazioni numeriche 𝑥 1

2

3

𝑁

e una funzione 𝑔 degli elementi precedenti, definiamo

media degli 𝑁 elementi 𝑥 1

2

3

𝑁

quell’unico numero 𝑀, se esiste, tale che:

1

2

3

𝑁

Medie potenziate-Legame con operatore 𝑬(∙)

In sintesi, le medie potenziate di ordine 𝑠 sono ottenute come la potenza 1 /𝑠 della media aritmetica della

trasformazione 𝑇 = 𝑋

𝑠

Momenti di una distribuzione

Si definisce momento di ordine “𝑚” la media della potenza 𝑚-esima (𝑚 ∈ 𝑁) della variabile statistica 𝑋:

𝑚

𝑚

) con 𝑚 = 0 , 1 , 2 …

Per 𝑚 = 1 abbiamo la media aritmetica cioè 𝜇 = 𝜇 1

= 𝐸[𝑋] mentre per 𝑚 = 2 𝜇 = 𝜇

2

= 𝐸[𝑋

2

]

Se 𝑋 è una variabile statistica che assume valori positivi allora:

𝑚

= [𝜇

𝑋

(𝑚)

]

𝑚

𝑋

(𝑚)

𝑚

𝑚

𝑚

1 /𝑚

o Variabile statistica discreta assegnata attraverso

dati grezzi:

𝑚

𝑚

𝑖

𝑚

𝑁

𝑖= 1

o Variabile statistica discreta assegnata attraverso

distribuzione di frequenza:

𝑚

𝑚

𝑖

𝑚

𝑖

𝐾

𝑖= 1

o Variabile statistica continua raggruppata in

classi:

𝑚

𝑚

𝑚

𝑋

+∞

−∞

o Variabile statistica continua teorica (possono

anche non esistere):

𝑚

𝑚

𝑚

𝑋

+∞

−∞

Indici di variabilità

Range o campo di variazione : 𝑅 = 𝑠𝑢𝑝𝑆 𝑋

𝑋

Differenza interquartile: 𝐼𝑄 = 𝑄 3

1

con 𝑄

1

primo quartile: 𝑥

0 , 25

3

terzo quartile: 𝑥

0 , 75

Variabilità da un centro: scostamento medio da un polo (centro): 𝑆

𝑐

𝑋 discreta-Dati grezzi:

𝑖

𝑁

𝑖= 1

𝑋 discreta-Distribuzione di frequenza:

𝑖

𝐾

𝑖= 1

𝑖

𝑋 continua raggruppata in classi

𝑋

+∞

−∞

𝑋 continua teorica:

𝑋

+∞

−∞

Variabilità dalla media: scostamento semplice medio: 𝑆 𝜇

𝑋

𝑋

𝑋 discreta-Dati grezzi:

𝑋

𝑖

𝑋

𝑁

𝑖= 1

𝑋 discreta-Distribuzione di frequenza:

𝑋

𝑖

𝑋

𝐾

𝑖= 1

𝑖

𝑋 continua raggruppata in classi

𝑋

𝑋

𝑋

+∞

−∞

𝑋 continua teorica:

𝑋

𝑋

𝑋

+∞

−∞

Proprietà 4 omogeneità di grado due:

2

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 ha media 𝐸(𝑇) = 𝐸(𝑚𝑋) = 𝑚𝐸(𝑋) = 𝑚𝜇 dunque

2

2

2

2

2

2

2

Proprietà 5 invarianza e omogeneità di grado 2:

2

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑇 = 𝑚𝑋 + 𝑞 ha media 𝐸(𝑚𝑇 + 𝑞) = 𝑚𝐸(𝑋) + 𝑞 = 𝑚𝜇 + 𝑞.

Proprietà 6 varianza di una variabile degenere (costante):

DIM: Usiamo le proprietà dell’operatore 𝐸(∙) → 𝑆 𝑋

= {𝑐}, Per le proprietà dell’operatore media 𝐸(𝑐) = 𝑐, quindi

la variabile statistica 𝑇 = (𝑋 − 𝜇)

2

2

= 0 è degenere e vale sempre zero: 𝑉(𝑋) = 𝐸(𝑇) = 0

Diseguaglianza di Chebyshev

Sia data la variabile 𝑋 con media e varianza 𝜎

2

. Risulta:

2

2

DIM:

entrambi gli addendi sono positivi

2

2

2

2

2

2

Proprietà:

DIM: 𝑃(|𝑋 − 𝜇| < 𝑐) + 𝑃(|𝑋 − 𝜇| ≥ 𝑐) = 1 da cui 𝑃(|𝑋 − 𝜇| < 𝑐) = 1 − 𝑃(|𝑋 − 𝜇| ≥ 𝑐), poiché:

allora

Altro modo di rappresentarla:

2

2

2

2

2

2

2

2

2

𝑖

2

𝐾

𝑖= 1

𝑖

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|<𝑐

2

𝑖

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

2

𝑖

|𝑥

𝑖

−𝜇|≥𝑐

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

Ricordando che 𝑉(𝑋) = 𝜎

2

𝑋

2

) e siano 𝑐 > 0 e 𝛽 ∈ 𝑅 allora:

2

2

Variabili Statistiche Bivariate

La cardinalità del supporto di 𝑋 lo indichiamo con 𝑟 (righe), e con 𝑐 (colonne) la cardinalità del supporto di 𝑌

Frequenza assoluta congiunta: 𝑛 𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

→ La somma di tutte le frequenze assolute congiunte è

uguale all’ampiezza della popolazione 𝑁.

Osserviamo che: 0 < 𝑛 𝑋,𝑌

𝑖

𝑗

Le coppie (𝑥 𝑖

𝑖 0

), 𝑖 = 1 , 2 , … , 𝑟 frequenze marginali di 𝑋

Le coppie (𝑦 𝑗

0 𝑗

), 𝑗 = 1 , 2 , … , 𝑐 frequenze marginali di 𝑌

Definiamo frequenze assolute marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:

𝑋 0

𝑖

𝑖 0

𝑖,𝑗

𝑐

𝑗= 1

0Y

𝑗

0 𝑗

𝑖,𝑗

𝑟

𝑖= 1

Entrambi soddisfano la condizione di normalizzazione:

Frequenza relativa congiunta: 𝑝 𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

cioè

𝑋,𝑌

𝑖

𝑗

𝑋,𝑌

𝑖

𝑗

𝑖,𝑗

𝑋,𝑌

𝑖

𝑗

Definiamo le frequenze relative marginali della variabile statistica bivariata (𝑋, 𝑌) le frequenze definite da:

𝑋 0

𝑖

𝑖 0

𝑖,𝑗

𝑐

𝑗= 1

0Y

𝑗

0 𝑗

𝑖,𝑗

𝑟

𝑖= 1

Entrambi le frequenze marginali soddisfano la condizione di normalizzazione.

Condizione di normalizzazione:

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

Analisi della dipendenza della variabile statistica bivariata (𝑋, 𝑌):

o Dipendenza di 𝑌 da 𝑋. La frequenza condizionata di 𝑌 da 𝑋 e si indica 𝑝 𝑌|𝑋

definita da:

𝑌|𝑋=𝑥

𝑖

𝑗

𝑗|𝑖

𝑖,𝑗

𝑖 0

𝑖,𝑗

𝑖 0

𝑖,𝑗

𝑖 0

o Dipendenza di 𝑋 da 𝑌.

𝑋|𝑌=𝑦 𝑗

𝑖

𝑖|𝑗

𝑖,𝑗

0j

𝑖,𝑗

0j

𝑖,𝑗

0j

0 𝑗

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

0 𝑗

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

L’indice 𝜒

2

è uguale a zero se le variabili 𝑋 e 𝑌 sono assolutamente indipendenti. In questo caso:

𝑖,𝑗

𝑖 0

0j

Il massimo valore di 𝜒

2

è 𝑁 𝑚𝑖𝑛 {𝑟 − 1 , 𝑐 − 1 } quindi 𝜒

2

soddisfa 0 ≤ 𝜒

2

≤ 𝑁 min{𝑟 − 1 , 𝑐 − 1 }

Raggiunge il suo massimo valore in caso di dipendenza perfetta , ovvero quando per un valore fissato di una

variabile esiste un solo valore dell’altra variabile. A differenza dell’indipendenza non vale la reciprocità quindi

𝑌 dipende perfettamente da 𝑋 se ad ogni modalità di 𝑋 corrisponde una sola modalità di 𝑌 e viceversa, ma non

possono contemporaneamente dipendere perfettamente l’una dall’altra, al contrario, nel caso dell’indipendenza

se 𝑋 è indipendente da 𝑌 allora anche 𝑌 è indipendente da 𝑋

Poiché l’indice 𝜒

2

si può calcolare solo conoscendo l’ampiezza del campione si introduce un nuovo indice che è

detto phi-quadro:

2

2

2

≤ min{𝑟 − 1 , 𝑐 − 1 }

Indice 𝑽 di Cramer:

2

2

min{𝑟 − 1 , 𝑐 − 1 }

2

𝑁 min{𝑟 − 1 , 𝑐 − 1 }

2

𝑁 min{𝑟 − 1 , 𝑐 − 1 }

Media, varianza e covarianza di una variabile doppia

Per calcolare la media di 𝑋 usiamo tutte le frequenze congiunte. Questo equivale a calcolare la media marginale

di 𝑋.

𝑋

𝑖

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖

𝑟

𝑖= 1

𝑖 0

𝑌

𝑗

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑖

𝑐

𝑗= 1

𝑖,𝑗

𝑟

𝑖= 1

𝑖

𝑐

𝑗= 1

0 𝑗

𝑖 0

0 𝑗

Varianza :

𝑋

2

𝑖

𝑋

2

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

2

𝑟

𝑖= 1

𝑖,𝑗

𝑐

𝑗= 1

𝑖

𝑋

2

𝑟

𝑖= 1

𝑖 0

𝑌

2

𝑗

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

2

𝑐

𝑗= 1

𝑖,𝑗

𝑟

𝑖= 1

𝑗

𝑌

2

𝑐

𝑗= 1

0 𝑗

Covarianza : La covarianza misura il comovimento delle variabili nel piano 𝑋 𝑌.

𝑋𝑌

𝑋

𝑌

𝑖

𝑋

𝑗

𝑌

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

Proprietà 1 :

𝑋𝑌

𝑋

𝑌

DIM: 𝜎

𝑋𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

Proprietà 2:

Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora la covarianza è

uguale a zero: 𝜎 𝑋𝑌

𝑋

𝑌

DIM: assoluta indipendenza → 𝑝 𝑖,𝑗

𝑖 0

0j

𝑋𝑌

𝑖

𝑋

𝑗

𝑌

𝑖,𝑗

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

𝑗

𝑌

𝑖 0

0j

𝑐

𝑗= 1

𝑟

𝑖= 1

𝑖

𝑋

𝑟

𝑖= 1

𝑖 0

𝑗

𝑌

0j

𝑐

𝑗= 1

Proprietà 3:

Sia (𝑋, 𝑌) una variabile doppia con 𝑋 e 𝑌 quantitative ed assolutamente indipendenti allora: 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌)

DIM : abbiamo che 𝜎 𝑋𝑌

𝑋

𝑌

𝐸(𝑌). Essendo indipendenti 𝜎

𝑋𝑌

= 0 , quindi:

Proprietà 4:

DIM : ricordiamo che 𝐸(𝑎𝑋) = 𝑎𝐸(𝑋) = 𝑎𝜇 𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

𝑋

𝑌

Proprietà 5:

DIM : ricordiamo che 𝐸

𝑋

𝑋

𝑌

𝑋

𝑌

Proprietà 6: Sia (𝑋, 𝑌) una variabile doppia allora se 𝑇 = 𝑎𝑋 + 𝑏𝑌 risulta:

2

2

DIM : ricordiamo che 𝑉

𝑇

2

𝑋

𝑌

𝑉(𝑇) = 𝑉(𝑎𝑋 + 𝑏𝑌) = 𝐸 [((𝑎𝑋 + 𝑏𝑌) − (𝑎𝜇

𝑋

𝑌

2

] = 𝐸 [((𝑎𝑋 − 𝑎𝜇

𝑋

𝑌

2

]

= 𝐸 [(𝑎

𝑋

𝑌

2

] = 𝐸

[

2

𝑋

2

2

𝑌

2

𝑋

𝑌

)]

2

𝐸[(𝑋 − 𝜇

𝑋

2

] + 𝑏

2

𝐸[(𝑌 − 𝜇

𝑌

2

] + 2 𝑎𝑏𝐸[(𝑋 − 𝜇

𝑋

𝑌

)] = 𝑎

2

2

Se 𝑇 = 𝑎𝑋 − 𝑏𝑌 risulta: 𝑉(𝑇) = 𝑉(𝑎𝑋 + 𝑏𝑌) = 𝑎

2

2

Proprietà 7:

La covarianza soddisfa 𝜎 𝑋𝑌

2

𝑋

2

𝑌

2

DIM : Consideriamo la trasformata delle variabili 𝑋 e 𝑌 definita da: 𝑇 = 𝜎 𝑌

2

𝑋𝑌

𝑌 e calcoliamo la varianza di 𝑇

usando le regole dell’operatore varianza:

𝑌

2

𝑋𝑌

𝑌

4

𝑋𝑌

2

𝑋𝑌

𝑌

2

𝐶𝑜𝑣(𝑋, 𝑌) ricordiamo che: 𝑉

𝑋

2

𝑌

2

𝑌

4

𝑋

2

𝑋𝑌

2

𝑌

2

𝑋𝑌

2

𝑌

2

𝑌

4

𝑋

2

𝑋𝑌

2

𝑌

2

𝑌

2

𝑌

2

𝑋

2

𝑋𝑌

2

) poiché 𝜎

𝑌

2

è positiva se Y non è degenere

(ovvero costante) allora vale la relazione 0 ≤ (𝜎

𝑌

2

𝑋

2

𝑋𝑌

2

𝑋𝑌

2

𝑋

2

𝑌

2

Decomposizione varianza:

𝑌

2

𝑗

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

𝑖

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

= ∑ ∑ [(𝑦

𝑗

𝑌

𝑖

2

𝑌

𝑖

𝑌

2

𝑌

𝑖

𝑌

𝑗

𝑌

𝑖

)] 𝑝

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑗

𝑌

𝑖

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

𝑗

𝑌

𝑖

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

questo perché:

𝑗

𝑌

𝑖

𝑖,𝑗

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖,𝑗

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑖

𝑌

2

𝑖 0

𝑟

𝑖= 1

𝑌

𝑌

2

𝑗

𝑌

𝑖

2 𝑝

𝑖,𝑗

𝑖 0

𝑖 0

𝑟

𝑖= 1

𝑐

𝑗= 1

𝑌

𝑗

𝑌

𝑖

2

𝑗|𝑖

𝑖 0

𝑟

𝑖= 1

𝑌

𝑐

𝑗= 1

𝑖 0

𝑟

𝑖= 1

𝑌

2

𝑌

𝑌

2

𝑌

𝑌

2

Funzione di regressione lineare : 𝑔(𝑥) = 𝑚𝑥 + 𝑞

Ricordiamo che vale la seguente uguaglianza: 𝐸 ((𝑌 − 𝑔(𝑋))

2

𝑌

2

𝑌

2

Quindi otteniamo: 𝐸 ((𝑌 −

2

𝑌

2

𝑌

2

La funzione di regressione lineare (o interpolante lineare) si ottiene risolvendo il problema dei minimi quadrati :

min⏟

𝑚,𝑞

𝑌

2

Dunque, cerchiamo il minimo della seguente funzione di due variabili 𝑚, 𝑞 definita da:

𝑌

2

𝑌

𝑖

2

𝑖 0

𝑟

𝑖= 1

Dobbiamo derivare rispetto a 𝑚 e 𝑞 e porre le derivate uguali a 0 a sistema.

𝑌

2

𝑖 0

𝑟

𝑖= 1

𝑌

2

𝑖

2

𝑌

𝑖

2

𝑖 0

𝑟

𝑖= 1

Derivo rispetto a 𝑚 e 𝑞:

𝑖

2

𝑖

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖

2

𝑖 0

𝑟

𝑖= 1

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

2

𝑋

2

𝑋

2

𝑋

𝑋𝑌

𝑋

𝑌

𝑖

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑖 0

𝑟

𝑖= 1

𝑖

𝑖 0

𝑟

𝑖= 1

𝑌

𝑖

𝑖 0

𝑟

𝑖= 1

𝑋

𝑌

2

𝑖

2

2

𝑖

Le metto a sistema entrambe uguali a 0: {

𝑋

2

𝑋

2

𝑋

𝑋𝑌

𝑋

𝑌

𝑋

𝑌

risolvendo ottengo

𝑋𝑌

𝑋

2

𝑌

𝑋

𝑋

𝑌

𝑋

𝑌

2

𝑋𝑌

𝑋

2

2

𝑋

2

𝑋𝑌

2

𝑋

2

L’indice di bontà di adattamento della retta alla nuvola di punti osservati è l’indice di determinazione :

2

𝑋𝑌

2

𝑋

2

𝑌

2

𝑋𝑌

2

Indice di dipendenza funzionale :

𝑌|𝑋

2

𝑌

𝑌|𝑋

2

𝑌

𝑌

2

Con 𝜂 𝑌|𝑋

2

= 0 e 𝜌

𝑋𝑌

2

= 0 allora Y è regressivamente indipendente da X 𝑉(𝜇

𝑌

𝑌

Con 𝜂 𝑌|𝑋

2

= 1 allora 𝑉(𝜇

𝑌

Attenzione: se X e Y sono assolutamente indipendenti allora sono anche regressivamente indipendenti (cioè

indipendenti in media), ma non è detto che valga il contrario, posso avere Y indipendente in media da X e X e Y

non assolutamente indipendenti

𝑋𝑌

2

𝑌|𝑋

2

𝑌|𝑋

2

𝑋𝑌

2

𝑌|𝑋

2

𝑋𝑌

2

Probabilità

o Intersezione di Eventi: 𝐴 ∩ 𝐵 è l’insieme di tutti gli eventi elementari in 𝑆 che appartengono sia ad 𝐴 che a 𝐵

o Unione di Eventi: 𝐴 ∪ 𝐵 è l’insieme di tutti gli eventi elementari di 𝛺 che appartengono ad 𝐴 oppure a 𝐵

o Gli eventi 𝐸 1

2

3

𝐾

sono collettivamente esaustivi se 𝐸

1

2

3

𝐾

o Evento complementare (𝐴

) di un evento 𝐴 è l’insieme di tutti gli eventi elementari nello spazio campionario

che non appartengono ad 𝐴.

o Eventi incompatibili: se l’intersezione, 𝐴 ∩ 𝐵, è l’evento impossibile. Cioè 𝐴 ∩ 𝐵 = ∅

o Gli eventi 𝐴 1

2

3

𝐾

sono una partizione di 𝛺 se sono: Collettivamente Esaustivi e Incompatibili

(mutuamente esclusivi), 𝐴

1

2

3

𝐾

𝑖

𝑗

= ∅ e 𝐴

𝑖

Valutazione probabilità:

Probabilità classica (Laplace)

𝐴

numero di eventi elementari che soddisfano la condizione dell′evento

numero complessivo di eventi elementari dello spazio campionario

Interpretazione frequentista

𝐴

numero di eventi nella popolazione che soddisfano l

′

evento A

numero complessivo di eventi nella popolazione

Osserviamo anche che 𝐴 ∪ 𝐵 = 𝐴 ∪

∩ 𝐵) sono incompatibili.

Scomposizione in due insiemi disgiunti per applicare l’assioma (c), che adesso applico:

Sottraggo alla seconda riga la prima

∩ 𝐵) − [𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴

∩ 𝐵)]

Probabilità condizionata

La probabilità condizionata è la probabilità di

un evento, dato che l’altro evento si è verificato:

Avremo che 𝑃(𝐴 ∩ 𝐵) corrisponde alla

frequenza relativa congiunta mentre 𝑃 (𝐴) e

𝑃(𝐵) corrispondono alle frequenze marginali

dell’evento condizionante.

Teorema delle probabilità composte:

Regola moltiplicativa per due eventi 𝐴 e 𝐵: se 𝑃

se 𝑃(𝐴) > 0 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

DIM:

Ricavando 𝑃 (𝐴 ∩ 𝐵) dalle equazioni sopra otteniamo immediatamente la tesi. Infatti:

Indipendenza statistica: Due eventi sono statisticamente indipendenti (o indipendenti) se e solo se:

Teorema: Se A e B sono indipendenti, allora se 𝑃(𝐵) > 0 𝑃(𝐴|𝐵) = 𝑃(𝐴) se 𝑃(𝐴) > 0 𝑃(𝐵| 𝐴) = 𝑃(𝐵)

DIM:

Indipendenza di tre eventi 𝐴, 𝐵, 𝐶 ∈ ∁ spazio degli eventi. Tre eventi si dicono indipendenti se:

o 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵)

o 𝑃(𝐴 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐶)

o 𝑃(𝐵 ∩ 𝐶) = 𝑃(𝐵)𝑃(𝐶)

o 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) = 𝑃(𝐴)𝑃(𝐵)𝑃(𝐶)

Probabilità Bivariate-Congiunte-Marginali

La probabilità di un evento congiunto, 𝐴 ∩ 𝐵 si può calcolare in modo classico:

numero di eventi semplici che soddisfano A e B

numero complessivo di eventi elementari

Calcolo di una probabilità marginale utilizzando le congiunte:

1

2

𝐾

Dove 𝐵 1

2

𝐾

sono 𝐾 eventi mutuamente esclusivi (incompatibili) e collettivamente esaustivi.

Teorema di Bayes:

𝑖

𝑖

𝑖

𝑖

𝑖

1

1

2

2

𝐾

𝐾

Dove 𝐵 𝑖

evento di 𝐾 eventi mutuamente esclusivi e collettivamente esaustivi cioè 𝐵

1

2

𝐾

sono una collezione

di eventi che costituiscono una partizione di 𝛺 mentre 𝐴 è un nuovo evento che può avere un impatto su 𝑃(𝐵 𝑖

DIM:

𝑖

𝑖

𝑖

𝑖

1

2

𝐾

1

2

𝐾

Per il teorema delle probabilità composte: 𝑃

𝑖

𝑖

𝑖

Sostituendo: 𝑃(𝐴) = 𝑃(𝐴|𝐵 1

1

2

2

𝐾

𝐾

Regola del prodotto: Quando vogliamo calcolare la probabilità di un evento congiunto (𝐴 intersecato 𝐵,

l’intersezione di due eventi) in generale questo calcolo comporta un prodotto perché potremmo avere che alla

prima estrazione esca 𝐴, e che alla seconda esca 𝐵 condizionato al fatto che prima, appunto, sia uscito 𝐴.

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴) Oppure che si verifichi 𝐵 e poi il verificarsi di 𝐴 dato 𝐵 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴|𝐵)

Siano dati 𝐾 eventi 𝐴 1

2

𝐾

tutti possibili 𝑃(𝐴

1

) > 0 allora:

o Se gli eventi sono indipendenti: 𝑃

1

2

𝐾

1

2

𝐾

o Se gli eventi non sono indipendenti: 𝑃(𝐴 1

2

𝐾

1

2

1

2

1

2

𝐾

1

2

𝐾− 1

Variabili casuali (aleatoria, random, stocastica)

1

2

𝑛

} spazio campionario

𝑖

) variabile aleatoria → 𝑋(𝑢

𝑖

) variabile statistica

𝑝(𝑋 = 𝑥) probabilità di 𝑋 = 𝑥 → 𝑝(𝑋 = 𝑥) frequenza relativa

Distribuzione di Probabilità per variabili casuali discrete. Proprietà Necessarie

𝑝(𝑥) ≥ 0 per ogni valore di 𝑥

Le singole probabilità sommano a 1: ∑ 𝑝

𝑥