Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Scale di Misura, Frequenze e Variabilità - Prof. Mecatti, Dispense di Statistica

appunti delle lezioni di statistica scritti in maniera dettagliata e completa

Tipologia: Dispense

2018/2019

Caricato il 23/05/2022

Sofiaminelli2
Sofiaminelli2 🇮🇹

4.6

(28)

4 documenti

1 / 12

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
DESCRITTIVA MONOVARIATA
Scala di mobilità (sdM)
È l’insieme di tutte le manifestazioni/modalità x di X (su U).
Deve rispettare due principi:
esaustività=deve prevedere tutte le possibili manifestazioni di X
mutua esclusività=deve prevedere solo modalità che si escludono a vicenda
Le scale possono essere:
qualitativele modalità sono attributi/categorie; si dividono in:
ordinali, se le modalità possono essere ordinate
sconnesse, se le modalità non possono essere ordinate
quantitativale modalità sono quantità/numeri; si dividono in:
rapporto, quando l’origine è uno 0 assoluto
non rapporto, quando l’origine è scelta con un criterio
Fenomeni statistici (X)
Sono fenomeni che si presentano con più manifestazioni/modalità.
Possono essere:
qualitativisi manifestano attraverso attributi/categorie; si dividono in:
ordinali, se si rilevano con le sdM ordinali
categoriali/sconnesse, se si rilevano con le sdM sconnesse
quantitativisi manifestano attraverso quantità/numeri; possono essere:
discreti, se si rilevano con conteggio o enumerazione
continui, se si rilevano con misurazioni
Esempio di fenomeno statistico qualitativo: titolo di studio, genere, squadra di calcio preferita.
Esempio di fenomeno statistico quantitativo: numero di accessi ad un sito internet, numero di esami
sostenuti.
Distribuzione di frequenza
Frequenze assolute (fi)numero di unità statistiche che, tra le N osservate, manifestano una modalità xi di
X. L’insieme delle frequenze assolute è detto distribuzione di frequenze assolute.
Non sono né confrontabili né valutabili.
Frequenze relative (pi)rapporto tra fi e N (numerosità): pi=
fi
N
Sono confrontabili, e sono rilevabili le relative percentuali facendo pi
100
Frequenze cumulate assolute Fi=
j=1
i
fi
relative
Φ
i=
j=1
i
pi
Proprietà:
le frequenze cumulate assolute sono numeri interi compresi tra 0 e N, le
frequenze cumulate relative tra 0 e 1
c’è una corrispondenza biunivoca tra le frequenze assolute/relative e le
corrispondenti frequenze cumulate, nel senso che, data una distribuzione, è
possibile passare all’altra e viceversa
Istogramma
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Scale di Misura, Frequenze e Variabilità - Prof. Mecatti e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

DESCRITTIVA MONOVARIATA

Scala di mobilità (sdM)

È l’insieme di tutte le manifestazioni/modalità x di X (su U).

Deve rispettare due principi:

 esaustività=deve prevedere tutte le possibili manifestazioni di X

 mutua esclusività=deve prevedere solo modalità che si escludono a vicenda

Le scale possono essere:

 qualitativele modalità sono attributi/categorie; si dividono in:

 ordinali, se le modalità possono essere ordinate

 sconnesse, se le modalità non possono essere ordinate

 quantitativale modalità sono quantità/numeri; si dividono in:

 rapporto, quando l’origine è uno 0 assoluto

 non rapporto, quando l’origine è scelta con un criterio

Fenomeni statistici (X)

Sono fenomeni che si presentano con più manifestazioni/modalità.

Possono essere:

 qualitativisi manifestano attraverso attributi/categorie; si dividono in:

 ordinali, se si rilevano con le sdM ordinali

 categoriali/sconnesse, se si rilevano con le sdM sconnesse

 quantitativisi manifestano attraverso quantità/numeri; possono essere:

 discreti, se si rilevano con conteggio o enumerazione

 continui, se si rilevano con misurazioni

Esempio di fenomeno statistico qualitativo: titolo di studio, genere, squadra di calcio preferita.

Esempio di fenomeno statistico quantitativo: numero di accessi ad un sito internet, numero di esami

sostenuti.

Distribuzione di frequenza

Frequenze assolute (f i

)numero di unità statistiche che, tra le N osservate, manifestano una modalità x i

di

X. L’insieme delle frequenze assolute è detto distribuzione di frequenze assolute.

Non sono né confrontabili né valutabili.

Frequenze relative (p i

)rapporto tra f i

e N (numerosità): p i

=

f

i

N

Sono confrontabili, e sono rilevabili le relative percentuali facendo p

i

Frequenze cumulate assolute F i

=

j= 1

i

f

i

relative Φ i

=

j= 1

i

p

i

Proprietà:

 le frequenze cumulate assolute sono numeri interi compresi tra 0 e N, le

frequenze cumulate relative tra 0 e 1

 c’è una corrispondenza biunivoca tra le frequenze assolute/relative e le

corrispondenti frequenze cumulate, nel senso che, data una distribuzione, è

possibile passare all’altra e viceversa

Istogramma

Se vogliamo rappresentare le frequenze relative, poniamo sulle ascisse gli intervalli x i

:x l

˫x L

e sulle ordinate le

densità di frequenze relative

φ

N

, ovvero

f

i

x

L

−x

l

; verrà così fuori un istogramma, un diagramma a

rettangoli accostati.

L’area totale sottesa agli istogrammi è:

 pari a N se si rappresentano le frequenze assolute (φ sulle ordinate)

 pari a 1 se si rappresentano le frequenze relative (

φ

N

sulle ordinate)

Gli istogrammi possono essere usati anche per le frequenze cumulate, quando il fenomeno è quantitativo

continuo.

Moda (x 0

)

È la modalità con la frequenza più elevata, ovvero la modalità più osservata tra le k osservate. È

individuabile “ad occhio”. Nel caso di intervalli modali (o classi) x 0

è associata al valore centrale

dell’intervallo.

Mediana (x 0,

)

È la modalità di X che occupa, nell’ordinamento, la posizione centrale. È calcolabile solo se le modalità sono

o possono essere ordinate.

Divide U in due gruppi ugualix i

0,5 e x i

0,

Se X è continuo, le modalità sono intervalli. In questo caso, il calcolo sarà:

x 0,

= x l

+(

N

  • f i - 1

)

x

L

−x

l

f

i

= x l

i - 1

)

x

L

−x

l

p

i

Media (x)

Media aritmeticax=¿

somma numerica

tot numeri

=

N

i= 1

k

x

i

Media ponderata x=

N

i= 1

k

x

i

f

i

=

i= 1

k

x

i

p

i

Proprietà:

 è calcolabile per qualunque fenomeno X quantitativo

 è espressa nella stessa unità di misura con cui X si manifesta su U

 ci da un’informazione sintetica dell’ordine di grandezza di X su U

In genere, se X è continuo e le modalità sono intervallari, x sarà uguale al valore centrale:

x=

N

i= 1

k

x

i

¿

f

i

dove

x

i

¿

=

x

l

+x

L

Quale scegliere tra media, moda e mediana?

Ci sono casi in cui tutti e tre coincidono o sono molto “vicini” tra loro, ci sono invece casi in cui la media non

basta, e conviene costruire più valori medi (per esempio quando la vs è complessa).

È buona regola calcolare almeno moda e mediana.

La media non sempre prende in considerazione la realtà.

Proprietà associativa della media

La media aritmetica è associativa, ovvero è sempre raggiungibile dai dati aggregati, basta calcolare la media

delle medie delle sottopopolazioni:

x=

N

j= 1

h

x

j

N

j

Normalizzazione di σ è un indice di variabilità che si calcola facendo

σ

σ

max

Numero indice

È il rapporto tra due modalità x t

rilevate in due diversi istanti temporali.

Possono essere:

 a base fissa=si sceglie una base da porre al denominatore, che è fissa

x

t

x

1

 a base mobile=rapporto tra x t

e la modalità osservata all’istante precedente x t-

; la base cambia

x

t

x

t − 1

con t=2,…,t

Variazione percentuale (v)

Calcolando quello che manca a NI per raggiungere 100 (stabilità temporale), ottengo informazioni

percentuali sulla variazione temporale di X.

Variazione percentuale rispetto all’anno-base v=(NI a base fissa – 100)

Variazione percentuale annua v=(NI a base mobile – 100)

Tasso di variazione medio annuo (v ¿percentuale con cui X è mediamente variato di anno in anno lungo

tutto il periodo della serie:

v=

T − 1

x

t

x

1

⋅ 100 =[

x

t

x

1

1

T− 1

− 1 ] ⋅ 100

x

t

x

1

è la variazione totale del periodo, che il tasso di variazione medio annuo mantiene invariata.

DESCRITTIVA BIVARIATA

Rilevazione congiunta di una coppia di fenomeni e tabella a doppia entrata

X e Y sono osservati congiuntamente (insieme) su ciascuna delle N unità che compongono la popolazione di

interesse U. il risultato, ora, è una matrice dei dati grezzi.

Per partire con l’analisi statistica bivariata, il risultato della rilevazione congiunta viene organizzato in una

tabella a doppia entrata, che struttura quindi i dati grezzi, organizza i casi osservati e dà le prime indicazioni

sull’eventuale relazione fra i due fenomeni.

Esempio di tabella a doppia entrata

Frequenze marginali e frequenze condizionate

Frequenze marginaliriguardano i fenomeni X e Y considerati singolarmente e separatamente.

Frequenze marginali di X si indicano con f i.

j= 1

h

f

ij

Frequenze marginali di Y si indicano con f

.j

i= 1

k

f

ij

Frequenze marginali relative di X

f

i.

N

con somma unitaria

Frequenze marginali relative di Y

f

. j

N

con somma unitaria

Frequenze condizionate sono le classiche percentuali di riga e colonna; informano sul comportamento di

un fenomeno condizionatamente all’altro.

Frequenze condizionate di Y│x i

f

ij

f

i.

(% di riga)

Frequenze condizionate di X│y j

f

ij

f

. j

(% di colonna)

Indipendenza statistica

C’è indipendenza statistica se tra X e Y non esiste alcuna relazione statistica.

Per stabilire se X e Y sono indipendenti occorre confrontare le frequenze condizionate con quelle marginali.

Il confronto è possibile solo per le frequenze relative (

f

i.

N

e

f

. j

N

).

La condizione di indipendenza statistica, allora, è

f

ij

f

i.

=

f

. j

N

Con la formula della condizione di indipendenza si ottengono le frequenze teoriche di indipendenza

statistica, frequenze congiunte che rendono vera l’indipendenza.

Il concetto di indipendenza statistica è simmetrico.

f

ij

*=

f

i.

f

. j

N

Connessione e indice di connessione ( χ

2

Se X e Y non sono indipendenti, sono connessi: la connessione è una relazione generica rilevabile in una

coppia di fenomeni osservati.

Per stabilire se la relazione rilevata tra X e Y è forte o debole bisogna misurare il grado di connessione:

|

f

ij

−f

ij

¿

|

dove f ij

è la “tabella osservata” e f ij

  • è la “tabella teorica di indipendenza”. Il calcolo è tra le barre perché

non ci interessa il segno.

Indice di connessione χ

2

i= 1

k

j = 1

h

(f

ij

−f

ij

¿

2

f

ij

¿

Quando più grandi sono le differenze tra f ij

e f ij

  • maggiore sarà il valore dell’indice di connessione.

Dimostrazione che il valore massimo di χ

2

N:min{k-1, h-

1}:

Varianza condizionata di Y (dato x i

) σ

y

2

|

x

i

j= 1

h

( y

j

− y

x

i

2

f

ij

f

i.

Varianza condizionata di X (dato y j

) σ

x

2

|

y

j

i= 1

k

(x

i

−x

y

j

2

f

ij

f

. j

Diagramma a dispersione (scatter plot)

È un grafico utile per visualizzare la relazione esistente tra X e Y quantitativi.

È un diagramma cartesiano.

Se c’è una relazione, i punti saranno disposti secondo una qualche struttura; se non c’è una relazione, i

punti saranno sparpagliati per il piano senza alcuna struttura.

Se k=h=N abbiamo un diagramma a serie doppia.

Per costruire un diagramma a dispersione si deve mettere x i

sulle ascisse e y j

sulle ordinate.

Covarianza (

σ

xy

È una misura di variabilità congiunta:

σ

xy

N

i= 1

k

j= 1

h

(x

i

−x )( y

j

− y)f

ij

oppure:

σ

xy

xy

−x y

dove

μ

xy

è un “momento misto”, una sorta di media bivariata, che si trova facendo:

μ

xy

N

i= 1

k

j= 1

h

x

i

y

j

f

ij

Se

σ

xy

0  Se

σ

xy

<0  Se

σ

xy

=0 

Correlazione e coefficiente di correlazione lineare (ρ)

Correlazione relazione statistica lineare tra X e Y:

 se

σ

xy

0, X e Y sono positivamente correlati

 se

σ

xy

<0, X e Y sono negativamente correlati

 se

σ

xy

=0, X e Y sono incorrelati (non esiste alcuna relazione lineare tra X e Y)

coefficiente di correlazione lineare (

ρ )misura il grado della correlazione, dicendo se è forte o debole:

ρ

xy

σ

xy

σ

x

σ

y

ρ

xy

assume valori tra -1 e +1:

 se

ρ

xy

 perfetta correlazione negativa

 se

ρ

xy

 perfetta correlazione positiva

 se

ρ

xy

 incorrelazione

Modello statistico

È una formula che interpreta il comportamento congiunto di X e Y.

È una curva matematica che ha l’obiettivo di cogliere il trend di X e Y e semplificare la realtà.

Modello di regressioneinterpreta la dipendenza di Y da X; è una formula da applicare a X per

approssimare Y:

^

Y =f ( x )

Spezzata di regressionecurva empirica basata sui dati osservati; è irregolare e spigolosa.

Minimi quadrati

Retta di regressione

^

Y =a+bx

(modello di regressione adatto a interpretare la correlazione)

Metodo dei minimi quadrati esprime in formula la distanza tra dati osservati e retta d regressione;

assegna ai parametri del modello il valore che rende minima tale distanza:

b=

σ

xy

σ

x

2

a= y−b x

Sostituendo i risultati di “b” e “a” nella retta di regressione ottengo la retta dei minimi quadrati, che rende

minima la distanza totale tra dati osservati e modello.

Se b>0  retta crescente

Se b<0  retta decrescente

N.B. “a” è l’intercetta, “b” è il coefficiente angolare.

Devianza residua (DR) e devianza spiegata (DS)

Devianza residuamisura assoluta non valutabile; distanza totale tra valori osservati e retta:

DR=

i= 1

k

h = 1

h

( y

j

− y

i

2

f

ij

DR=0 quando X e Y sono perfettamente correlati; in tutti gli altri casi c’è un residuo.

Devianza spiegata DS= ∑

i= 1

k

(^y

i

− y)

2

f

i

Se la devianza totale (DT) si trova facendo DS+DR:

 devianza residua della retta dei minimi quadrati DR=DT ( 1 −ρ

xy

2

 devianza spiegata della retta dei minimi quadrati DS=DT ρ

xy

2

N.B. Le prime due formule di DR e DS sono quelle della bontà di adattamento.

Dimostrazione che la misura della bontà di adattamento della retta di regressione dei minimi quadrati è ρ

2

:

 calcolare DR e DS

 normalizzare

DS

DT

DT ρ

xy

2

DT

xy

2

Se ρ

xy

2

= 0 , X e Y sono incorrelati.

Se ρ

xy

2

, X e Y sono perfettamente correlati.

INFERENZA

Probabilità classica e probabilità frequentista

Probabilità classica P(E) è il rapporto tra il numero dei casi favorevoli ad E e il numero di tutti i casi

possibili. L’insieme dei casi (Ω)deve essere finito e simmetrico.

Il campionamento (o indagine campionaria), quindi, è la scelta casuale del campione di n unità statistiche

fra le N che compongono l’intera U; restituisce una stima al quale è associato un certo grado di incertezza.

Inferenza statistica

L’inferenza statistica offre metodi per risolvere due grandi classi di problemi:

 la stima dei parametri

 la verifica di ipotesi statistiche

Variabilità campionaria ed errore campionario

Variabilità campionaria  esprime il fatto che i campioni estraibili di U possono darci un’immagine più o

meno fedele di U.

Errore campionario esprime il fatto che l’inferenza statistica comporta sempre incertezza e rischio di

errore. È controllato e misurato con le probabilità.

Campione bernoulliano

Campione bernoulliano  risultano di n estrazioni casuale da U condotte tutte nelle stesse condizioni. Le

unità sono estratte a caso una per volta, e:

 se si escludono le unità già estratte = estrazione senza ripetizione

 se non si escludono le unità già estratte = estrazione con ripetizione

Formalizzazione della variabilità campionaria

Formalizzare significa tradurre in formule.

Quando si dispone solo di dati campionari, la distribuzione del fenomeno U e i valori reali sono ignoti e li

chiameremo “parametri”.

I parametri ignoti sono l’oggetto dell’inferenza statistica:

 E ( X ) =μ

V

X

2

Stima e stimatore (puntuale)

Stima puntuale  stima dei parametri ignoti con un unico valore. È una qualche funzione dei dati

campionari x 1

… x i

… x n

.

Stimatore stessa funzione che definisce la stima, ma applicata alle v.c. estrazioni campionarie x 1

… x i

… x n

.

Se la stima è un numero, lo stimatore è una variabile casuale.

Una delle proprietà dello stimatore è la proprietà di non distorsione: uno stimatore è non distorto se il suo

valore atteso coincide con il parametro oggetto di stima; se ciò non succede, lo stimatore è distorto.

Media campionaria (stimatore) X =

n

i= 1

n

X

i

La media campionaria è stima per l’ignota media μdi U. il corrispondente stimatore è distorto.

Dimostrazione:

 X =

n

i= 1

n

X

i

E ( X ) =E(

n

i= 1

n

X

i

E ( X ) =

n

i= 1

n

E( X ¿¿ i)=

n

i= 1

n

μ=

n

n μ= 1 ¿

Varianza campionaria corretta e gradi di libertà

Varianza campionaria corretta δ

2

n− 1

i= 1

n

( x

i

−x )

2

Gradi di libertà quantità da porre al denominatore di δ

2

per garantire la non distorsione.

Fenomeni categoriali

Sono quelli che si manifestano con due sole modalità contrarie ed esaustive. L’oggetto della stima qui è la

stima percentuale:

^

p=

n

i= 1

n

x

i

Siccome la frequenza relativa campionaria ^p si ottiene dividendo tale somma per n, allora lo stimatore

corrispondente è:

^p=

Bin(n , p)

n

Proprietà:

 non distorsione della frequenza relativa percentuale campionaria 

E (

^

P) =E

(

Bin ( n , p)

n

)

=p

 accuracy della frequenza relativa percentuale campionaria MSE

^

P

=V

^

P

p ( 1 − p)

n

 standard error della frequenza relativa percentuale campionaria

SE (

^

P )=

^

p ( 1 − p)

n

Errore quadratico medio (MSE)

Misura la dispersione dei valori dello stimatore intorno all’oggetto della stima. Più piccola è la dispersione,

più accurato è lo stimatore.

MSE

X

=E( X−μ)

2

=V ( X)

dove V

X

σ

2

n

Standard error (SE)

Stima dell’errore medio di stima, calcolata sugli stessi dati campionari.

SE=stima per √MSE

SE=stima per √

V

(se lo stimatore non è distorto)

Standard error della media campionaria SE ( X )=

s

2

n

Pro e contro della stima puntuale e della stima intervallare

Pro della stima puntuale:

 è sempre applicabile

 è semplice

Contro della stima puntuale:

 è difficile azzeccare il parametro ignoto con un solo valore

 non è molto affidabile

La stima intervallare utilizza i dati campionari per produrre un insieme di valori. Pro:

 è più affidabile