Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Introduzione alla Statistica: Scale di Misura, Frequenze e Variabilità - Prof. Mecatti, Dispense di Statistica

Università degli Studi di Milano-Bicocca (UNIMIB)Statistica

Prof. Fulvia Mecatti

appunti delle lezioni di statistica scritti in maniera dettagliata e completa

Tipologia: Dispense

2018/2019

Caricato il 23/05/2022

Sofiaminelli2 🇮🇹

4.6

(28)

4 documenti

1 / 12

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

STATISTICA

DESCRITTIVA MONOVARIATA

Scala di mobilità (sdM)

È l’insieme di tutte le manifestazioni/modalità x di X (su U).

Deve rispettare due principi:

esaustività=deve prevedere tutte le possibili manifestazioni di X

mutua esclusività=deve prevedere solo modalità che si escludono a vicenda

Le scale possono essere:

qualitativele modalità sono attributi/categorie; si dividono in:

ordinali, se le modalità possono essere ordinate

sconnesse, se le modalità non possono essere ordinate

quantitativale modalità sono quantità/numeri; si dividono in:

rapporto, quando l’origine è uno 0 assoluto

non rapporto, quando l’origine è scelta con un criterio

Fenomeni statistici (X)

Sono fenomeni che si presentano con più manifestazioni/modalità.

Possono essere:

qualitativisi manifestano attraverso attributi/categorie; si dividono in:

ordinali, se si rilevano con le sdM ordinali

categoriali/sconnesse, se si rilevano con le sdM sconnesse

quantitativisi manifestano attraverso quantità/numeri; possono essere:

discreti, se si rilevano con conteggio o enumerazione

continui, se si rilevano con misurazioni

Esempio di fenomeno statistico qualitativo: titolo di studio, genere, squadra di calcio preferita.

Esempio di fenomeno statistico quantitativo: numero di accessi ad un sito internet, numero di esami

sostenuti.

Distribuzione di frequenza

Frequenze assolute (fi)numero di unità statistiche che, tra le N osservate, manifestano una modalità xi di

X. L’insieme delle frequenze assolute è detto distribuzione di frequenze assolute.

Non sono né confrontabili né valutabili.

Frequenze relative (pi)rapporto tra fi e N (numerosità): pi=

fi

N

Sono confrontabili, e sono rilevabili le relative percentuali facendo pi

∙

100

Frequenze cumulate assolute Fi=

∑

j=1

i

fi

relative

Φ

i=

∑

j=1

i

pi

Proprietà:

le frequenze cumulate assolute sono numeri interi compresi tra 0 e N, le

frequenze cumulate relative tra 0 e 1

c’è una corrispondenza biunivoca tra le frequenze assolute/relative e le

corrispondenti frequenze cumulate, nel senso che, data una distribuzione, è

possibile passare all’altra e viceversa

Istogramma

Scopri Dispense di Statistica Università degli Studi di Milano-Bicocca (UNIMIB)

Documenti correlati

Statistica - F. Mecatti

(1)

Domande Statistica Fulvia Mecatti Bicocca

(12)

Appunti Statistica Fulvia Mecatti

(2)

Esercizi di Statistica: Analisi dei Dati e Calcolo delle Frequenze - Prof. Mecatti

(1)

Analisi statistica di dati campionari: frequenze, medie e test di ipotesi - Prof. Mecatti

Domande MECATTI 2019

Classificazione dei Fenomeni Statistici e Scale di Modalità - Prof. Mecatti

domande statistica prof mecatti

(3)

statistica di base, fulvia mecatti

RISPOSTE DOMANDE STATISTICA Mecatti SCOR

(2)

Introduzione alla Statistica: Distribuzioni di Frequenze, Valori Medie e Variabilità - Pro

(1)

STATISTICA - RIASSUNTI MANUALE PROF. MECATTI

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Scale di Misura, Frequenze e Variabilità - Prof. Mecatti e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

DESCRITTIVA MONOVARIATA

Scala di mobilità (sdM)

È l’insieme di tutte le manifestazioni/modalità x di X (su U).

Deve rispettare due principi:

 esaustività=deve prevedere tutte le possibili manifestazioni di X

 mutua esclusività=deve prevedere solo modalità che si escludono a vicenda

Le scale possono essere:

 qualitativele modalità sono attributi/categorie; si dividono in:

 ordinali, se le modalità possono essere ordinate

 sconnesse, se le modalità non possono essere ordinate

 quantitativale modalità sono quantità/numeri; si dividono in:

 rapporto, quando l’origine è uno 0 assoluto

 non rapporto, quando l’origine è scelta con un criterio

Fenomeni statistici (X)

Sono fenomeni che si presentano con più manifestazioni/modalità.

Possono essere:

 qualitativisi manifestano attraverso attributi/categorie; si dividono in:

 ordinali, se si rilevano con le sdM ordinali

 categoriali/sconnesse, se si rilevano con le sdM sconnesse

 quantitativisi manifestano attraverso quantità/numeri; possono essere:

 discreti, se si rilevano con conteggio o enumerazione

 continui, se si rilevano con misurazioni

Esempio di fenomeno statistico qualitativo: titolo di studio, genere, squadra di calcio preferita.

Esempio di fenomeno statistico quantitativo: numero di accessi ad un sito internet, numero di esami

sostenuti.

Distribuzione di frequenza

Frequenze assolute (f i

)numero di unità statistiche che, tra le N osservate, manifestano una modalità x i

di

X. L’insieme delle frequenze assolute è detto distribuzione di frequenze assolute.

Non sono né confrontabili né valutabili.

Frequenze relative (p i

)rapporto tra f i

e N (numerosità): p i

=

f

i

N

Sono confrontabili, e sono rilevabili le relative percentuali facendo p

i

Frequenze cumulate assolute F i

=

∑

j= 1

i

f

i

relative Φ i

=

∑

j= 1

i

p

i

Proprietà:

 le frequenze cumulate assolute sono numeri interi compresi tra 0 e N, le

frequenze cumulate relative tra 0 e 1

 c’è una corrispondenza biunivoca tra le frequenze assolute/relative e le

corrispondenti frequenze cumulate, nel senso che, data una distribuzione, è

possibile passare all’altra e viceversa

Istogramma

Se vogliamo rappresentare le frequenze relative, poniamo sulle ascisse gli intervalli x i

:x l

˫x L

e sulle ordinate le

densità di frequenze relative

φ

N

, ovvero

f

i

x

L

−x

l

; verrà così fuori un istogramma, un diagramma a

rettangoli accostati.

L’area totale sottesa agli istogrammi è:

 pari a N se si rappresentano le frequenze assolute (φ sulle ordinate)

 pari a 1 se si rappresentano le frequenze relative (

φ

N

sulle ordinate)

Gli istogrammi possono essere usati anche per le frequenze cumulate, quando il fenomeno è quantitativo

continuo.

Moda (x 0

)

È la modalità con la frequenza più elevata, ovvero la modalità più osservata tra le k osservate. È

individuabile “ad occhio”. Nel caso di intervalli modali (o classi) x 0

è associata al valore centrale

dell’intervallo.

Mediana (x 0,

)

È la modalità di X che occupa, nell’ordinamento, la posizione centrale. È calcolabile solo se le modalità sono

o possono essere ordinate.

Divide U in due gruppi ugualix i

0,5 e x i

0,

Se X è continuo, le modalità sono intervalli. In questo caso, il calcolo sarà:

x 0,

= x l

+(

N

f i - 1

)

x

L

−x

l

f

i

= x l

i - 1

)

x

L

−x

l

p

i

Media (x)

Media aritmeticax=¿

somma numerica

tot numeri

=

N

∑

i= 1

k

x

i

Media ponderata x=

N

∑

i= 1

k

x

i

f

i

=

∑

i= 1

k

x

i

p

i

Proprietà:

 è calcolabile per qualunque fenomeno X quantitativo

 è espressa nella stessa unità di misura con cui X si manifesta su U

 ci da un’informazione sintetica dell’ordine di grandezza di X su U

In genere, se X è continuo e le modalità sono intervallari, x sarà uguale al valore centrale:

x=

N

∑

i= 1

k

x

i

¿

f

i

dove

x

i

¿

=

x

l

+x

L

Quale scegliere tra media, moda e mediana?

Ci sono casi in cui tutti e tre coincidono o sono molto “vicini” tra loro, ci sono invece casi in cui la media non

basta, e conviene costruire più valori medi (per esempio quando la vs è complessa).

È buona regola calcolare almeno moda e mediana.

La media non sempre prende in considerazione la realtà.

Proprietà associativa della media

La media aritmetica è associativa, ovvero è sempre raggiungibile dai dati aggregati, basta calcolare la media

delle medie delle sottopopolazioni:

x=

N

∑

j= 1

h

x

j

N

j

Normalizzazione di σ è un indice di variabilità che si calcola facendo

σ

max

Numero indice

È il rapporto tra due modalità x t

rilevate in due diversi istanti temporali.

Possono essere:

 a base fissa=si sceglie una base da porre al denominatore, che è fissa

x

t

x

1

 a base mobile=rapporto tra x t

e la modalità osservata all’istante precedente x t-

; la base cambia

x

t

x

t − 1

con t=2,…,t

Variazione percentuale (v)

Calcolando quello che manca a NI per raggiungere 100 (stabilità temporale), ottengo informazioni

percentuali sulla variazione temporale di X.

Variazione percentuale rispetto all’anno-base v=(NI a base fissa – 100)

Variazione percentuale annua v=(NI a base mobile – 100)

Tasso di variazione medio annuo (v ¿percentuale con cui X è mediamente variato di anno in anno lungo

tutto il periodo della serie:

v=

T − 1

x

t

x

1

⋅ 100 =[

x

t

x

1

T− 1

− 1 ] ⋅ 100

x

t

x

1

è la variazione totale del periodo, che il tasso di variazione medio annuo mantiene invariata.

DESCRITTIVA BIVARIATA

Rilevazione congiunta di una coppia di fenomeni e tabella a doppia entrata

X e Y sono osservati congiuntamente (insieme) su ciascuna delle N unità che compongono la popolazione di

interesse U. il risultato, ora, è una matrice dei dati grezzi.

Per partire con l’analisi statistica bivariata, il risultato della rilevazione congiunta viene organizzato in una

tabella a doppia entrata, che struttura quindi i dati grezzi, organizza i casi osservati e dà le prime indicazioni

sull’eventuale relazione fra i due fenomeni.

Esempio di tabella a doppia entrata

Frequenze marginali e frequenze condizionate

Frequenze marginaliriguardano i fenomeni X e Y considerati singolarmente e separatamente.

Frequenze marginali di X si indicano con f i.



∑

j= 1

h

f

ij

Frequenze marginali di Y si indicano con f

.j



∑

i= 1

k

f

ij

Frequenze marginali relative di X

f

i.

N

con somma unitaria

Frequenze marginali relative di Y

f

. j

N

con somma unitaria

Frequenze condizionate sono le classiche percentuali di riga e colonna; informano sul comportamento di

un fenomeno condizionatamente all’altro.

Frequenze condizionate di Y│x i



f

ij

f

i.

(% di riga)

Frequenze condizionate di X│y j



f

ij

f

. j

(% di colonna)

Indipendenza statistica

C’è indipendenza statistica se tra X e Y non esiste alcuna relazione statistica.

Per stabilire se X e Y sono indipendenti occorre confrontare le frequenze condizionate con quelle marginali.

Il confronto è possibile solo per le frequenze relative (

f

i.

N

e

f

. j

N

).

La condizione di indipendenza statistica, allora, è

f

ij

f

i.

=

f

. j

N

Con la formula della condizione di indipendenza si ottengono le frequenze teoriche di indipendenza

statistica, frequenze congiunte che rendono vera l’indipendenza.

Il concetto di indipendenza statistica è simmetrico.

f

ij

*=

f

i.

f

. j

N

Connessione e indice di connessione ( χ

2

Se X e Y non sono indipendenti, sono connessi: la connessione è una relazione generica rilevabile in una

coppia di fenomeni osservati.

Per stabilire se la relazione rilevata tra X e Y è forte o debole bisogna misurare il grado di connessione:

|

f

ij

−f

ij

¿

|

dove f ij

è la “tabella osservata” e f ij

è la “tabella teorica di indipendenza”. Il calcolo è tra le barre perché

non ci interessa il segno.

Indice di connessione χ

2

∑

i= 1

k

∑

j = 1

h

(f

ij

−f

ij

¿

2

f

ij

¿

Quando più grandi sono le differenze tra f ij

e f ij

maggiore sarà il valore dell’indice di connessione.

Dimostrazione che il valore massimo di χ

2

N:min{k-1, h-

1}:

Varianza condizionata di Y (dato x i

) σ

y

2

|

x

i

∑

j= 1

h

( y

j

− y

x

i

2

f

ij

f

i.

Varianza condizionata di X (dato y j

) σ

x

2

|

y

j

∑

i= 1

k

(x

i

−x

y

j

2

f

ij

f

. j

Diagramma a dispersione (scatter plot)

È un grafico utile per visualizzare la relazione esistente tra X e Y quantitativi.

È un diagramma cartesiano.

Se c’è una relazione, i punti saranno disposti secondo una qualche struttura; se non c’è una relazione, i

punti saranno sparpagliati per il piano senza alcuna struttura.

Se k=h=N abbiamo un diagramma a serie doppia.

Per costruire un diagramma a dispersione si deve mettere x i

sulle ascisse e y j

sulle ordinate.

Covarianza (

σ

xy

È una misura di variabilità congiunta:

σ

xy

N

∑

i= 1

k

∑

j= 1

h

(x

i

−x )( y

j

− y)f

ij

oppure:

σ

xy

=μ

xy

−x y

dove

μ

xy

è un “momento misto”, una sorta di media bivariata, che si trova facendo:

μ

xy

N

∑

i= 1

k

∑

j= 1

h

x

i

y

j

f

ij

Se

σ

xy

0  Se

σ

xy

<0  Se

σ

xy

=0 

Correlazione e coefficiente di correlazione lineare (ρ)

Correlazione relazione statistica lineare tra X e Y:

 se

σ

xy

0, X e Y sono positivamente correlati

 se

σ

xy

<0, X e Y sono negativamente correlati

 se

σ

xy

=0, X e Y sono incorrelati (non esiste alcuna relazione lineare tra X e Y)

coefficiente di correlazione lineare (

ρ )misura il grado della correlazione, dicendo se è forte o debole:

ρ

xy

σ

xy

σ

x

σ

y

ρ

xy

assume valori tra -1 e +1:

 se

ρ

xy

 perfetta correlazione negativa

 se

ρ

xy

 perfetta correlazione positiva

 se

ρ

xy

 incorrelazione

Modello statistico

È una formula che interpreta il comportamento congiunto di X e Y.

È una curva matematica che ha l’obiettivo di cogliere il trend di X e Y e semplificare la realtà.

Modello di regressioneinterpreta la dipendenza di Y da X; è una formula da applicare a X per

approssimare Y:

^

Y =f ( x )

Spezzata di regressionecurva empirica basata sui dati osservati; è irregolare e spigolosa.

Minimi quadrati

Retta di regressione

^

Y =a+bx

(modello di regressione adatto a interpretare la correlazione)

Metodo dei minimi quadrati esprime in formula la distanza tra dati osservati e retta d regressione;

assegna ai parametri del modello il valore che rende minima tale distanza:

b=

σ

xy

σ

x

2

a= y−b x

Sostituendo i risultati di “b” e “a” nella retta di regressione ottengo la retta dei minimi quadrati, che rende

minima la distanza totale tra dati osservati e modello.

Se b>0  retta crescente

Se b<0  retta decrescente

N.B. “a” è l’intercetta, “b” è il coefficiente angolare.

Devianza residua (DR) e devianza spiegata (DS)

Devianza residuamisura assoluta non valutabile; distanza totale tra valori osservati e retta:

DR=

∑

i= 1

k

∑

h = 1

h

( y

j

− y

i

2

f

ij

DR=0 quando X e Y sono perfettamente correlati; in tutti gli altri casi c’è un residuo.

Devianza spiegata DS= ∑

i= 1

k

(^y

i

− y)

2

f

i

Se la devianza totale (DT) si trova facendo DS+DR:

 devianza residua della retta dei minimi quadrati DR=DT ( 1 −ρ

xy

2

 devianza spiegata della retta dei minimi quadrati DS=DT ⋅ ρ

xy

2

N.B. Le prime due formule di DR e DS sono quelle della bontà di adattamento.

Dimostrazione che la misura della bontà di adattamento della retta di regressione dei minimi quadrati è ρ

2

:

 calcolare DR e DS

 normalizzare

DS

DT

DT ⋅ ρ

xy

2

DT

=ρ

xy

2

Se ρ

xy

2

= 0 , X e Y sono incorrelati.

Se ρ

xy

2

, X e Y sono perfettamente correlati.

INFERENZA

Probabilità classica e probabilità frequentista

Probabilità classica P(E) è il rapporto tra il numero dei casi favorevoli ad E e il numero di tutti i casi

possibili. L’insieme dei casi (Ω)deve essere finito e simmetrico.

Il campionamento (o indagine campionaria), quindi, è la scelta casuale del campione di n unità statistiche

fra le N che compongono l’intera U; restituisce una stima al quale è associato un certo grado di incertezza.

Inferenza statistica

L’inferenza statistica offre metodi per risolvere due grandi classi di problemi:

 la stima dei parametri

 la verifica di ipotesi statistiche

Variabilità campionaria ed errore campionario

Variabilità campionaria  esprime il fatto che i campioni estraibili di U possono darci un’immagine più o

meno fedele di U.

Errore campionario esprime il fatto che l’inferenza statistica comporta sempre incertezza e rischio di

errore. È controllato e misurato con le probabilità.

Campione bernoulliano

Campione bernoulliano  risultano di n estrazioni casuale da U condotte tutte nelle stesse condizioni. Le

unità sono estratte a caso una per volta, e:

 se si escludono le unità già estratte = estrazione senza ripetizione

 se non si escludono le unità già estratte = estrazione con ripetizione

Formalizzazione della variabilità campionaria

Formalizzare significa tradurre in formule.

Quando si dispone solo di dati campionari, la distribuzione del fenomeno U e i valori reali sono ignoti e li

chiameremo “parametri”.

I parametri ignoti sono l’oggetto dell’inferenza statistica:

 E ( X ) =μ



V

X

=σ

2

Stima e stimatore (puntuale)

Stima puntuale  stima dei parametri ignoti con un unico valore. È una qualche funzione dei dati

campionari x 1

… x i

… x n

.

Stimatore stessa funzione che definisce la stima, ma applicata alle v.c. estrazioni campionarie x 1

… x i

… x n

.

Se la stima è un numero, lo stimatore è una variabile casuale.

Una delle proprietà dello stimatore è la proprietà di non distorsione: uno stimatore è non distorto se il suo

valore atteso coincide con il parametro oggetto di stima; se ciò non succede, lo stimatore è distorto.

Media campionaria (stimatore) X =

n

∑

i= 1

n

X

i

La media campionaria è stima per l’ignota media μdi U. il corrispondente stimatore è distorto.

Dimostrazione:

 X =

n

∑

i= 1

n

X

i



E ( X ) =E(

n

∑

i= 1

n

X

i



E ( X ) =

n

∑

i= 1

n

E( X ¿¿ i)=

n

∑

i= 1

n

μ=

n

n ⋅ μ= 1 ¿

Varianza campionaria corretta e gradi di libertà

Varianza campionaria corretta δ

2

n− 1

∑

i= 1

n

( x

i

−x )

2

Gradi di libertà quantità da porre al denominatore di δ

2

per garantire la non distorsione.

Fenomeni categoriali

Sono quelli che si manifestano con due sole modalità contrarie ed esaustive. L’oggetto della stima qui è la

stima percentuale:

^

p=

n

∑

i= 1

n

x

i

Siccome la frequenza relativa campionaria ^p si ottiene dividendo tale somma per n, allora lo stimatore

corrispondente è:

^p=

Bin(n , p)

n

Proprietà:

 non distorsione della frequenza relativa percentuale campionaria 

E (

^

P) =E

(

Bin ( n , p)

n

)

=p

 accuracy della frequenza relativa percentuale campionaria MSE

^

P

=V

^

P

p ( 1 − p)

n

 standard error della frequenza relativa percentuale campionaria

SE (

^

P )=

√

^

p ( 1 − p)

n

Errore quadratico medio (MSE)

Misura la dispersione dei valori dello stimatore intorno all’oggetto della stima. Più piccola è la dispersione,

più accurato è lo stimatore.

MSE

X

=E( X−μ)

2

=V ( X)

dove V

X

σ

2

n

Standard error (SE)

Stima dell’errore medio di stima, calcolata sugli stessi dati campionari.

SE=stima per √MSE

SE=stima per √

V

(se lo stimatore non è distorto)

Standard error della media campionaria SE ( X )=

√

s

2

n

Pro e contro della stima puntuale e della stima intervallare

Pro della stima puntuale:

 è sempre applicabile

 è semplice

Contro della stima puntuale:

 è difficile azzeccare il parametro ignoto con un solo valore

 non è molto affidabile

La stima intervallare utilizza i dati campionari per produrre un insieme di valori. Pro:

 è più affidabile