






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti delle lezioni di statistica scritti in maniera dettagliata e completa
Tipologia: Dispense
1 / 12
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







DESCRITTIVA MONOVARIATA
Scala di mobilità (sdM)
È l’insieme di tutte le manifestazioni/modalità x di X (su U).
Deve rispettare due principi:
esaustività=deve prevedere tutte le possibili manifestazioni di X
mutua esclusività=deve prevedere solo modalità che si escludono a vicenda
Le scale possono essere:
qualitativele modalità sono attributi/categorie; si dividono in:
ordinali, se le modalità possono essere ordinate
sconnesse, se le modalità non possono essere ordinate
quantitativale modalità sono quantità/numeri; si dividono in:
rapporto, quando l’origine è uno 0 assoluto
non rapporto, quando l’origine è scelta con un criterio
Fenomeni statistici (X)
Sono fenomeni che si presentano con più manifestazioni/modalità.
Possono essere:
qualitativisi manifestano attraverso attributi/categorie; si dividono in:
ordinali, se si rilevano con le sdM ordinali
categoriali/sconnesse, se si rilevano con le sdM sconnesse
quantitativisi manifestano attraverso quantità/numeri; possono essere:
discreti, se si rilevano con conteggio o enumerazione
continui, se si rilevano con misurazioni
Esempio di fenomeno statistico qualitativo: titolo di studio, genere, squadra di calcio preferita.
Esempio di fenomeno statistico quantitativo: numero di accessi ad un sito internet, numero di esami
sostenuti.
Distribuzione di frequenza
Frequenze assolute (f i
)numero di unità statistiche che, tra le N osservate, manifestano una modalità x i
di
X. L’insieme delle frequenze assolute è detto distribuzione di frequenze assolute.
Non sono né confrontabili né valutabili.
Frequenze relative (p i
)rapporto tra f i
e N (numerosità): p i
=
f
i
Sono confrontabili, e sono rilevabili le relative percentuali facendo p
i
Frequenze cumulate assolute F i
=
∑
j= 1
i
f
i
relative Φ i
=
∑
j= 1
i
p
i
Proprietà:
le frequenze cumulate assolute sono numeri interi compresi tra 0 e N, le
frequenze cumulate relative tra 0 e 1
c’è una corrispondenza biunivoca tra le frequenze assolute/relative e le
corrispondenti frequenze cumulate, nel senso che, data una distribuzione, è
possibile passare all’altra e viceversa
Istogramma
Se vogliamo rappresentare le frequenze relative, poniamo sulle ascisse gli intervalli x i
:x l
˫x L
e sulle ordinate le
densità di frequenze relative
φ
, ovvero
f
i
x
L
−x
l
; verrà così fuori un istogramma, un diagramma a
rettangoli accostati.
L’area totale sottesa agli istogrammi è:
pari a N se si rappresentano le frequenze assolute (φ sulle ordinate)
pari a 1 se si rappresentano le frequenze relative (
φ
sulle ordinate)
Gli istogrammi possono essere usati anche per le frequenze cumulate, quando il fenomeno è quantitativo
continuo.
Moda (x 0
)
È la modalità con la frequenza più elevata, ovvero la modalità più osservata tra le k osservate. È
individuabile “ad occhio”. Nel caso di intervalli modali (o classi) x 0
è associata al valore centrale
dell’intervallo.
Mediana (x 0,
)
È la modalità di X che occupa, nell’ordinamento, la posizione centrale. È calcolabile solo se le modalità sono
o possono essere ordinate.
Divide U in due gruppi ugualix i
0,5 e x i
0,
Se X è continuo, le modalità sono intervalli. In questo caso, il calcolo sarà:
x 0,
= x l
+(
)
x
L
−x
l
f
i
= x l
i - 1
)
x
L
−x
l
p
i
Media (x)
Media aritmeticax=¿
somma numerica
tot numeri
=
∑
i= 1
k
x
i
Media ponderata x=
∑
i= 1
k
x
i
f
i
=
∑
i= 1
k
x
i
p
i
Proprietà:
è calcolabile per qualunque fenomeno X quantitativo
è espressa nella stessa unità di misura con cui X si manifesta su U
ci da un’informazione sintetica dell’ordine di grandezza di X su U
In genere, se X è continuo e le modalità sono intervallari, x sarà uguale al valore centrale:
x=
∑
i= 1
k
x
i
¿
f
i
dove
x
i
¿
=
x
l
+x
L
Quale scegliere tra media, moda e mediana?
Ci sono casi in cui tutti e tre coincidono o sono molto “vicini” tra loro, ci sono invece casi in cui la media non
basta, e conviene costruire più valori medi (per esempio quando la vs è complessa).
È buona regola calcolare almeno moda e mediana.
La media non sempre prende in considerazione la realtà.
Proprietà associativa della media
La media aritmetica è associativa, ovvero è sempre raggiungibile dai dati aggregati, basta calcolare la media
delle medie delle sottopopolazioni:
x=
∑
j= 1
h
x
j
j
Normalizzazione di σ è un indice di variabilità che si calcola facendo
σ
σ
max
Numero indice
È il rapporto tra due modalità x t
rilevate in due diversi istanti temporali.
Possono essere:
a base fissa=si sceglie una base da porre al denominatore, che è fissa
x
t
x
1
a base mobile=rapporto tra x t
e la modalità osservata all’istante precedente x t-
; la base cambia
x
t
x
t − 1
con t=2,…,t
Variazione percentuale (v)
Calcolando quello che manca a NI per raggiungere 100 (stabilità temporale), ottengo informazioni
percentuali sulla variazione temporale di X.
Variazione percentuale rispetto all’anno-base v=(NI a base fissa – 100)
Variazione percentuale annua v=(NI a base mobile – 100)
Tasso di variazione medio annuo (v ¿percentuale con cui X è mediamente variato di anno in anno lungo
tutto il periodo della serie:
v=
x
t
x
1
x
t
x
1
1
T− 1
x
t
x
1
è la variazione totale del periodo, che il tasso di variazione medio annuo mantiene invariata.
DESCRITTIVA BIVARIATA
Rilevazione congiunta di una coppia di fenomeni e tabella a doppia entrata
X e Y sono osservati congiuntamente (insieme) su ciascuna delle N unità che compongono la popolazione di
interesse U. il risultato, ora, è una matrice dei dati grezzi.
Per partire con l’analisi statistica bivariata, il risultato della rilevazione congiunta viene organizzato in una
tabella a doppia entrata, che struttura quindi i dati grezzi, organizza i casi osservati e dà le prime indicazioni
sull’eventuale relazione fra i due fenomeni.
Esempio di tabella a doppia entrata
Frequenze marginali e frequenze condizionate
Frequenze marginaliriguardano i fenomeni X e Y considerati singolarmente e separatamente.
Frequenze marginali di X si indicano con f i.
∑
j= 1
h
f
ij
Frequenze marginali di Y si indicano con f
.j
∑
i= 1
k
f
ij
Frequenze marginali relative di X
f
i.
con somma unitaria
Frequenze marginali relative di Y
f
. j
con somma unitaria
Frequenze condizionate sono le classiche percentuali di riga e colonna; informano sul comportamento di
un fenomeno condizionatamente all’altro.
Frequenze condizionate di Y│x i
f
ij
f
i.
(% di riga)
Frequenze condizionate di X│y j
f
ij
f
. j
(% di colonna)
Indipendenza statistica
C’è indipendenza statistica se tra X e Y non esiste alcuna relazione statistica.
Per stabilire se X e Y sono indipendenti occorre confrontare le frequenze condizionate con quelle marginali.
Il confronto è possibile solo per le frequenze relative (
f
i.
e
f
. j
).
La condizione di indipendenza statistica, allora, è
f
ij
f
i.
=
f
. j
Con la formula della condizione di indipendenza si ottengono le frequenze teoriche di indipendenza
statistica, frequenze congiunte che rendono vera l’indipendenza.
Il concetto di indipendenza statistica è simmetrico.
f
ij
*=
f
i.
f
. j
Connessione e indice di connessione ( χ
2
Se X e Y non sono indipendenti, sono connessi: la connessione è una relazione generica rilevabile in una
coppia di fenomeni osservati.
Per stabilire se la relazione rilevata tra X e Y è forte o debole bisogna misurare il grado di connessione:
|
f
ij
−f
ij
¿
|
dove f ij
è la “tabella osservata” e f ij
non ci interessa il segno.
Indice di connessione χ
2
∑
i= 1
k
∑
j = 1
h
(f
ij
−f
ij
¿
2
f
ij
¿
Quando più grandi sono le differenze tra f ij
e f ij
Dimostrazione che il valore massimo di χ
2
N:min{k-1, h-
1}:
Varianza condizionata di Y (dato x i
) σ
y
2
|
x
i
∑
j= 1
h
( y
j
− y
x
i
2
f
ij
f
i.
Varianza condizionata di X (dato y j
) σ
x
2
|
y
j
∑
i= 1
k
(x
i
−x
y
j
2
f
ij
f
. j
Diagramma a dispersione (scatter plot)
È un grafico utile per visualizzare la relazione esistente tra X e Y quantitativi.
È un diagramma cartesiano.
Se c’è una relazione, i punti saranno disposti secondo una qualche struttura; se non c’è una relazione, i
punti saranno sparpagliati per il piano senza alcuna struttura.
Se k=h=N abbiamo un diagramma a serie doppia.
Per costruire un diagramma a dispersione si deve mettere x i
sulle ascisse e y j
sulle ordinate.
Covarianza (
σ
xy
È una misura di variabilità congiunta:
σ
xy
∑
i= 1
k
∑
j= 1
h
(x
i
−x )( y
j
− y)f
ij
oppure:
σ
xy
=μ
xy
−x y
dove
μ
xy
è un “momento misto”, una sorta di media bivariata, che si trova facendo:
μ
xy
∑
i= 1
k
∑
j= 1
h
x
i
y
j
f
ij
Se
σ
xy
0 Se
σ
xy
<0 Se
σ
xy
=0
Correlazione e coefficiente di correlazione lineare (ρ)
Correlazione relazione statistica lineare tra X e Y:
se
σ
xy
0, X e Y sono positivamente correlati
se
σ
xy
<0, X e Y sono negativamente correlati
se
σ
xy
=0, X e Y sono incorrelati (non esiste alcuna relazione lineare tra X e Y)
coefficiente di correlazione lineare (
ρ )misura il grado della correlazione, dicendo se è forte o debole:
ρ
xy
σ
xy
σ
x
σ
y
ρ
xy
assume valori tra -1 e +1:
se
ρ
xy
perfetta correlazione negativa
se
ρ
xy
perfetta correlazione positiva
se
ρ
xy
incorrelazione
Modello statistico
È una formula che interpreta il comportamento congiunto di X e Y.
È una curva matematica che ha l’obiettivo di cogliere il trend di X e Y e semplificare la realtà.
Modello di regressioneinterpreta la dipendenza di Y da X; è una formula da applicare a X per
approssimare Y:
Y =f ( x )
Spezzata di regressionecurva empirica basata sui dati osservati; è irregolare e spigolosa.
Minimi quadrati
Retta di regressione
Y =a+bx
(modello di regressione adatto a interpretare la correlazione)
Metodo dei minimi quadrati esprime in formula la distanza tra dati osservati e retta d regressione;
assegna ai parametri del modello il valore che rende minima tale distanza:
b=
σ
xy
σ
x
2
a= y−b x
Sostituendo i risultati di “b” e “a” nella retta di regressione ottengo la retta dei minimi quadrati, che rende
minima la distanza totale tra dati osservati e modello.
Se b>0 retta crescente
Se b<0 retta decrescente
N.B. “a” è l’intercetta, “b” è il coefficiente angolare.
Devianza residua (DR) e devianza spiegata (DS)
Devianza residuamisura assoluta non valutabile; distanza totale tra valori osservati e retta:
∑
i= 1
k
∑
h = 1
h
( y
j
− y
i
2
f
ij
DR=0 quando X e Y sono perfettamente correlati; in tutti gli altri casi c’è un residuo.
Devianza spiegata DS= ∑
i= 1
k
(^y
i
− y)
2
f
i
Se la devianza totale (DT) si trova facendo DS+DR:
devianza residua della retta dei minimi quadrati DR=DT ( 1 −ρ
xy
2
devianza spiegata della retta dei minimi quadrati DS=DT ⋅ ρ
xy
2
N.B. Le prime due formule di DR e DS sono quelle della bontà di adattamento.
Dimostrazione che la misura della bontà di adattamento della retta di regressione dei minimi quadrati è ρ
2
:
calcolare DR e DS
normalizzare
DT ⋅ ρ
xy
2
=ρ
xy
2
Se ρ
xy
2
= 0 , X e Y sono incorrelati.
Se ρ
xy
2
, X e Y sono perfettamente correlati.
INFERENZA
Probabilità classica e probabilità frequentista
Probabilità classica P(E) è il rapporto tra il numero dei casi favorevoli ad E e il numero di tutti i casi
possibili. L’insieme dei casi (Ω)deve essere finito e simmetrico.
Il campionamento (o indagine campionaria), quindi, è la scelta casuale del campione di n unità statistiche
fra le N che compongono l’intera U; restituisce una stima al quale è associato un certo grado di incertezza.
Inferenza statistica
L’inferenza statistica offre metodi per risolvere due grandi classi di problemi:
la stima dei parametri
la verifica di ipotesi statistiche
Variabilità campionaria ed errore campionario
Variabilità campionaria esprime il fatto che i campioni estraibili di U possono darci un’immagine più o
meno fedele di U.
Errore campionario esprime il fatto che l’inferenza statistica comporta sempre incertezza e rischio di
errore. È controllato e misurato con le probabilità.
Campione bernoulliano
Campione bernoulliano risultano di n estrazioni casuale da U condotte tutte nelle stesse condizioni. Le
unità sono estratte a caso una per volta, e:
se si escludono le unità già estratte = estrazione senza ripetizione
se non si escludono le unità già estratte = estrazione con ripetizione
Formalizzazione della variabilità campionaria
Formalizzare significa tradurre in formule.
Quando si dispone solo di dati campionari, la distribuzione del fenomeno U e i valori reali sono ignoti e li
chiameremo “parametri”.
I parametri ignoti sono l’oggetto dell’inferenza statistica:
E ( X ) =μ
V
=σ
2
Stima e stimatore (puntuale)
Stima puntuale stima dei parametri ignoti con un unico valore. È una qualche funzione dei dati
campionari x 1
… x i
… x n
.
Stimatore stessa funzione che definisce la stima, ma applicata alle v.c. estrazioni campionarie x 1
… x i
… x n
.
Se la stima è un numero, lo stimatore è una variabile casuale.
Una delle proprietà dello stimatore è la proprietà di non distorsione: uno stimatore è non distorto se il suo
valore atteso coincide con il parametro oggetto di stima; se ciò non succede, lo stimatore è distorto.
Media campionaria (stimatore) X =
n
∑
i= 1
n
i
La media campionaria è stima per l’ignota media μdi U. il corrispondente stimatore è distorto.
Dimostrazione:
X =
n
∑
i= 1
n
i
E ( X ) =E(
n
∑
i= 1
n
i
E ( X ) =
n
∑
i= 1
n
E( X ¿¿ i)=
n
∑
i= 1
n
μ=
n
n ⋅ μ= 1 ¿
Varianza campionaria corretta e gradi di libertà
Varianza campionaria corretta δ
2
n− 1
∑
i= 1
n
( x
i
−x )
2
Gradi di libertà quantità da porre al denominatore di δ
2
per garantire la non distorsione.
Fenomeni categoriali
Sono quelli che si manifestano con due sole modalità contrarie ed esaustive. L’oggetto della stima qui è la
stima percentuale:
p=
n
∑
i= 1
n
x
i
Siccome la frequenza relativa campionaria ^p si ottiene dividendo tale somma per n, allora lo stimatore
corrispondente è:
^p=
Bin(n , p)
n
Proprietà:
non distorsione della frequenza relativa percentuale campionaria
(
Bin ( n , p)
n
)
=p
accuracy della frequenza relativa percentuale campionaria MSE
p ( 1 − p)
n
standard error della frequenza relativa percentuale campionaria
√
p ( 1 − p)
n
Errore quadratico medio (MSE)
Misura la dispersione dei valori dello stimatore intorno all’oggetto della stima. Più piccola è la dispersione,
più accurato è lo stimatore.
=E( X−μ)
2
dove V
σ
2
n
Standard error (SE)
Stima dell’errore medio di stima, calcolata sugli stessi dati campionari.
SE=stima per √MSE
SE=stima per √
(se lo stimatore non è distorto)
Standard error della media campionaria SE ( X )=
√
s
2
n
Pro e contro della stima puntuale e della stima intervallare
Pro della stima puntuale:
è sempre applicabile
è semplice
Contro della stima puntuale:
è difficile azzeccare il parametro ignoto con un solo valore
non è molto affidabile
La stima intervallare utilizza i dati campionari per produrre un insieme di valori. Pro:
è più affidabile