



















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Riassunto ben organizzato e completo da slide, libri e appunti presi a lezione. Argomenti trattati: statistica descrittiva (dalla definizione e branche della statistica alle misure dell'associazione tra due variabili statistiche quantitative), probabilità e inferenza (dalla probabilità al p-value).
Tipologia: Appunti
1 / 27
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




















LE RAPPRESENTAZIONI GRAFICE
CARATTERE QUALITATIVO SCONNESSO
diagramma a torta diagramma a barre o rettangoli separati
fi
CARATTERE QUALITATIVO ORDINALE
diagramma a barre o rettangoli separati
CARATTERE QUANTITATIVO DISCRETO
diagramma a bastoncini o aste
CARATTERE QUANTITATIVO CONTINUO -> IN CLASSI
istogramma
assoluta.
FUNZIONE DI RIPARTIZIONE DISCRETA (Fi o Ni)
diagramma a scalini
'
→ f
x
≤ f
x
'
FUNZIONE DI RIPARTIZIONE DI UNA V.S. PER CLASSI (Fi o Ni)
spezzata delle cumulate
x
∑
i= 1
m
x
i
∗f
i
oppure M
x
∑
i = 1
m
x
i
∗p
i
Media ponderata, con numerosità
x
∑
i= 1
m
x
i
∗n
i
oppure M
x
Con variabili per classi : si discretizza e si utilizza la x vc
.
N.B. la media aritmetica può assumere valori non osservabili, virtuali.
Proprietà della media aritmetica :
Internalità : la media aritmetica deve essere compresa tra il valore max e il valore min della
v.s.
Monotonicità : date 2 v.s. X e Y, con osservazioni identiche salvo almeno una X la quale
sia yi>xi, la media aritmetica di Y non può essere < della media di X.
Moltiplicatività / invarianza delle trasformazioni : se C è una costante reale e ogni
modalità xi è moltiplicata per C, anche la media aritmetica è moltiplicata per C.
Baricentricità : la media aritmetica è baricentro della distribuzione, ovvero si situa in un
punto di equilibrio centrale della distribuzione, così che la somma delle modalità alla sua
sx, ponderate per le rispettive frequenze, pareggia la somma delle modalità alla sua dx,
ponderate per le rispettive frequenze.
∑
i= 1
m
x
i
x
∗f
i
Minimizzazione del danno : la media aritmetica è la misura di posizione che rende minima
la funzione quadratica di perdita di informazioni.
Sensitività: la media aritmetica è sensibile ai valori estremi dei punteggi, quando questi non
sono bilanciati in ambedue i sensi.
LA MODA
Definizione : è la modalità che presenza la frequenza o la numerosità più alta.
Con variabili per classi : si parla di classe modale e di valore modale (valore centrale della classe).
Se le classi hanno ampiezza diversa, si calcola sulla densità.
Proprietà della moda : un fenomeno può avere 1 o più mode, oppure averle tutte uguali.
LA MEDIANA
Definizione : è la modalità che occupa il posto centrale nella sequenza ordinata di dati, ed è quindi
la modalità posseduta dall’u.s. che occupa il posto centrale, così che metà delle u.s. hanno valori
inferiori o uguali al valore posseduto dall’u. centrale, e l’altra metà delle u.s. hanno valori uguali o
maggiori del valore posseduto dall’u. centrale.
Con serie ordinate e N pari
Me=
[
(
N
2
)
(
N + 1
2
)
]
N.B. questa formula si utilizza per calcolare tutti i quantili: se 1° decile 1N/10, se 7° decile 7N/10.
Con serie ordinate e N dispari
Me= X
(
N + 1
2
)
Con v.s. discrete : in questo caso si cerca la mediana non nella serie ordinata, ma nelle frequenze
o numerosità cumulate.
Il valore mediano corrisponde alla modalità x k
la cui cumulata F k
è la prima a raggiungere o
superare F me
=0,5.
x
k
=Me
x
k
≥0,5 e F
k− 1
x
k
=Me
x
k
o
e N
k− 1
o
Se F k
=0,5 si prende per convenzione come mediana il valore centrale tra la x k
e la successiva.
Me=
x
k+ 1
k
k
=0,5 e F
k− 1
Con variabili per classi :
k
=classe mediana SSE F
k
≥ 0,5 e F
k− 1
Me=I x
k
k− 1
fk
Proprietà della mediana :
Robustezza : è la qualità di una misura di rilevare il vero ordine di grandezza delle
osservazioni, senza lasciarsi influenzare da variazioni marginali. Per questo, la mediana è il
valore centrale preferibile delle v.s. quantitative.C
I QUANTILI
Definizione : il quantile è la modalità che si pone tra le varie distribuzioni parziali.
Il c-esimo quantile è la modalità x k
la cui cumulata F k
è la prima a raggiungere o superare F
k
n
.
Tipi: - Q=2 -> mediana - Q=5 -> quintili
Con distribuzione ordinata
k =n∗p con p=
n
a. k intero -> CQn=
x
k + 1
k
b. k decimale -> si arrotonda per eccesso e si sceglie la modalità corrispondente a k
arrotondato.
Con variabili discrete
x
k
=C Q n SSE F
k
n
e F
k− 1
n
Essendo l’indice di variabilità espresso nella stessa u.d.m. della distribuzione, è l’indice più
facilmente interpretabile.
I due significati della deviazione standard : essa è
la misura sintetica della dispersione di una v.s. intorno alla media, utilizzata per valutare
complessivamente la dispersione di una v.s.
l’u.d.m. della dispersione intorno alla media, utilizzata per valutare lo scostamento di una
singola osservazione dal polo centrale.
Per le v.s. per classi : si usano i valori centrali.
Limite della deviazione standard : non è un indice adatto per confrontare la dispersione di
distribuzioni i cui punteggi sono espressi in u.d.m. diverse, e per questo di utilizza il coefficiente di
variazione, che non risente delle u.d.m. perché è un indice normalizzato.
σ
x
x
L’ETEROGENEITA’ X V.S.SCONNESSE
Definizione : la misura di eterogeneità deve basarsi sulle frequenze e deve soddisfare 2 condizioni:
e deve essere = 0 in assenza di variabilità
frequenza.
L’INDICE DI GINI
x
∑
i= 1
m
f
i
2
max
( m− 1 )
m
¿
x
max
¿
¿
= 0 in caso di assenza di eterogeneità
¿
in caso di eterogeneità massima
¿
in caso di eterogeneità bassa
¿
< 1 in caso di eterogeneità alta
N.B. -
max
è sempre < 1
f ∈caso di E max: f =
m
LE MISURE DI FORMA
Definizione di simmetria : una distribuzione è simmetrica rispetto a un suo polo se per ogni modalità
x i
= θ – k ne esiste una speculare x i
= θ + k con la medesima frequenza.
In caso di simmetria, MEDIA=MODA=MEDIANA
Definizione di asimmetria : una distribuzione è asimmetrica se non è simmetrica.
sk=
( M −Me)
σ
Tipologie di asimmetria:
sk>0 -> positiva / skewness (coda) a dx : la distribuzione presenta: una coda a dx di valori
lontani dalla media, un massimo a sx rispetto al baricentro, una media a dx della mediana e
della moda.
MODA < MEDIANA < MEDIA
sk<0 -> negativa / skewness (coda) a sx : la distribuzione presenta: una coda a sx di valori
lontani dalla media, un massimo a dx rispetto al baricentro, una media a sx della mediana e
della moda.
MEDIA<MEDIANA<MODA
NORMALIZZARE E STANDARDIZZARE
Definizione normalizzare : normalizzare un indice significa
a. Ricondurre a norma tale indice, sterilizzando l’effetto di alcuni fattori di disturbo, quali
l’o.d.g. e l’u.d.m. (es: coefficiente di variazione).
b. Trasformare l’indice rendendolo compreso tra un massimo e un minimo convenzionale,
0 e 1.
TABELLE A DOPPIA ENTRATA
Numerosità relative n
Frequenze relative congiunte
f
ij
n
ij
Frequenze relative condizionate
f
j∨i
n
ij
n
i∗¿
f
i∨ j
n
ij
n
¿ j
LE RELAZIONI STATISTICHE
2 QUALI (anche quantitative con
sintesi e trasformazione delle v.s.)
DIPENDENZA
STOCASTICA/CONNESSIONE
TABELLA DI CONTINGENZA
e
CHI QUADRO
1 QUANTI E 1 QUALI DIPENDENZA IN MEDIA ETA QUADRO
2 QUANTI CORRELAZIONE LINEARE
COVARIANZA e INDICE DI
CORRELAZIONE LINEARE
INDIPENDENZA STOCASTICA / STATISTICA e CHI QUADRO 2 V.S. QUALI
Definizione di indipendenza statistica / stocastica : c’è indipendenza statistica o stocastica della X
dalla Y quando le distribuzioni condizionate di frequenza (frequenze condizionate f
j∨i
n
ij
n
i∗¿
) di Y
non variano al variare delle modalità di X.
Vuol dire che se le frequenze condizionate sono tutte uguali e sono uguali alle frequenze
marginali, allora c’è indipendenza statistica.
f
j∨i
=f
¿ j
∀ i , j oppure f
i∨ j
=f
i∗¿ ∀ i , j ¿
La condizione necessaria e sufficiente dell’indipendenza statistica è che le numerosità congiunte
siano fattorizzabili , ovvero se le numerosità congiunte sono date dal rapporto tra le due
marginali / N.
n
ij
=n
ij
¿
=n
ij
e
f
ij
=f
ij
¿
=f
ij
e
=f
i∗¿∗f
¿ j
¿
N.B. l’indipendenza statistica è simmetrica.
Ora vogliamo uno strumento per misurare la dipendenza tra due variabili data la tabella a doppia:
expected.
Infatti, se esiste indipendenza,
n
ij
=n
ij
¿
N.B. - V BG
cresce al crescere della distanza tra le medie.
= 0 se c’è indipendenza in media.
Varianza condizionata: è la varianza di ogni gruppo rispetto alla propria media. Si calcola per ogni
sottopopolazione.
(Y|xi )
{
( Y|xi )
2
}
{
(Y )
}
2
Varianza entro i gruppi (whithin) / residua: è la media ponderata delle varianze condizionate e
misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo.
wG
∑
( Y
| X
)
∗n
i∗¿
N.B. V WG
= 0 se c’è massima dipendenza in media.
Principio di scomposizione della varianza: la varianza di una variabile explanandum è
scomponibile nella somma di due varianze.
T
WG
BG
Ora vogliamo uno strumento per misurare la dipendenza in media tra due variabili data la tabella a
doppia: sapere infatti che le medie condizionate sono diverse, non ci dice quanta dipendenza ci
sia.
Calcoliamo quindi eta quadro , che misura la quota di varianza dell’explanandum spiegata da una
qualche dipendenza funzionale dall’explanans.
η
2
BG
T
N.B. - 0 ≤ η
2
2
in caso di indipendenza in media
2
in caso di massima dipendenza in media
CORRELAZIONE e COVARIANZA 2 V.S. QUANTI
Definizione : c’è correlazione se le variabili tendono a crescere insieme. La correlazione si può
osservare dal diagramma di dispersione.
a decrescere .
Ora vogliamo uno strumento per misurare la correlazione tra due variabili quantitative. Calcoliamo
quindi
a. Notiamo che se la correlazione è positiva, a valori maggiori della media di X, corrispondono
valori maggiori della media di Y e che a valori inferiori della media di X, corrispondono valori
inferiori della media di Y.
b. Notiamo che se la correlazione è negativa, a valori maggiori della media di X, corrispondono
valori inferiori della media di Y e che a valori inferiori della media di X corrispondono valori
maggiori della media di Y.
N.B. più osservazioni cadono nelle regioni + e più è manifesta l’associazione.
prodotti delle variabili scarto, ponderate per le rispettive frequenze.
Cov
xy
Infatti, dimostrando la disuguaglianza di Cauchy
−σ
x
σ
Y
≤ Cov
XY
≤ σ
X
σ
Y
si può affermare se la covarianza è piccola o è grande confrontandola con gli scarti quadratici medi
(deviazione standard).
Bisogna quindi costruire l’indice normalizzato, chiamato coefficiente di correlazione lineare
ρ
XY
Cov
XY
σ
x
σ
Y
− 1 ≤ ρ
XY
Negativa / inversa Positiva / diretta
ρ=− 1 Perfetta correlazione
ρ= 1 Perfetta correlazione
ρ←0. Forte correlazione
ρ>0. Forte correlazione
−0.3< ρ←0. Moderata correlazione
0.3< ρ< 0. Moderata correlazione
0.3< ρ< 0 Debole correlazione
0 < ρ< 0. Debole correlazione
ρ= 0 Nessuna correlazione
L’intersezione è pari a 0.
-> Probabilità della negazione : P(E)=1-P(E)
-> Probabilità dell’intersezione (CONTEMPORANEAMENTE) di eventi / congiunta :
Se mutualmente esclusivi P(A∩B)=
Probabilità condizionata : è la P che si verifichi B, una volta verificatosi A.
L’INDIPENDENZA STOCASTICA
Due eventi A e B sono stocasticamente indipendenti se il verificarsi di uno non influisce il verificarsi
dell’altro.
N.B. se le due P condizionate di due eventi sono uguali, allora i due eventi sono indipendenti.
Come capire se due E sono indipendenti: P(A), P(B), P(A∩B), P(B|A), P(B|A) = P(B)? se = allora
indipendenti.
LE VARIABILI CASUALI / ALEATORIE
Definizione V.C. : è una funzione matematica che associa ad ogni evento dello spazio campionario
Ω un valore numerico. Permette quindi di trasformare gli eventi casuali in numeri reali,
conservandone la probabilità.
X : Ω -> R
Il nuovo spazio campionario, ovvero l’insieme dei valori che la v.c. può assumere, è detto supporto.
Risponde alle domande che ci poniamo su un esperimento. Se sappiamo quale variabile usare,
conosciamo la sua funzione di densità di probabilità (probabilità che la X assuma un certo valore k
fissato). f(x)=P(X=k)
(
n
x
)
n!
( n−x ) !∗x!
n !=n∗( n− 1 )∗( n− 2 )∗…∗ 1 !∗ 0!
Funzione di ripartizione (tipo frequenze cumulate):
P ( X ≤ x )= ∑
X ≤ x
X=x
i
Probabilità di un intervallo:
Media o valore atteso:
E ( X ) =n∗p
Varianza
=σ
x
2
=n∗p∗
1 − p
Deviazione standard SD=√V
LE V.C. CONTINUE
Definizione : la v.c. continua X assume un numero infinito di valori di x appartenenti a R.
Funzione di ripartizione: è data dall’integrale da -inf a x.
LA V.C. CONTINUA NOTEVOLE: NORMALE / GAUSSIANA
Importante perché molti fenomeni in natura sono distribuiti come N e perché se n è
sufficientemente grande, molte v.c. finiscono per assomigliare a N.
Definizione : una v.c. X ha distribuzione normale con parametri
μ (essendo un numero R, può
essere <0 o =0) e σ
2
(è un numero R >0).
μ , σ
2
Esempi: peso popolazione, distribuzione di altezza.
Funzione di densità (di probabilità): con le v.c. continue non ha senso chiedersi quale si ala
probabilità che si manifesti un determinato evento (es: che vengano erogati 10002,43 ml di
acqua), ma ha più senso chiedersi quale sia la probabilità che la variabile assuma un valore
compreso entro un det. Intervallo.
La funzione di densità fornisce informazioni circa la probabilità che il valore sia contenuto in
un intervallo.
φ ( x )=
σ √
2 π
∗e
−(x− μ)
2
2 σ
2
con x ∈ R
La funzione di densità:
probabilità a sx e a dx.
x
1
=μ−σ
e
x
2
=μ+σ
Tutte le v.c. distribuite normalmente possono essere riportate alla Normale std (una particolare v.c.
Normale con μ= 0 e σ
2
e le cui probabilità sono tabulate). Si utilizza la Normale std per evitare
gli integrali.
μ= 0 , σ
2
Come fare :
X−μ
σ
positivi.
P ( Z ≤ z )
P ( Z ≤−z )= 1 −P ( Z ≤ z )
P ( Z > z )
P ( Z > z )= 1 −P ( Z ≤ z )
I TEOREMI LIMITE
a. IL TEOREMA DEL LIMITE CENTRALE TLC
Enunciato SOMMA : il TLC afferma che la somma di un grande numero di v.c. indipendenti, con la
stessa distribuzione, la stessa media
μ e la stessa varianza σ
2
, ha distribuzione approssimabile
alla distribuzione normale con media
n∗μ e varianza pari a n∗σ
2
.