Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica sociale completo, Appunti di Statistica Sociale

Riassunto ben organizzato e completo da slide, libri e appunti presi a lezione. Argomenti trattati: statistica descrittiva (dalla definizione e branche della statistica alle misure dell'associazione tra due variabili statistiche quantitative), probabilità e inferenza (dalla probabilità al p-value).

Tipologia: Appunti

2022/2023

In vendita dal 11/01/2024

camilla-r53
camilla-r53 🇮🇹

4

(6)

23 documenti

1 / 27

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LE RAPPRESENTAZIONI GRAFICE
CARATTERE QUALITATIVO SCONNESSO
diagramma a torta diagramma a barre o rettangoli separati
- senza ordinamento
- lunghezza proporzionale a ni o
fi
CARATTERE QUALITATIVO ORDINALE
diagramma a barre o rettangoli separati
- con ordinamento delle modalità
- lunghezza proporzionale a ni o fi
CARATTERE QUANTITATIVO DISCRETO
diagramma a bastoncini o aste
- è bidimensionale con punti (xi; fi / ni)
- con ordinamento delle modalità
- lunghezza proporzionale a ni o fi
- con distanza tra le modalità
CARATTERE QUANTITATIVO CONTINUO -> IN CLASSI
istogramma
- le basi sono proporzionali alle ampiezze
- se le ampiezze sono uguali -> altezze proporzionali a ni o fi
- se le ampiezze sono diverse -> altezze proporzionali alle densità di frequenza relativa o
assoluta.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Anteprima parziale del testo

Scarica Statistica sociale completo e più Appunti in PDF di Statistica Sociale solo su Docsity!

LE RAPPRESENTAZIONI GRAFICE

CARATTERE QUALITATIVO SCONNESSO

diagramma a torta diagramma a barre o rettangoli separati

  • senza ordinamento
    • lunghezza proporzionale a ni o

fi

CARATTERE QUALITATIVO ORDINALE

diagramma a barre o rettangoli separati

  • con ordinamento delle modalità
  • lunghezza proporzionale a ni o fi

CARATTERE QUANTITATIVO DISCRETO

diagramma a bastoncini o aste

  • è bidimensionale con punti (xi; fi / ni)
  • con ordinamento delle modalità
  • lunghezza proporzionale a ni o fi
  • con distanza tra le modalità

CARATTERE QUANTITATIVO CONTINUO -> IN CLASSI

istogramma

  • le basi sono proporzionali alle ampiezze
  • se le ampiezze sono uguali -> altezze proporzionali a ni o fi
  • se le ampiezze sono diverse -> altezze proporzionali alle densità di frequenza relativa o

assoluta.

FUNZIONE DI RIPARTIZIONE DISCRETA (Fi o Ni)

diagramma a scalini

  • funzione definita tra 0 e +inf e su tutto l’asse reale
  • funzione con eventualmente m punti di discontinuità
  • funzione crescente in senso lato x <x

'

→ f

x

≤ f

x

'

  • lunghezza tratte verticali proporzionale a ni o fi
  • funzione assume valore per modalità non osservate
  • funzione assume valore fuori dal campo di variazione

FUNZIONE DI RIPARTIZIONE DI UNA V.S. PER CLASSI (Fi o Ni)

spezzata delle cumulate

  • congiunge i punti di coordinate (xi-1; Fi) partendo da Fi=

M

x

i= 1

m

x

i

∗f

i

oppure M

x

i = 1

m

x

i

∗p

i

Media ponderata, con numerosità

M

x

i= 1

m

x

i

∗n

i

N

oppure M

x

T

N

Con variabili per classi : si discretizza e si utilizza la x vc

.

N.B. la media aritmetica può assumere valori non osservabili, virtuali.

Proprietà della media aritmetica :

Internalità : la media aritmetica deve essere compresa tra il valore max e il valore min della

v.s.

Monotonicità : date 2 v.s. X e Y, con osservazioni identiche salvo almeno una X la quale

sia yi>xi, la media aritmetica di Y non può essere < della media di X.

Moltiplicatività / invarianza delle trasformazioni : se C è una costante reale e ogni

modalità xi è moltiplicata per C, anche la media aritmetica è moltiplicata per C.

Baricentricità : la media aritmetica è baricentro della distribuzione, ovvero si situa in un

punto di equilibrio centrale della distribuzione, così che la somma delle modalità alla sua

sx, ponderate per le rispettive frequenze, pareggia la somma delle modalità alla sua dx,

ponderate per le rispettive frequenze.

i= 1

m

x

i

−M

x

∗f

i

Minimizzazione del danno : la media aritmetica è la misura di posizione che rende minima

la funzione quadratica di perdita di informazioni.

 Sensitività: la media aritmetica è sensibile ai valori estremi dei punteggi, quando questi non

sono bilanciati in ambedue i sensi.

LA MODA

Definizione : è la modalità che presenza la frequenza o la numerosità più alta.

Con variabili per classi : si parla di classe modale e di valore modale (valore centrale della classe).

Se le classi hanno ampiezza diversa, si calcola sulla densità.

Proprietà della moda : un fenomeno può avere 1 o più mode, oppure averle tutte uguali.

LA MEDIANA

Definizione : è la modalità che occupa il posto centrale nella sequenza ordinata di dati, ed è quindi

la modalità posseduta dall’u.s. che occupa il posto centrale, così che metà delle u.s. hanno valori

inferiori o uguali al valore posseduto dall’u. centrale, e l’altra metà delle u.s. hanno valori uguali o

maggiori del valore posseduto dall’u. centrale.

Con serie ordinate e N pari

Me=

[

X

(

N

2

)

+X

(

N + 1

2

)

]

N.B. questa formula si utilizza per calcolare tutti i quantili: se 1° decile 1N/10, se 7° decile 7N/10.

Con serie ordinate e N dispari

Me= X

(

N + 1

2

)

Con v.s. discrete : in questo caso si cerca la mediana non nella serie ordinata, ma nelle frequenze

o numerosità cumulate.

Il valore mediano corrisponde alla modalità x k

la cui cumulata F k

è la prima a raggiungere o

superare F me

=0,5.

x

k

=Me

x

SSE F

k

≥0,5 e F

k− 1

x

k

=Me

x

SSE N

k

N

o

N + 1

e N

k− 1

N

o

N + 1

Se F k

=0,5 si prende per convenzione come mediana il valore centrale tra la x k

e la successiva.

Me=

x

k+ 1

  • x

k

SSE F

k

=0,5 e F

k− 1

Con variabili per classi :

  1. si trova la classe mediana

I

k

=classe mediana SSE F

k

≥ 0,5 e F

k− 1

  1. per interpolazione, si calcola la mediana

Me=I x

k

  • Δk

0,5−F

k− 1

fk

Proprietà della mediana :

Robustezza : è la qualità di una misura di rilevare il vero ordine di grandezza delle

osservazioni, senza lasciarsi influenzare da variazioni marginali. Per questo, la mediana è il

valore centrale preferibile delle v.s. quantitative.C

I QUANTILI

Definizione : il quantile è la modalità che si pone tra le varie distribuzioni parziali.

Il c-esimo quantile è la modalità x k

la cui cumulata F k

è la prima a raggiungere o superare F

k

n

C

.

Tipi: - Q=2 -> mediana - Q=5 -> quintili

  • Q=3 -> terzili (3Q1, 3Q2) - Q= 10 -> decili
  • Q=4 -> quartili (4Q1, 4Q2, 4Q3) - Q=100 -> centili o percentili

Con distribuzione ordinata

k =n∗p con p=

n

C

a. k intero -> CQn=

x

k + 1

  • x

k

b. k decimale -> si arrotonda per eccesso e si sceglie la modalità corrispondente a k

arrotondato.

Con variabili discrete

x

k

=C Q n SSE F

k

n

C

e F

k− 1

n

C

Essendo l’indice di variabilità espresso nella stessa u.d.m. della distribuzione, è l’indice più

facilmente interpretabile.

I due significati della deviazione standard : essa è

 la misura sintetica della dispersione di una v.s. intorno alla media, utilizzata per valutare

complessivamente la dispersione di una v.s.

l’u.d.m. della dispersione intorno alla media, utilizzata per valutare lo scostamento di una

singola osservazione dal polo centrale.

Per le v.s. per classi : si usano i valori centrali.

Limite della deviazione standard : non è un indice adatto per confrontare la dispersione di

distribuzioni i cui punteggi sono espressi in u.d.m. diverse, e per questo di utilizza il coefficiente di

variazione, che non risente delle u.d.m. perché è un indice normalizzato.

CV =

σ

x

M

x

L’ETEROGENEITA’ X V.S.SCONNESSE

Definizione : la misura di eterogeneità deve basarsi sulle frequenze e deve soddisfare 2 condizioni:

  1. deve essere

e deve essere = 0 in assenza di variabilità

  1. deve essere massima quando la popolazione si distribuisce equamente tra le m con uguale

frequenza.

L’INDICE DI GINI

E

x

i= 1

m

f

i

2

E

max

( m− 1 )

m

E

¿

E

x

E

max

- 0 ≤ E

¿

- E

¿

= 0 in caso di assenza di eterogeneità

  • E

¿

in caso di eterogeneità massima

  • 0 < E

¿

in caso di eterogeneità bassa

- 0,5<E

¿

< 1 in caso di eterogeneità alta

N.B. -

E

max

è sempre < 1

f ∈caso di E max: f =

m

  • non ha senso calcolarlo per le quantitative

LE MISURE DI FORMA

Definizione di simmetria : una distribuzione è simmetrica rispetto a un suo polo se per ogni modalità

x i

= θ – k ne esiste una speculare x i

= θ + k con la medesima frequenza.

In caso di simmetria, MEDIA=MODA=MEDIANA

Definizione di asimmetria : una distribuzione è asimmetrica se non è simmetrica.

sk=

( M −Me)

σ

Tipologie di asimmetria:

 sk>0 -> positiva / skewness (coda) a dx : la distribuzione presenta: una coda a dx di valori

lontani dalla media, un massimo a sx rispetto al baricentro, una media a dx della mediana e

della moda.

MODA < MEDIANA < MEDIA

 sk<0 -> negativa / skewness (coda) a sx : la distribuzione presenta: una coda a sx di valori

lontani dalla media, un massimo a dx rispetto al baricentro, una media a sx della mediana e

della moda.

MEDIA<MEDIANA<MODA

NORMALIZZARE E STANDARDIZZARE

Definizione normalizzare : normalizzare un indice significa

a. Ricondurre a norma tale indice, sterilizzando l’effetto di alcuni fattori di disturbo, quali

l’o.d.g. e l’u.d.m. (es: coefficiente di variazione).

b. Trasformare l’indice rendendolo compreso tra un massimo e un minimo convenzionale,

0 e 1.

TABELLE A DOPPIA ENTRATA

Numerosità relative n

Frequenze relative congiunte

f

ij

n

ij

N

Frequenze relative condizionate

f

j∨i

n

ij

n

i∗¿

f

i∨ j

n

ij

n

¿ j

LE RELAZIONI STATISTICHE

2 QUALI (anche quantitative con

sintesi e trasformazione delle v.s.)

DIPENDENZA

STOCASTICA/CONNESSIONE

TABELLA DI CONTINGENZA

e

CHI QUADRO

1 QUANTI E 1 QUALI DIPENDENZA IN MEDIA ETA QUADRO

2 QUANTI CORRELAZIONE LINEARE

COVARIANZA e INDICE DI

CORRELAZIONE LINEARE

INDIPENDENZA STOCASTICA / STATISTICA e CHI QUADRO 2 V.S. QUALI

Definizione di indipendenza statistica / stocastica : c’è indipendenza statistica o stocastica della X

dalla Y quando le distribuzioni condizionate di frequenza (frequenze condizionate f

j∨i

n

ij

n

i∗¿

) di Y

non variano al variare delle modalità di X.

Vuol dire che se le frequenze condizionate sono tutte uguali e sono uguali alle frequenze

marginali, allora c’è indipendenza statistica.

f

j∨i

=f

¿ j

i , j oppure f

i∨ j

=f

i∗¿ i , j ¿

La condizione necessaria e sufficiente dell’indipendenza statistica è che le numerosità congiunte

siano fattorizzabili , ovvero se le numerosità congiunte sono date dal rapporto tra le due

marginali / N.

n

ij

=n

ij

¿

=n

ij

e

f

ij

=f

ij

¿

=f

ij

e

=f

i∗¿∗f

¿ j

¿

N.B. l’indipendenza statistica è simmetrica.

Ora vogliamo uno strumento per misurare la dipendenza tra due variabili data la tabella a doppia:

  1. Definiamo la tabella di riferimento, che corrisponde all’indipendenza, ovvero le numerosità

expected.

Infatti, se esiste indipendenza,

n

ij

=n

ij

¿

N.B. - V BG

cresce al crescere della distanza tra le medie.

  • V BG

= 0 se c’è indipendenza in media.

Varianza condizionata: è la varianza di ogni gruppo rispetto alla propria media. Si calcola per ogni

sottopopolazione.

V

(Y|xi )

=M

{

M

( Y|xi )

2

}

{

M

(Y )

}

2

Varianza entro i gruppi (whithin) / residua: è la media ponderata delle varianze condizionate e

misura lo scostamento tra il singolo dato osservato e la media condizionata del suo gruppo.

V

wG

V

( Y

| X

)

∗n

i∗¿

N

N.B. V WG

= 0 se c’è massima dipendenza in media.

Principio di scomposizione della varianza: la varianza di una variabile explanandum è

scomponibile nella somma di due varianze.

V

T

( Y ) =V

WG

+V

BG

Ora vogliamo uno strumento per misurare la dipendenza in media tra due variabili data la tabella a

doppia: sapere infatti che le medie condizionate sono diverse, non ci dice quanta dipendenza ci

sia.

Calcoliamo quindi eta quadro , che misura la quota di varianza dell’explanandum spiegata da una

qualche dipendenza funzionale dall’explanans.

η

2

V

BG

V

T

N.B. - 0 ≤ η

2

  • η

2

in caso di indipendenza in media

  • η

2

in caso di massima dipendenza in media

CORRELAZIONE e COVARIANZA 2 V.S. QUANTI

Definizione : c’è correlazione se le variabili tendono a crescere insieme. La correlazione si può

osservare dal diagramma di dispersione.

  • Tra X e Y c’è correlazione positiva (diretta ) quando esse tendono a crescere insieme /.
  • Tra X e Y c’è correlazione negativa (indiretta ) quando al crescere di una, l’altra tende

a decrescere .

Ora vogliamo uno strumento per misurare la correlazione tra due variabili quantitative. Calcoliamo

quindi

  1. Troviamo il centroide e trasliamo il piano cartesiano con la media di X e la media di Y.

a. Notiamo che se la correlazione è positiva, a valori maggiori della media di X, corrispondono

valori maggiori della media di Y e che a valori inferiori della media di X, corrispondono valori

inferiori della media di Y.

b. Notiamo che se la correlazione è negativa, a valori maggiori della media di X, corrispondono

valori inferiori della media di Y e che a valori inferiori della media di X corrispondono valori

maggiori della media di Y.

N.B. più osservazioni cadono nelle regioni + e più è manifesta l’associazione.

  1. Misuriamo la correlazione con la covarianza. La covarianza è la media aritmetica dei

prodotti delle variabili scarto, ponderate per le rispettive frequenze.

Cov

xy

=M ( XY )−M ( X ) M ( Y )

  • Se la correlazione è positiva, la Cov è positiva.
  • Se la correlazione è negativa, la Cov è negativa.
  • Se Cov = 0 => c’è indipendenza correlativa.
  • Se c’è indipendenza stocastica o in media => Cov = 0.
  • Cresce al crescere della correlazione ma non indica quanto forte essa è.

Infatti, dimostrando la disuguaglianza di Cauchy

−σ

x

σ

Y

≤ Cov

XY

≤ σ

X

σ

Y

si può affermare se la covarianza è piccola o è grande confrontandola con gli scarti quadratici medi

(deviazione standard).

Bisogna quindi costruire l’indice normalizzato, chiamato coefficiente di correlazione lineare

ρ

XY

Cov

XY

σ

x

σ

Y

− 1 ≤ ρ

XY

Negativa / inversa Positiva / diretta

ρ=− 1 Perfetta correlazione

ρ= 1 Perfetta correlazione

ρ←0. Forte correlazione

ρ>0. Forte correlazione

−0.3< ρ←0. Moderata correlazione

0.3< ρ< 0. Moderata correlazione

0.3< ρ< 0 Debole correlazione

0 < ρ< 0. Debole correlazione

ρ= 0 Nessuna correlazione

  1. Probabilità dell’unione (OPPURE) di eventi mutuamente esclusivi : P(AUB)=P(A)+P(B)

L’intersezione è pari a 0.

-> Probabilità della negazione : P(E)=1-P(E)

-> Probabilità dell’intersezione (CONTEMPORANEAMENTE) di eventi / congiunta :

P ( A ∩B )=P ( A|B )∗P ( B )=P ( B|A )∗P ( A)

Se mutualmente esclusivi P(A∩B)=

Probabilità condizionata : è la P che si verifichi B, una volta verificatosi A.

P ( B|A )=

P ( A ∩ B)

P ( A )

P ( A|B) =

P ( A ∩B )

P ( B)

L’INDIPENDENZA STOCASTICA

Due eventi A e B sono stocasticamente indipendenti se il verificarsi di uno non influisce il verificarsi

dell’altro.

P ( A|B)=P ( A ) P( B|A )=P ( B )

P ( A|B)=

P ( A ∩ B)

P ( B)

→ P ( A )=

P ( A ∩ B )

P ( B)

→ P ( A ∩B )=P ( A )∗P ( B)

P ( B|A )=

P ( A ∩ B)

P ( A )

→ P ( B )=

P ( A ∩ B)

P ( A)

→ P( A ∩ B) =P ( A )∗P ( B )

N.B. se le due P condizionate di due eventi sono uguali, allora i due eventi sono indipendenti.

Come capire se due E sono indipendenti: P(A), P(B), P(A∩B), P(B|A), P(B|A) = P(B)? se = allora

indipendenti.

LE VARIABILI CASUALI / ALEATORIE

Definizione V.C. : è una funzione matematica che associa ad ogni evento dello spazio campionario

Ω un valore numerico. Permette quindi di trasformare gli eventi casuali in numeri reali,

conservandone la probabilità.

X : Ω -> R

Il nuovo spazio campionario, ovvero l’insieme dei valori che la v.c. può assumere, è detto supporto.

Risponde alle domande che ci poniamo su un esperimento. Se sappiamo quale variabile usare,

conosciamo la sua funzione di densità di probabilità (probabilità che la X assuma un certo valore k

fissato). f(x)=P(X=k)

(

n

x

)

n!

( n−x ) !∗x!

n !=n∗( n− 1 )∗( n− 2 )∗…∗ 1 !∗ 0!

Funzione di ripartizione (tipo frequenze cumulate):

P ( X ≤ x )= ∑

X ≤ x

P

X=x

i

Probabilità di un intervallo:

P ( 1 ≤ X ≤ 2 )=P ( X= 1 ) + P ( X = 2 )

Media o valore atteso:

E ( X ) =n∗p

Varianza

V

X

x

2

=n∗p∗

1 − p

Deviazione standard SD=√V

X

LE V.C. CONTINUE

Definizione : la v.c. continua X assume un numero infinito di valori di x appartenenti a R.

Funzione di ripartizione: è data dall’integrale da -inf a x.

LA V.C. CONTINUA NOTEVOLE: NORMALE / GAUSSIANA

Importante perché molti fenomeni in natura sono distribuiti come N e perché se n è

sufficientemente grande, molte v.c. finiscono per assomigliare a N.

Definizione : una v.c. X ha distribuzione normale con parametri

μ (essendo un numero R, può

essere <0 o =0) e σ

2

(è un numero R >0).

X N

μ , σ

2

Esempi: peso popolazione, distribuzione di altezza.

Funzione di densità (di probabilità): con le v.c. continue non ha senso chiedersi quale si ala

probabilità che si manifesti un determinato evento (es: che vengano erogati 10002,43 ml di

acqua), ma ha più senso chiedersi quale sia la probabilità che la variabile assuma un valore

compreso entro un det. Intervallo.

La funzione di densità fornisce informazioni circa la probabilità che il valore sia contenuto in

un intervallo.

φ ( x )=

σ √

2 π

∗e

−(x− μ)

2

2 σ

2

con x R

La funzione di densità:

  • assume tutti i valori in R.
  • l’area sotto la curva è pari a 1 o al 100% e si calcola con un integrale.
  • è simmetrica rispetto al centro μ¿ Me ( X )=Md ( X ) e quindi c’è equivalenza tra la

probabilità a sx e a dx.

  • i punti di flesso si trovano in corrispondenza di

x

1

=μ−σ

e

x

2

=μ+σ

  • variazione di μa parità di σ determinano traslazione a dx e sx
  • variazioni di σ a parità di μ determina appiattimenti o innalzamenti

Tutte le v.c. distribuite normalmente possono essere riportate alla Normale std (una particolare v.c.

Normale con μ= 0 e σ

2

e le cui probabilità sono tabulate). Si utilizza la Normale std per evitare

gli integrali.

Z N

μ= 0 , σ

2

Come fare :

  1. Standardizzare la v.c. Normale

Z=

X−μ

σ

  1. Troviamo i valori assunti da X N ( 0 , 1 ) che si chiamano quantili della v.c. Normale std.
    • I valori della tavola sono i quantili della Normale std e vengono riportati solo valori

positivi.

P ( Z ≤ z )

  • Poiché la Normale std può anche assumere valori negativi, allora

P ( Z ≤−z )= 1 −P ( Z ≤ z )

  • Tutti i valori della tavola sono per P ( Z ≤ z ), ma si possono anche trovare valori per

P ( Z > z )

P ( Z > z )= 1 −P ( Z ≤ z )

I TEOREMI LIMITE

a. IL TEOREMA DEL LIMITE CENTRALE TLC

Enunciato SOMMA : il TLC afferma che la somma di un grande numero di v.c. indipendenti, con la

stessa distribuzione, la stessa media

μ e la stessa varianza σ

2

, ha distribuzione approssimabile

alla distribuzione normale con media

n∗μ e varianza pari a n∗σ

2

.