Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti statistica prof. Rivellini, Appunti di Statistica

Riassunto dispensa di statistica completa per studiare

Tipologia: Appunti

2020/2021

Caricato il 21/12/2023

camilla-sala-7
camilla-sala-7 🇮🇹

5

(1)

2 documenti

1 / 29

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
PRIMA BRANCA
Statistica descrittiva : effettua una sintesi delle informazioni, relative ad un
particolare aggregato di dati attraverso tabelle, grafici e indicatori
Si divide in due esercizi mentali :
Enucleare : far emergere in modo sintetico la componente strutturale di un
fenomeno collettivo ( struttura = agli alimenti che costituiscono lo scheletro di
qualcosa
Associare : spiegare la variabilità di un fenomeno collettivo individuando un
associazione con altri fenomeni collettivi ( formalizzando = individuare una relazione
funzionale tra una variabile da spiegare e una esplicita
Y = Variabile dipendente
X = Variabile indipendente
SECONDA BRANCA
Probabilità : fornisce strumenti per analizzare e trattare i fenomeni di tipo aleatorio
cioè fenomeni il cui risultato non è certo
TERZA BRANCA
Statistica Inferenziale : fornisce strumenti per fare inferenza cioè per
generalizzare un risultato a partire da un campione (campione estratto secondo
criteri probabilistici)
Esercizio mentale :
inferire dalla parte (campione) al tutto (popolazione)
Popolazione : costituita dal totale di soggetti / unità statistiche di interesse in uno
studio (N)
Campione : sottoinsieme della popolazione di riferimento dello studio (n)
CARATTERE (pag. 46)
Il carattere statistico è una particolare proprietà / caratteristica che si rilevata
sull’unità statistica, relativa al fenomeno oggetto di indagine
Qualitativo : espresso attraverso attributo o nome
oCarattere Sconnesso (scala nominale) : se date due modalità è possibile
affermare soltanto se esse sono uguali o diverse ( sesso, attività, luogo di
nascita, stato civile, religione, colore degli occhi, no si può stabilire un ordine
possono essere elencate in modo arbitrario )
oCarattere Ordinato (scala ordinata ) : se date due modalità è possibile anche
dare un ordine specificando che una precede l’altra ( grado di soddisfazione,
posizione graduatoria, titolo di studio)
Quantitativo : espresso attraverso un numero
oCarattere Discreto : l’insieme delle modalità assumibili può essere messo in
corrispondenza biunivoca con un sottoinsieme dei numeri naturali ( es. contare
quante cose possiedi)
oCarattere Continuo : l’insieme delle modalità assumibili può essere messo in
corrispondenza biunivoca con un sottoinsieme dei numeri reali ( es. mi peso)
Scale di misurazione :
Carattere quantitativo misurabile con << scala ad intervalli>> : non esiste uno
ZERO assoluto, nayturale, reale e non arbitrario, il quale deve invece esistere per un
carattere quantitativo misurabile con <<scala per rapporti >>
Per un carattere misurabile con scala ad intervallo ha senso considerare la
differenza tra le modalità del carattere ma non il rapporto tra tali modalità
Tipologie di variabili statistiche
se le modalità sono espresse in numeri, si ha una variabile statistica quantitativa
Se le modalità non sono espresse in numeri, si ha una variabile qualitativa
oMutabile ordinata (se c’è ordinamento tra le modalità)
oMutabile sconnessa (se non c’è ordinamento tra le modalità)
Sintesi tipologie di scale Proprietà
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d

Anteprima parziale del testo

Scarica Appunti statistica prof. Rivellini e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

PRIMA BRANCA

Statistica descrittiva : effettua una sintesi delle informazioni, relative ad un particolare aggregato di dati attraverso tabelle, grafici e indicatori Si divide in due esercizi mentali :

  • Enucleare : far emergere in modo sintetico la componente strutturale di un fenomeno collettivo ( struttura = agli alimenti che costituiscono lo scheletro di qualcosa
  • Associare : spiegare la variabilità di un fenomeno collettivo individuando un associazione con altri fenomeni collettivi ( formalizzando = individuare una relazione funzionale tra una variabile da spiegare e una esplicita Y = Variabile dipendente X = Variabile indipendente

SECONDA BRANCA Probabilità : fornisce strumenti per analizzare e trattare i fenomeni di tipo aleatorio cioè fenomeni il cui risultato non è certo

TERZA BRANCA Statistica Inferenziale : fornisce strumenti per fare inferenza cioè per generalizzare un risultato a partire da un campione (campione estratto secondo criteri probabilistici) Esercizio mentale :

  • inferire dalla parte (campione) al tutto (popolazione)

Popolazione : costituita dal totale di soggetti / unità statistiche di interesse in uno studio (N) Campione : sottoinsieme della popolazione di riferimento dello studio (n)

CARATTERE (pag. 46) Il carattere statistico è una particolare proprietà / caratteristica che si rilevata sull’unità statistica, relativa al fenomeno oggetto di indagine

  • Qualitativo : espresso attraverso attributo o nome o Carattere Sconnesso (scala nominale ) : se date due modalità è possibile affermare soltanto se esse sono uguali o diverse ( sesso, attività, luogo di nascita, stato civile, religione, colore degli occhi, no si può stabilire un ordine possono essere elencate in modo arbitrario ) o Carattere Ordinato (scala ordinata ) : se date due modalità è possibile anche dare un ordine specificando che una precede l’altra ( grado di soddisfazione, posizione graduatoria, titolo di studio)
  • Quantitativo : espresso attraverso un numero o Carattere Discreto : l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri naturali ( es. contare quante cose possiedi) o Carattere Continuo : l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali ( es. mi peso) Scale di misurazione : Carattere quantitativo misurabile con << scala ad intervalli>> : non esiste uno ZERO assoluto, nayturale, reale e non arbitrario, il quale deve invece esistere per un carattere quantitativo misurabile con <> Per un carattere misurabile con scala ad intervallo ha senso considerare la differenza tra le modalità del carattere ma non il rapporto tra tali modalità Tipologie di variabili statistiche
  • se le modalità sono espresse in numeri, si ha una variabile statistica quantitativa
  • Se le modalità non sono espresse in numeri, si ha una variabile qualitativa o Mutabile ordinata (se c’è ordinamento tra le modalità) o Mutabile sconnessa (se non c’è ordinamento tra le modalità)

Sintesi tipologie di scale Proprietà

Tipo di scala

Classificazio ne in tipologie

Ordinamnet o gerarchico

Misurazion e di distanze

Misurazion e di rapporti

Variabile corrispondenden te Nominale SI NO NO NO Mutabile sconnessa Ordinale SI SI NO NO Mutabile ordinata Per intervalli

SI SI SI NO Variabile quantitativa Per rapporti

SI SI NO SI Variabile quantitativa

! su caratteri ordinali con punteggi espressi su scale convenzionali ( molto d’accordo, indifferente, contrario ) Non ha senso confrontare le distanze tra le modalità. Sui caratteri quantitativi ha senso calcolare le distanze, si definisce suddiviso in classi, l’operazione consiste nel suddividere l’insieme di valori in intervalli tra loro disgiunti.

 Variabili dicotomiche : composte da due sole modalità disgiunte ed esaustive, restano a cavallo tra qualitativo e quantitativo Pensiamo alla modalità Maschio / Femmina  incentrando la variabile su F ed esprimendo le modalità in ‘F’ e ‘non F’  agganciando alle modalità i numeri F (1), non F (0), il numero ora identifica un dato oggettivo

FREQUENZE

 Esercizio di lettura dei dati : confronto del peso della stessa modalità in diverse popolazioni Es. Nella classe A (composta da 10 individui) i maschi sono 4 Nella classe B (composta da 15 individui) sono 5 In termini assoluti i maschi sono di più nella classe B Ma nelle dinamiche di classe 5 maschi su 15 è il 30%, mentre 4 su 10 è il 40%

! il confronto tra due variabili statistiche, osservate in popolazioni di diversa dimensione è possibile solo tenendo sotto controllo la numerosità complessiva della popolazione

Le Frequenze Chiamiamo frequenze relative specifiche i rapporti tra le corrispondenti numerosità

specifiche ( ni ) e la numerosità totale (N)

f i =

ni

N

i = 1

k

f ( xi )= 1

N.B. : K = Numero delle modalità della variabile statistica Le frequenze sono frazioni comprse tra 0 e 1, rendere pari a 1 un valore di N è un criterio per rendere comparabile numerosità specifiche diverse

Frequenze percentuali

Percentuali = pi =( f i ∗ 100 )

Peso delle unità statistiche sul totale Es.

xi ni f i pi =( f i ∗ 100 )

M 10 10 / 21 = 0,476 47,

F 11 11 / 21 = 0,524 52.

( 47,60 sono uomini )

l’istogramma può avere come ordinate le densità relative δi = f^ i / ∆i invece che le

densità assolute.

Rappresentazione grafica frequenze/numerosità cumulate

Rappresentazione grafica delle funzioni N( x ¿¿ i ) ¿e F ( x ¿ ¿ i )¿per variabili statistiche

quantitative discrete e per classi o Numerosità cumulate ( pag.73) : Per rappresentare graficamente la cumulata di una variabile discreta È una funzione spezzata con la caratteristica forma di una scala per costruire il grafico è sufficiente individuali tre punti incorniciati a partire dalle loro

coordinate ( x ¿¿ i, Ni )¿ e poi congiungere i diversi tratti della spezzata, è

spezzata perché non raggiunge tutti i punti, tanti punti di discontinuità quante le modalità.

La lunghezza delle tratte verticali è proporzionale ancora a ni o a f^ i dato che è

pari alla differenza tra due cumulate successive:

ni = Ni − Ni − 1 oppure f i = Fi − Fi − 1

La funzione assume valore anche per le modalità non osservate assume valori anche al di fuori del campo di variazione delle variabili statistiche.

La distribuzione cumulativa di frequenze( funzioni di ripartizione) di una V.S. discreta è

una funzione definita tra 0 e +∞con eventualmente m punti di discontinuità

o Per costruire il grafico della F( x ¿¿ i ) ¿di una V.S. per le classi occorre:

1. Segnare i punti di coordinate ¿^ ¿^ Fi^ ¿^ ¿il punto corrispondente

all'estremo superiore di una classe coincide con il punto corrispondente all'estremo inferiore della classe successiva)

  1. Congiungere i punti successivi della spezzata prolungando a volontà a

La funzione di ripartizione di una VS per classi e una spezzata con congiunge i punti di

coordinate ¿^ ¿^ Fi ¿ partendo dal punto ¿^ ¿^ f^ i =^0 ¿

MODALITA’ RAPPRESENTATIVE

 Misure di posizione (o misure di centro)  Misure di dispersione (o misure di variabilità)  Altre misure di forma (misure di simmetria)

Misure di posizione Le misure di posizioni misurano l'attitudine di un fenomeno X a localizzarsi in un intorno delimitato dall'asse reale che siamo indotti a ritenere il valore vero realmente rappresentativo del fenomeno il centro di x. Possiamo chiamare queste misure genericamente medie (modalità che si presenta con maggiore frequenza)

MEDIA M Indice sintetico di una distribuzione statistica che alle diverse modalità del carattere ne sostituisce una sola che per il modo in cui è stata scelta, può ritenersi rappresentativa o tipica. Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del carattere studiato in tal caso definiamo:

media in senso stretto di una V.S. X è una qualsiasi funzione reale delle modalità e numerosità che soddisfi tre proprietà:

  1. Internalità  la media che deve essere compreso tra il minimo e il massimo valore assunto dalla variabile
  2. Monotonicità  date due V.S. X e Y, con osservazioni identiche salvo

(almeno) una per la quale sia yi >^ xi la media di y non può essere più piccola

della media di x

3. Moltiplicatività  se c è una costante reale e ogni modalità xi è moltiplicata

per c anche la media è moltiplicata per c

La definizione di media in senso stretto è però restrittiva: Può essere soddisfatta da medie calcolate su V.S. quantitative che quindi possono <<coinvolgere in un'unica funzione di sintesi matematica tutti i termine della

distribuzione xi e^ ni >>

Una media calcolata in questo modo si dice anche media analitica Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca Alcune medie lasche possono essere calcolate anche per V.S. qualitative ma non potranno non godere della seconda e terza proprietà. Le medie lasche sono la moda e la mediana (Di medie analitiche ce n'è una gran varietà la più naturale e di uso comune è la media aritmetica)

Definiamo medie che:  corrispondono alla modalità più osservata moda (media lasca)  corrispondono alla modalità di mezzo della popolazione, quella che sta al centro della distribuzione ordinata delle modalità mediana (media lasca)  corrispondono a una modalità virtuale che sei sostituita a tutte le modalità di fatto osservate lascia immutata una misura di sintesi della popolazione (media analitica)

Medie che Corrispondono …

Richiedono operazioni di …

Variabili statistiche

Alla modalità più osservata Moda

spoglio delle modalità, di qualunque tipo esse siano

Tutte ( nominali, ordinali, quantitative.)

Alla modalità ‘di mezzo’ Mediana

ordinamento delle modalità in una sequenza crescente o decrescente

Ordinabili (ordinali, quantitative)

Alla modalità che, sostituita alle singole xi, lascia immutata una misura di sintesi

sintesi algebrica (somma) delle caratteristiche/proprietà osservate sulle unità statistiche per determinare la corrispondente caratteristica/ proprietà collettiva

Solo quantitative

MODA Md (es. pag. 96) Il valore centrale più semplice è la moda la modalità che presenta la frequenza o numerosità più alta, questo indice può essere calcolato su qualsiasi tipo di variabile anche per le variabili qualitative con modalità non ordinate, può essere determinata facilmente anche se la distribuzione di frequenza è rappresentata solo attraverso un grafico (perché la barra più alta).

La mediana è una misura robusta dell'ordine di grandezza del fenomeno servato questo la rende preferibile agli altri valori centrali tipici delle variabili quantitative (L'opposto della robustezza e la sensitività) Quantitative  mediana Qualitative  mediana moda Qualitative non ordinabili  moda

QUANTILI (es. da pag. 106 a pag. 114) Se la mediana suddivide la distribuzione ordinata in due distribuzioni parziali che hanno ciascuno 50% dei casi, questa suddivisione può essere eseguita in un numero qualsiasi di distribuzioni parziali Q, aventi ognuna la Q-esima parte della numerosità complessiva delle unità statistiche. La modalità che si pone tra le varie distribuzioni parziali si chiama genericamente quantile.  Se Q = 2  quantili = mediana  Se Q = 3  quantili = terzili  Se Q = 4  quantili = quartili  Se Q = 5  quantili = centili o percentili N.B. la mediana corrisponde anche al 2° quartile

  • mi chiedono il 3° quartile  ¾ = 0,75 (cercherò quindi nella tabella 0, Il calcolo è simile al calcolo della Mediana

 Il c-mo quartile è la modalità X^ k la cui cumulata Fk è la prima a raggiungere o

superare f^ k =c/4 :

X k = 4 Qc ( X ) SSE Fk ≥^

c

e Fk − 1 <

c

 Il c-mo quintile è la modalità X^ k la cui cumulata Fk è la prima a raggiungere o

superare f k =c/5 :

X k = 5 Qc ( X ) SSE Fk ≥^

c

e Fk − 1 <

c

 Il c-mo decile è la modalità X^ k la cui cumulata Fk è la prima a raggiungere o

superare f^ k =c/10 :

X k = 10 Qc ( X ) SSE Fk ≥

c

e Fk − 1 <

c

Anche per le v.s. per classi il calcolo di un quantile è simile a quello di Me(x). Una volta individuata la ‘cllasse quantile’ si interpola

c-mo quartileMe(x) =

I Xk + ∆k ∙

− Fk − 1

f k

c-mo quintileMe(x) =

I Xk + ∆k ∙

- Fk − 1

f k

c-mo decileMe(x) =

I Xk + ∆k ∙

− Fk − 1

f k

c-mo percentileMe(x) =

I Xk + ∆k ∙

− Fk − 1

f k

Come scegliere il valore centrale più adeguato a sintetizzare la distribuzione?

  1. Vincoli imposti dal tipo di variabile da sintetizzare: quantitativa o cardinali qualitativa ordinamento si ordinamento no
  2. utilizzare il massimo dell'informazione disponibile: la media per esempio usa tutti i termini della distribuzione
  3. considerare la robustezza come proprietà di valore mediana utilizzabile anche per variabili quantitative ma con cautela ovvero se i valori anomali di una distribuzione si collocano al centro e non agli estremi si possono commettere dei gravi errori

VARIABILITA’

Poiché i caratteri statistici hanno diverse scale di misurazione individuiamo una misura di dispersione per ciascuna delle tre seguenti situazioni:

  1. per mutabili ordinali intorno alla mediana vedremo il range interquartilico
  2. Per variabili statistiche quantitative vedremo la misura regina della statistica ovvero la varianza
  3. per le mutabili sconnesse cercheremo un concetto di variabilità assimilabile a quella di dispersione intorno a un polo e proporremo l'eterogeneità

Range Cogliere la variabilità di un carattere vuol dire vedere quant’è la differenza tra i primi e gli ultimi, tra le unità di analisi che stanno all'inizio e quelle che stanno alla fine della serie ordinata. Range è la differenza tra l'ultima e la prima modalità della serie ordinate

R = X^ N − X 1

Ma risente di valori anomali. Meglio prendere come estremi su cui valutare il range, non proprio l'osservazione più piccola e più grande ma quelle osservazioni un po’ più interne alla serie, che si situano a uguale distanza dal valore centrale della serie ordinata, cioè a pari distanza dalla mediana. Se prenderemo la differenza tra il terzo e il primo quartile:

4 Q 3 − 4 Q 1 = Range Interquartile (IQR)

Se prendiamo le osservazioni del primo decile e del nono decile prenderemo:

10 Q 9 − 10 Q 1 = Range Interdecilico

Confrontiamo i range misurando la dispersione con le differenze tra quantili e ugual distanza dalla mediana! Se nel confronto tra due distribuzioni il range interciclico è molto diverso allora le differenze si riscontrano più che altro tra il 75° e il 90° percentile.

 Un osservazione viene definita outlier (valore anomalo) se ricade :

  • A più di 1.5 X IQR al di sopra del terzo quartile (ovvero se sta sopra al valore

ottenuto da 4 Q 3 +^ 1,5∗ IQR )

  • A più di 1.5 X IQR al di sotto del primo quartile (ovvero se sta sotto al valore

ottenuto da 4 Q 1 +1,5∗ IQR )

Attenzione  4 Q 3 = Q^^3 e^^4 Q 1 = Q^1

Varianza Per una variabile statistica quantitativa partiamo dal fatto che la media aritmetica è la misura di posizione che rende minima una funzione quadratica di perdita di informazioni:  E’ quindi ragionevole usare come misure di dispersione la funzione quadratica centrale sulla media aritmetica. La chiamiamo varianza

 (^) ∑ i = l

m

¿¿ Var (X)^ =^ V X = σ x^2

una misura di eterogeneità deve quindi basarsi esclusivamente sulle frequenze tale misura deve soddisfare due condizioni:

1. La misura sia sia ≥ = 0 e sia 0 in assenza di variabilità quando tutte le n

osservazioni corrispondono ad una sola modalità Z =

{

( A ) ( B ) ( C ) ( D )

0 0 N 0

  1. la misura sia massimo quando la popolazione si distribuisce equamente tra m

modalità con uguale frequenza 1/m. W ¿^ {

( A ) ( B ) ( C ) ( D )

N / 4 N / 4 N / 4 N / 4

L’indice E di Gini Tra gli indici che soddisfano le due proprietà uno è più semplice degli altri

Ex =∑ i = 1

m

In caso di assenza di eterogeneità tutte le frequenze sono nulle, tranne quella dell’unica modalità osservata che sarà = 1. Quindi E = 1 – 1 = 0

Z =

{

( A ) ( B ) ( C ) ( D )

0 0 N 0

i = 1

m

f i^2 = 1 −( 0 + 0 + 1 + 0 )= 1 − 1 = 0

In caso di massima eterogeneità tutte le m modalità hanno uguale frequenza

1/m, quindi :

W ¿^

{

( A ) ( B ) ( C ) ( D )

N / 4 N / 4 N / 4 N / 4

Emax = 1 −∑ i = 1

m

(

m )

2

= 1 − m

(

m

(^2) )=

( m − 1 )

m

Tre annotazioni:

1. Emax è sempre inferiore a 1, e tende a 1 se le modalità sono numerose

  1. Se E ha un massimo che varia col numero delle modalità osservate conviene

relativizzare E rapportandolo al suo massimo: E

¿

= E / Emax

  1. E ha un massimo, la varianza no (eccetto nel caso in cui i caratteri siano trasferibili )

E

¿ ha un campo di varianza utile da prendere come riferimento per commentare i risultati ottenuti:

0 ≤ E

¿

1. Se E ¿^ = 0  eterogeneità nulla

2. Se E ¿= 1  eterogeneità massima

3. Se 0 < E ¿^ ≤ 0,5  eterogeneità bassa

4. Se 0,5 < E

¿

≤^1 ^ eterogeneità alta

5. Se E

¿ = 0,5  eterogeneità intermedia / discreta (né alta, né bassa )

Normalizzazione La normalizzazione di una misura è una procedura con due significati diversi tra loro connessi.

  1. Un indicatore è normalizzato se è ‘ricondotto a norma’ sterilizzando (ovvero annullando) l’effetto di alcuni di disturbo Un modo per ‘normalizzare’ la varianza consiste nell’annullare l’effetto dell’ordine di grandezza della variabile definendo una quantità adimensionale detta coefficiente di variazione:

CV =

m

CV

sqm

media

CV è sempre > 0

  1. Un indice è normalizzato se è compreso tra un minimo e un massimo convenzionale di facile percezione

0 ≤ I ≤ 1

Rende possibile i confronti, se per un indice I si individuano un minimo e un massimo l’indice è sempre trasformabile nel suo equivalente normalizzato. Problema! Confrontare i valori di due o più distribuzioni statistiche che non hanno la stessa unità di misura Si rende necessario << riportare o disporre i valori osservati dei fenomeni sulla stessa unità di misura. Ogni volta che è necessario confrontare la distribuzione di due caratteri quantitativi che hanno medie e deviazioni standard molto differenti bisogna trasformare i valori originari in valori standardizzati cioè in valori che appartengono alla stessa scala la cui unità di misura diventa la deviazione standard.

Standardizzare Chiamiamo standardizzare di una v.s. X l’affiancamento alla sua legge di distribuzione di una trasformata Z:

X =

xi

ni

 Z =

zi =

xi − mx

σ x

ni

Si dimostra che qualunque sia la v.s. X la sua standardizzata Z =

X − mx

σ x

ha sempre

media nulla e varianza unitaria. (Quando c'è la Z stiamo lavorando con una trasformata) Come standardizzare una variabile:

zi =

xi − mx

σx

f i zi f i zi^2 f i

z 1 =

x 1 − mx

σx

f 1 z 1 f 1 z 12 f 1

z 2 =

x 2 − mx

σx

f 2 z 2 f 2 z 22 f 2

z 3 =

x 3 − mx

σ x

f 3 z 3 f 3 z 32 f 3

z 4 =

x 4 − mx

σx

f 4 z 4 f 4 z 42 f 4

z 5 =

x 5 − mx

σ x

f 5 z 5 f 5 z 52 f 5

Standardizzare una variabile e semplice basta sostituire alle modalità xi le

corrispondenti modalità

zi =

xi − mx

σx

trasformate ad esse si affiancano le stesse numerosità o frequenze che non

vengono toccate potete verificare che m(Z) e nulla e che V(Z) calcolata è proprio 1.

! Se la variabile statistica e per classi la frequenza non cambiano ma le densità di frequenza si per il e denominatore della formula della densità di frequenza.

Z =

zi =

xi − mx

σ x

ni

In presenza di potenziali outlier si estendono fino a Q3 + 1,5 * IQR e Q1 – 1,5*IQR gli outler si identificano nel grafico oltre i baffi. Se un’osservazione è più piccola del limite inferiore o più grande del limite superiore è definita outlier. ‘potenziali’ : criterio di identificazione è arbitrario.

Immagina che la curva costruita rappresenti un modello teorico di riferimento utile a valutare come si distribuisce l’altezza entro un campione di studentesse, rigorosamente estratto secondo criteri di casualità. La casualità fa entrare in gioco la probabilità, perché l’altezza che avrà la studentessa estratta non è prevedibile a priori con certezza. La distribuzione normale:  Assume tutti i valori nell’insieme dei numeri reali

 È simmetrica con media pari μ e a σ^2 varianza

 I punti di flesso nella funzione di densità di probabilità sono μ − σ e μ + σ

! in ordine c’è la funzione di densità di probabilità [analoga alla δ ( x )nel caso di

variabile statistica deterministiche] La normale standard (z):  Molti fenomeni sono interpretabili come v.c. con distribuzione normale  Per calcolare le probabilità del verificarsi di specifiche realizzazioni bisogna guardare al valore della funzione di ripartizione ovvero all’area sottostante alla funzione di densità della probabilità  È possibile standardizzare la variabile e utilizzare i valori delle aree di probabilità già calcolati e riportati entro le tavole della normale standard

Funzione di densità di probabilità della N(0;1) = Φ ( z ) = 1

√ 2 π

∙ e

z^2 2

Tre osservazione sulla normale standard:

  1. I valori negativi non compaiono in quanto la v.s. è simmetrica
  2. Le tavole riportano le probabilità solo per valori di z inferiori a 3,9 questi sono sufficienti per calcolare la probabilità di qualunque intervallo anche con estremi superiori o inferiori a 3,
  3. In certi casi la probabilità Passi per calcolare gli intervalli di probabilità con la normale standard Z:
  4. Capire se è necessario standardizzare per passare dalla normale N a quella standardizzata Z
  5. Fare il grafico della variabile Z identificando le aree di probabilità cercate
  6. ragionare graficamente su come ritrovare le aree ignote sapendo quali probabilità fornisce la tavola
  7. ricercare sulla tavola le probabilità necessarie sapendo che l'estremo Zeta può essere identificato da un numero intero o da uno o due decimali
  8. scegliere lungo la prima colonna della tavola su quale riga collocarsi in base al numero intero e al primo decimale ad esempio se l'estremo Z uguale 1,55 si scorre la prima colonna fino alla riga corrispondente a 1,
  9. in base alla seconda cifra decimale e identificare la colonna con la quale incrociare la riga dell'intero e primo decimale se zitto uguale 1,55 la colonna in cui collocarsi sarà la sesta quella corrispondente a 0,
  10. ritornare all'intervallo cercato i calcolare la probabilità finale

ANALISI STATISTICA BIVARIATA

Nell’analisi statistica bivariata si studia la variabilità di un fenomeno mediante l’associazione (o la dispersione) con un altro fenomeno, entrambi osservati sul medesimo collettivo di unità statistiche. Studiamo l’associazione o dispersione tramite:  La connessione (principalmnete per caratteri qualitativi) per valutare se esiste una associazione statistica tra due caratteri;  La correzione e regressione lineare (caratteri quantitativi) per valutare se esiste una forma di dipendenza lineare, o per descrivere analiticamente come un carattere è funzione dell’altro (utile per effettuare previsioni)

I dati per l’analisi statistica della dipendenza sono organizzati in forma di tabella di contingenza o tabelle a doppia entrata. Queste tabelle mostrano il numero di unità statistiche osservate per tutte le possibili combinazioni delle modalità delle due variabili considerate. La tabella a doppia entrata rappresenta la distribuzione statistica congiunta della variabile statistica doppia (x,y)

nij = numerosità congiunte : numero di unità statistiche che <>

contemporaneamente la modalità i del carattere x (posizionato ad intestare le righe) e la modalità j del carattere Y ( posizionato ad intestare le colonne) Es.

n 24 : non va letto come << n ventriquattro>> ma come numero di unità statistiche

che <> la seconda modalità del carattere X e la quarta del carattere Y

ni ∗¿¿ = numerosità margine di riga : numero si unità statistiche che

<> la modalità i del carattere X; è rappresentata dalla somma delle numerosità congiunte della riga i-esima.

n ¿ j = numerosità margine di colonna : numero si unità statistiche che

<> la modalità j del carattere Y; è rappresentata dalla somma delle numerosità congiunte della colonna i-esima.

 Le due colonne ai margini sinistro e destro riproducono la distribuzione univariata X  Le due righe ai margini alto e basso della tabella riproducono la distribuzione univariata di Y  Il copro centrale della tabella a doppia entrata contiene la distribuzione congiunta della v.s.

Frequenze congiunte  f^ ij = nij / N

Se osserviamo la distribuzione univariata del carattere VOTO all’esame di stat. Soc. notiamo che il numero delle modalità è pari ad 11. Si tratta di un numero eccessivo che richiederebbe una tabella di difficile lettura: genere (2 modalità) X voto ( 11 modalità) = tabella 2x per tale ragione è necessario preliminarmente riclassificare il carattere VOTO per arrivare ad una tabella a doppia entrata come quella che appare di seguito: 2x4.

Y = variabile di risposta o dipendente X = variabile condizionante indipendente Chiediamoci :

  1. quante distribuzioni condizionate Y|X osservo?
  2. Sono tra loro uguali o diverse?
  3. Cosa significa che sono diverse?
  4. Il peso relativo di chi ha preso un VLT <> è il medesimo tra i gruppi di popolazione?
  5. Il peso relativo di chi ha preso un VLT <> è il medesimo tra i gruppi di popolazione?
  6. Osservo una tendenza chiara, univoca?
  7. Se le distribuzioni fossero uguali tra di loro cosa si potrebbe concludere?

Possiamo anche identificare le distribuzioni condizionate per colonna, ovvero le modalità di Y definiscono i gruppi entro cui si osserva la distribuzione della variabile x:

f i ∨ j =

nij

ni ∗¿ ¿

Definizione indipendenza stocastica : c’è indipendenza stocastica di v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare

delle modalità condizionanti di X, cioè se f^ i ∨ j = f^ ¿ j per ogni ( ∀^ i^ ,^ j ¿

vale anche il viceversa: f^ i ∨ j = f^ i ∗¿¿ per ogni i,j ( ∀^ i^ ,^ j ¿

la proprietà di indipendenza statistica (o stocastica) è simmetrica: l’indipendenza di Y da X implica cioè quella di X da Y.

Se poi formuliamo le frequenze come rapporti tra numerosità, la definizione generale “ f^ i ∨ j =

f ¿ j per ogni i,j” diventa “ nij / ni ∗¿ ¿ = n ¿ j / N da cui si trae:

nij ∗¿= nij * = ( ni ∗¿ ∙n ¿ j ¿/N

O dividendo entrambe le parti per N

f ij e = f i ∗¿¿x f ¿ j

f ij * : numerosità congiunte teoriche o <>, <> ovvero: come

dovrebbe essere le numerosità congiunte in un caso teorico di indipendenza stocastica.

Condizione necessaria e sufficiente : perché ci sia indipendenza stocastica tra X e

Y è che le numerosità congiunte nij siano fattorizzabili (cioè scomponibili in fattori) nel

prodotto -diviso per N- delle corrispondenti numerosità marginali, ovvero che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali. “ condizione necessaria e sufficiente” vuol dire che: a) Se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) Se le frequenze sono fattorizzabili c’è indipendenza stocastica

L’INDICE CHI-QUADRATO - Pearson Una misura soddisfacente del grado di connessione (dipendenza statistica) tra due

variabili è data da x^2 (si legge ‘chi’) accompagnato dall’esponente 2  chi-quadrato

x

2 = (^) ∑ i = 1 , j = 1

r ,s ( n

ij

0

− nij

e

2

nij

e

x

2 =∑ i = 1

rj = 1

s ( n

ij

0

− nij

e

2

nij

e

 (^) x^2 =∑ i = 1

rj = 1

s

¿ ¿ ¿ ¿ ^ formula teorica

nij

0

= numerosità congiunte realmente osservate. Ovvero : le nij della tabella da cui si

parte per valutare il grado di connessione esistente.

nij

e =¿^ ¿^ numerosità congiunte <> o teoriche sono indicate anche con

nij

¿

cij =( nij 0

− nij

0 )= contingenze

Per comprendere il significato dell’indice è utile soffermarsi sulla formula con le contingenze:

x

2 =∑ i = 1

rj = 1

s

Quattro osservazioni:

  1. Ogni singola contingenza ci racconta dello scostamento tra una frequenza osservata e quella teorica/ attesa di indipendenza statistica.
  2. Se vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle singole contingenze: occorre calcolarne una qualche ‘media’.
  3. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche

trasformazione ≥ 0. Come il valore assoluto o i quadrati. E poi farne la somma.

4. Infine per riportare all’ordine di grandezza dei dati la somma la dividiamo per nij

e

e non per nij^0 (non si possono fare dei rapporti in cui al denominatore può

capitare uno zero)!

*facciamo alla seconda perché nij

e

e nij

0 possono venire < 0

Caratteristiche chi-quadrato:

 x^2 è la somma di tanti rapporti i cui i numeratori sono quadrati (quindi sempre ≥

  1. e i denominatori sono prodotti di frequenze marginali

 x^2 è zero se e solo se tutte le differenze al numeratore sono pari a zero cioè se e

solo se ( nij^0 - nij^ e ) = 0 (solo se nij^ e^ = nij^0 ) per ogni i , j; dunque nel caso di

indipendenza stocastica;

 x^2 cresce, allontanandosi da zero, al crescere della distanza della distribuzione

congiunta osservata da quella di indipendenza;

formula definitoria di x^2 :

x

2 = (^) ∑ i = 1 , j = 1

r ,s

( nij

0

− nij

e

2

nij

e = N x^ ¿

Normalizzazione di chi quadrati

Si può dimostrare che l’indice x^2 ha un massimo pari al minore tra il numero di righe e

il numero di colonne, meno 1 e il tutto moltiplicato per N:

xmax

2

= N x [ min (^ r , s )− 1 ]

È intuitivo che il valore massimo, corrispondente alla situazione di massima connessione, si può realizzare solo nel caso in cui la tabella della distribuzione congiunta sia quadrata (r=s) Ma anche con questo lieve difetto il valore massimo ci consente di normalizzare l’indice:

0 ≤ xmax

2 ∗¿¿

x

2

xmax

2 ≤^^1

Supponiamo di voler studiare la dipendenza funzionale tra un carattere quantitativo Y e un carattere qualitativo o quantitativo discreto X, nell’ottica della dipendenza del primo dal secondo (e viceversa) Il fatto che Y sia quantitativa, ci permetterà di percorrere un’altra strada per individuare la dipendenza funzionale da X. Ci porterà a calcolare quanta parte dell’intera variabilità di Y, è spiegata scomponendo la popolazione analizzare in più sottopopolazioni, distinte in base alle modalità della variabile explanans. Questa strada richiede di avere a che fare con una variabile da spiegare quantitativa, ma non pone nessun limite sul tipo di carattere dell’altra variabile che può essere anche nominale. Procedimento di scomposizione della varianza Durkheim ha cercato di analizzare la relazione tra due variabili osservate in una popolazione con una logica innovativa. I suoi dati si riferivano alla composizione per credo religioso (x) e al tasso di suicidio x 100000 abitanti (y) in otto province (N) della baviera

Regione X= Presenza cattolici

Y Regione X= Presenza cattolici

Y

Palatinato renano

Minoranza (1) 167 Svevia Maggioranza(2) 118

Franconia centr.

Minoranza (1) 207 Alto Palatinato Quasi totalità 64

Alta Franconia Minoranza (1) 204 Alta Baviera Quasi totalità 114 Bassa Franconia

Maggioranza(2) 157 Bassa Baviera Quasi totalità 49

X : carattere qualitativo ordinale; Y : carattere quantitativo continuo | Durk. Pensava che dove fosse presente la religione ci fosse un grado minore di suicidi |

Traduciamo questi dati sotto forma di distribuzione congiunta in due modi distinti:

  1. distribuzione congiunta in forma di tabella a doppia entrata (pag.201)
  2. una delle due variabili è qualitativa ordinale l’altra è quantitativa, se diamo ad ogni modalità del carattere in forma di diagramma di dispersione. Il grafico ha comunque una sua forte capacità di parlare, ci lascia l’impressione di una relazione inversa tra X e Y: al crescere della presenza di cattolici nelle province cala il tasso di suicidio. Perché calcolando per ogni sub-popolazione (definita dalla quota di presenza cattolica) la media dei tassi di suicidio

xi y j y 1 y 2 y 3 y j … ni ∗¿¿ M(Y| xi ¿=¿

I = minoranza 167 204 207 … 3 [167 + 204 + 207]/3 = 192, II = maggioranza 118 157 … … 2 [118 + 157]/2=137, III = Unanimità 49 64 114 … 3 [49,64,114]/3=75,

La media condizionata M(Y| xi ) di Y rispetto a una sub-popolazione definitiva dalla i-

esima modalità di X (^) { X = xi } è la media della corrispondente distribuzione condizionata

 mediamente si riduce tasso di suicidi con maggioranza di cattolici

Se congiungiamo con una spezzata i punti di coordinate ¿ vedo chiaramente che al

crescere di X la media condizionata diminuisce sempre. ! si può dimostrare che la media ponderata delle medie condizionate è = M(Y) ovvero:

i

M ¿ ¿

 grafico pag. 203

  • i punti del grafico sono i dati empirici
  • la linea di regressione ci spiega il dinamismo della società
  • la nostra linea spezzata riproduce la nostra nuvola iniziale
  • abbiamo calcolato le medie ora calcoleremo le varianze Avendo la media vediamo quanto sono dispersi i tassi dei suicidi di quel gruppo La spezzata che interpola i dati del diagramma di dispersione, congiungendo a due a

due i punti di coordinate ¿ è quindi un ottimo strumento di visualizzazione delle

tendenze nascoste nel diagramma. La chiamiamo linea (o spezzata) di regressione

xi ¿ i 70 130 190 ni ∗¿¿

I 0 0 3 3 [(190*3)]/3=

II 0 2 0 2 [(130*2)]/2=

III 2 1 0 3 [(702)+(1301)]/

Tot 2 3 3 8

Nota: possiamo calcolare le medie condizionate anche dopo che abbiamo abbiamo riaggregato le coppie di dati osservati in classi. Ovvio che, sostituendo in questo caso a ogni valore osservato il valore centrale della classe corrispondente, il risultato può essere distorto. Grafico 2 pag. 203 Vediamo che la distanza tra uno qualunque dei valori di Y e la M(Y) è la somma di due

distanze: quella tra yi e la media condizionata della corrispondente sub-popolazione

M ¿) e quella tra questa media condizionata e la M(Y).

Le due dispersioni: la linea delle medie condizionate costituisce una sorta di linea spartiacque o linea divisoria tra due tipi di dispersioni: a) la dispersione delle modalità di Y osservate entro ogni sottogruppo, intorno alla

media condizionata [M| xi ¿;

b) la dispersione delle medie condizionate stesse intorno alla media generale di Y [M(Y)].

Durk. Nota che i dati mostrano due proprietà: a) al crescere di X il carattere Y mediamente diminuisce b) tutte le cifre sono maggiori di quelle del secondo, quelle del secondo maggiori di quelle del terzo, senza la minima irregolarità.. cioè: non solo le medie ‘condizionate’, entro i sottogruppi definiti dal carattere X, crescono con continuità, ma entro ogni sottogruppo i valori osservati di Y sono ben addensati intorno alla loro media: hanno insomma varianza intorno alla media condizionata (cioè varianza condizionata) contenuta, rispetto alla varianza totale di Y (dispersione delle singole modalità di Y dalla M(Y)