Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica di Base - Mecatti, Dispense di Statistica

Appunti con integrazione libro

Tipologia: Dispense

2017/2018

Caricato il 22/01/2018

mirko-meloni
mirko-meloni 🇮🇹

4

(7)

6 documenti

1 / 28

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Introduzione Statistica
1
STATISTICA: insieme di metodologie e tecniche per la trattazione quantitativa dei fenomeni osservabili nella
realtà sociale, in natura, in laboratorio.
Per trattazione quantitativa intendiamo un percorso logico che prevede: l’osservazione(rilevazione), l’analisi
(elaborazione), la comprensione (trasformazioni di dati in informazioni). Successivamente prendiamo
decisioni. Questo processo è svolto per prendere qualsiasi tipo di decisione.
Definizioni base:
Popolazione statistica (U) -> collettivo delle unità statistiche su cui interessa un particolare fenomeno. Può
essere chiamato target, è composto da un insieme di unità statistiche. È la popolazione su cui manifesta un
fenomeno.
Fenomeno statistico (X) è il fenomeno d’interesse per la statistica, è la cornice di caratterizzazione o un
concetto.
Manifestazione/modalità(x) -> le modalità in cui si manifesta il fenomeno (può essere svariate cose).
Numerosità di U (N) -> in genere è un numero intere, se è un numero tanto elevato può essere anche
considerato come ∞. È il numero di unità statistiche che compongono la popolazione.
Classificazione dei fenomeni statistici
-> QUALITATIVI (fenomeni che si manifestano nella popolazione osservata attraverso attributi o categorie,
qualità appunto). Possono essere ordinali (si manifestano con attributi e categorie che si possono ordinare
secondo un qualche criterio oggettivo e convenzionalmente accettato) e categoriali (non c’è un criterio
oggettivo per ordinare le categorie).
-> QUANTITATIVI (si manifestano nella popolazione osservata attraverso numeri, quantità appunto). Possono
essere discreti(possiamo contare, enumerare) e continui (si possono misurare con una unità di misura o con
un intervallo).
Scale di modalità: sono costituite dall’insieme di tutte le diverse manifestazioni di X su U. Devono rispettare
due principi generali: esaustività (deve prevedere tutte le possibili manifestazioni di X che potenzialmente si
possono osservare su U) e mutua esclusività (le modalità si devono escludere a vicenda).
Le scale di modalità sono:
QUALITATIVE (se le modalità sono attributi o categorie) . Si dividono in scale qualitative ordinali (se
sono ordinabili secondo un criterio oggettivo o convenzionalmente accettato) o sconnesse (se non
possono essere ordinate secondo un criterio oggettivo).
QUANTITATIVE (le modalità sono numeri).. Si dividono in scale quantitative rapporto (l’origine è 0 e
ha un significato assoluto, cioè assenza del fenomeno) o non rapporto (l’origine non è assoluto ma
convenzionale -es. gradi).
Si dice scala dicotomica (o binaria) una SdM con solo due modalità. Indicheremo con k il numero di diverse
modalità della scala utilizzata. Per quanto riguarda gli intervalli indicheremo con xl l’estremo inferiore e con
xL l’estremo superiore. Indichiamo con xi la generica manifestazione; con xi:xlͱxL quando xi è un intervallo;
con i=1….k le diverse manifestazioni del fenomeno.
Alcuni fenomeni quantitativi possono essere rilevati su scala qualitativa, e viceversa. La natura di un
fenomeno può essere discreta o quantitativa in base alle modalità che vogliamo attribuirgli noi: se un
numero specifico o un intervallo.
La STATISTICA ha due funzioni: statistica descrittiva (funzione di descrivere il comportamento di X su U) e la
statistica inferenziale (estendere i dati osservati, sull’intera popolazione).
La statistica descrittiva si compone di: -statistica mono-variata (ha per oggetto un unico fenomeno e come
obbiettivo la descrizione sintetica del suo comportamento su U); -statistica bi-variata (due fenomeni,
obbiettivo: individuazione e studio delle eventuali relazioni statistiche fra i due); -multi-variata (fenomeni
sono più di due, obbiettivo: descriverne il comportamento congiunto e studiarne le relazioni,
congiuntamente e per loro sottoinsiemi).
La statistica inferenziale è basata su dei campioni di tipo casuale scelti sulla totalità dei dati che
esaurirebbero l’osservazione di U. Vi sono elementi di teoria delle probabilità.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c

Anteprima parziale del testo

Scarica Statistica di Base - Mecatti e più Dispense in PDF di Statistica solo su Docsity!

Introduzione Statistica

STATISTICA : insieme di metodologie e tecniche per la trattazione quantitativa dei fenomeni osservabili nella

realtà sociale, in natura, in laboratorio.

Per trattazione quantitativa intendiamo un percorso logico che prevede: l’ osservazione (rilevazione), l’ analisi

(elaborazione), la comprensione (trasformazioni di dati in informazioni). Successivamente prendiamo

decisioni. Questo processo è svolto per prendere qualsiasi tipo di decisione.

Definizioni base:

Popolazione statistica ( U ) - > collettivo delle unità statistiche su cui interessa un particolare fenomeno. Può

essere chiamato target, è composto da un insieme di unità statistiche. È la popolazione su cui manifesta un

fenomeno.

Fenomeno statistico ( X ) è il fenomeno d’interesse per la statistica, è la cornice di caratterizzazione o un

concetto.

Manifestazione/modalità( x ) - > le modalità in cui si manifesta il fenomeno (può essere svariate cose).

Numerosità di U ( N ) - > in genere è un numero intere, se è un numero tanto elevato può essere anche

considerato come ∞. È il numero di unità statistiche che compongono la popolazione.

Classificazione dei fenomeni statistici

- > QUALITATIVI (fenomeni che si manifestano nella popolazione osservata attraverso attributi o categorie,

qualità appunto). Possono essere ordinali (si manifestano con attributi e categorie che si possono ordinare

secondo un qualche criterio oggettivo e convenzionalmente accettato) e categoriali (non c’è un criterio

oggettivo per ordinare le categorie).

- > QUANTITATIVI (si manifestano nella popolazione osservata attraverso numeri, quantità appunto). Possono

essere discreti(possiamo contare, enumerare) e continui (si possono misurare con una unità di misura o con

un intervallo).

Scale di modalità : sono costituite dall’insieme di tutte le diverse manifestazioni di X su U. Devono rispettare

due principi generali: esaustività (deve prevedere tutte le possibili manifestazioni di X che potenzialmente si

possono osservare su U) e mutua esclusività (le modalità si devono escludere a vicenda).

Le scale di modalità sono:

 QUALITATIVE (se le modalità sono attributi o categorie). Si dividono in scale qualitative ordinali (se

sono ordinabili secondo un criterio oggettivo o convenzionalmente accettato) o sconnesse (se non

possono essere ordinate secondo un criterio oggettivo).

 QUANTITATIVE (le modalità sono numeri).. Si dividono in scale quantitative rapporto (l’origine è 0 e

ha un significato assoluto, cioè assenza del fenomeno) o non rapporto (l’origine non è assoluto ma

convenzionale - es. gradi).

Si dice scala dicotomica (o binaria) una SdM con solo due modalità. Indicheremo con k il numero di diverse

modalità della scala utilizzata. Per quanto riguarda gli intervalli indicheremo con x l

l’ estremo inferiore e con

x L

l’ estremo superiore. Indichiamo con x i

la generica manifestazione; con x i

:x l

ͱx L

quando x i

è un intervallo;

con i=1….k le diverse manifestazioni del fenomeno.

Alcuni fenomeni quantitativi possono essere rilevati su scala qualitativa, e viceversa. La natura di un

fenomeno può essere discreta o quantitativa in base alle modalità che vogliamo attribuirgli noi: se un

numero specifico o un intervallo.

La STATISTICA ha due funzioni: statistica descrittiva (funzione di descrivere il comportamento di X su U) e la

statistica inferenziale (estendere i dati osservati, sull’intera popolazione).

La statistica descrittiva si compone di: - statistica mono-variata (ha per oggetto un unico fenomeno e come

obbiettivo la descrizione sintetica del suo comportamento su U); - statistica bi-variata (due fenomeni,

obbiettivo: individuazione e studio delle eventuali relazioni statistiche fra i due); - multi-variata (fenomeni

sono più di due, obbiettivo: descriverne il comportamento congiunto e studiarne le relazioni,

congiuntamente e per loro sottoinsiemi).

La statistica inferenziale è basata su dei campioni di tipo casuale scelti sulla totalità dei dati che

esaurirebbero l’osservazione di U. Vi sono elementi di teoria delle probabilità.

Statistica descrittiva uni-variata (mono-variata)

DISTRIBUZIONI DI FREQUENZE, TABELLE E GRAFICI

Il risultato della rilevazione è una serie confusa di modalità x i

che si manifestano su N e sono dati in modo

sparso. Questi vengono definiti dati grezzi i quali devono essere posti a sintesi successive, con l’obbiettivo di

far emergere dati e informazioni utili a descrivere il comportamento di X su U. La prima fase di sintesi consiste

nella creazione di tabelle e grafici che rendano i dati più leggibili. Queste tabelle prendono il nome di variabili

statistiche.

La frequenza assoluta di ciascuna modalità osservata x i

è il numero di unità statistiche, tra le N osservate,

manifesta quella modalità x i

di X. Indicheremo la frequenza assoluta con f i

L’insieme delle k frequenze (assolute) è detta distribuzione di frequenze assolute di X su U.

N è la somma delle frequenze assolute. Il complesso della tabella (p. 27) costituisce la v.s. (k coppie di tipo

modalità, frequenza).

Schema p.

x i

contiene le modalità, mentre f i

può contenere solo numeri interi ≥ 0 e con somma pari a N. Il complesso

della tabella costituisce la variabile statistica, che è l’insieme di k coppie del tipo “modalità, frequenza”.

Se l’obbiettivo è confrontare le distribuzioni di frequenze di X in due (o più) popolazioni dovremo depurare

le frequenze assolute dall’influenza di N costruendo le frequenze relative. La frequenza relativa associata alla

modalità x i

è il rapporto tra le frequenze assolute e la numerosità N. Indicheremo la frequenza relativa con p i

e in formule : 𝑝 𝑖

𝑓

𝑖

𝑁

. Otteniamo il peso che ciascuna modalità ha sull’intera popolazione.

DIMOSTRAZIONE DELLA FORMULA:

𝑖

𝑘

𝑖= 1

= 1 k =numero qualunque intero. N

𝑖

𝑖

𝑘

𝑖= 1

𝑘

𝑖= 1

1

2

𝑘

𝑖

𝑘

𝑖= 1

×𝑁 = 1

La colonna delle frequenze relative costituisce la distribuzione di frequenze relative di X su U.

Quando il fenomeno è almeno ordinale (qualitativo ordinale o quantitativo) possiamo fare un’ulteriore

analisi. Quando abbiamo questi tipi di analisi è consuetudine costruire la v.s. ponendo in ordine in senso

crescente le x i

. Sommare, tecnicamente cumulare , le frequenze associate alle modalità inferiori di x i

, ci fa

costruire le frequenze cumulate. Indicheremo le frequenze assolute cumulate con F i

e le frequenze relative

cumulate con la “phi” maiuscola: ф i

𝑖

1

2

𝑖

𝑗

𝑖

𝑗= 1

ф

𝑖

1

2

𝑖

𝑗

𝐹 𝑖

𝑁

𝑖

𝑗= 1

𝑖

𝑖

} - > fenomeno che si presenta in maniera minore o uguale alla i-esima.

ф 𝑖

𝑖

  • freq.rel.con cui il fenomeno si presenta sulla popolazione in maniera ≤alla i-esima.

Proprietà delle frequenze cumulate:

 Fenomeni almeno ordinali

 0 < F

i

< N ; F

1

=f 1

; F

k

= N 0 < ф i

< 1 ; ф 1

=p 1

; ф k

 Tra le frequenze cumulate esiste una corrispondenza biunivoca e ricorsiva: se conosciamo le

frequenze (assolute o relative) possiamo ottenere le cumulate e se conosciamo le cumulate possiamo

ottenere le frequenze. In formule: 𝐹

𝑖

𝑖− 1

𝑖

𝑖− 1

𝑖

𝑖

; ф

1

− ф

𝑖− 1

𝑖

𝑒 ф

𝑖− 1

𝑖

= ф

𝑖

Discorso diverso si deve fare per quanto riguarda i fenomeni quantitativi continui che si rilevano con degli

intervalli. La v.s. ci informa che in quell’intervallo ci sono f i

unità statistiche, ma non ci informa in che modo

Statistica descrittiva uni-variata (mono-variata)

per raggiungere x

. Sull’istogramma le aree sono le frequenze, sappiamo che tutta l’area dell’istogramma

vale N e che la mediana divide N in due parti (N/2). L’area a sinistra di x l

coincide con la frequenza di tutte le

modalità ≤x l

, cioè la frequenza cumulata F i- 1

. Ne segue che per differenza possiamo calcolare l’area del sotto-

rettangolo che ci interessa: 𝑎𝑟𝑒𝑎 𝑑𝑒𝑙 𝑠𝑜𝑡𝑡𝑜𝑟𝑒𝑡𝑡𝑎𝑛𝑔𝑜𝑙𝑜 𝑒𝑣𝑖𝑑𝑒𝑛𝑧𝑖𝑎𝑡𝑜 =

𝑁

2

𝑖− 1

Siccome l’area del rettangolo è base per altezza, si ottiene la base dividendo l’area per l’altezza:

𝑁

2

−𝐹

𝑖− 1

𝜑

𝑖

Infine cci ricordiamo la definizione di densità di frequenza: 𝜑 𝑖

𝑖

𝐿

𝑙

Mettiamo insieme tutti i pezzi: 𝑥

  1. 5

𝑙

(

𝑁

2

−𝐹

𝑖− 1

)

𝜑

𝑙

𝑁

2

𝑖− 1

𝑥

𝐿

−𝑥

𝑙

𝑓

𝑖

La stessa formula si può anche calcolare utilizzato le frequenze relative e sarà: 𝑥

  1. 5

𝑙

  • ( 0. 5 − ф

𝑖− 1

𝑥

𝐿

−𝑥

𝑙

𝑝

𝑖

MEDIA ARITMETICA-> La media aritmetica (che indicheremo con 𝑥̅ , “x medio”) è calcolabile su fenomeni

quantitativi (o qualitativi ordinali rilevati con scala quantitativa), è espressa con la stessa unità di misura con

cui X si manifesta su U, ci dà un’informazione sintetica dell’ordine di grandezza di X su U ed è una sintesi

dell’INTERA v.s.. è semplice da calcolare: bisogna moltiplicare le k modalità osservate per le f i

, sommare il

tutto e infine dividere per il numero N di unità statistiche osservate. In formule 𝑥̅ =

1

𝑁

𝑖

𝑖

𝑖

𝑖

𝑘

𝑖= 1

𝑘

𝑖= 1

Se X è quantitativo continuo e le sue modalità sono degli intervalli, la media 𝑥̅ è in genere calcolata sull’ipotesi

del valore centrale 𝑥

𝑖

PROPRIETA’ DELLA MEDIA ARITMETICA

Proprietà di internalità. Il valore della media aritmetica è sempre compreso tra la più piccola e la più grande

delle modalità osservate di X: in formula 𝑥 𝑚𝑖𝑛

𝑚𝑎𝑥

Proprietà di omogeneità.Se X e Y sono due fenomeni diversi ma collegati tra lodo dalla formula 𝑌 = 𝑎𝑋 dove

a è un qualunque numero (costante) diverso da 0, si dice che Y è una trasformazione di scala di X: la media

aritmetica di Y si ottiene dalla media aritmetica di X, con la stessa identica trasformazione: 𝑦̅ = 𝑎𝑥̅.

Proprietà associativa. Quando U è molto numero è una pratica sensata utilizzare dati aggregati anziché dati

individuale. Formalmente si tratta di considerare U di numerosità N, suddivisa in un certo numero, diciamo

h, di sottopopolazioni U j

ciascuna di numerosità N j

con j=1,…,h e

𝑗

𝑗= 1

. Quello che ci interessa è

sempre sapere la media generale sull’intera U. Non disponiamo però dei dati individuali (le xi e le fi) ma solo

dei dati aggregati, cioè le medie 𝑥 ̅ 𝑗

nelle sottopopolazioni.

SCHEMA P.

La proprietà che ci serve è quella associativa: la media (generale) di X (su U) è sempre raggiungibile dai dati

aggregati (sulle sottopopolazioni U j

), basta calcolare la media delle medie delle sottopopolazioni. Si tratta di

usare le medie parziali𝑥̅

𝑗

al posto delle modalità 𝑥

𝑖

e le numerosità N j

al posto delle frequenze f i

. In formule:

1

𝑁

𝑗

𝑗

𝐽= 1

. - > formula non ufficiale…. 𝑥̅ =

𝑥̅

1

×𝑁 1 +𝑥̅

2

×𝑁 2 +⋯+𝑥̅

𝑘

×𝑁𝑘

𝑁 1 +𝑁 2 +⋯+𝑁𝑘

Proprietà di annullamento degli scarti. La media aritmetica svolge il suo lavoro di sintesi della v.s. garantendo

la compensazione delle differenze tra i valori x i

osservati e il valore medio di sintesi 𝑥̅. In formule è più chiaro:

Le differenze (x i

  • 𝑥̅ ) sono dette scarti o deviazioni della media aritmetica. Se poi si tiene conto del fatto che il

valore x i

è presente su U con frequenza f i

, si ha lo scarto ponderato (x i

  • 𝑥̅ )f i . Quando lo scarto è positivo si ha

un valore sopra-media, se no sotto-media. Proprietà: I valori sopra e sotto-media si compensano, cioè se si

sommano tutti i k scarti ponderati si ottiene (sempre) 0. È garantito solo per la media.

DIMOSTRAZIONE di

𝑖

𝑖

𝑘

𝑖= 1

Statistica descrittiva uni-variata (mono-variata)

𝑖

𝑖

𝑘

𝑖= 1

𝑖

𝑖

𝑘

𝑖= 1

𝑖

𝑘

𝑖= 1

𝑖

𝑘

𝑖= 1

Proprietà di mantenimento e di equidistribuzione del totale. La somma di tutti i valori di su tutte le N unità

osservate prende il nome di totale di X : in formule

𝑖

𝑖

𝑘

𝑖= 1

Questa formula è uguale a 𝑁𝑥̅ che è uguale a ∑ 𝑥̅ 𝑓 𝑖

𝑘

𝑖= 1

. Questa formula definisce un’altra proprietà esclusiva

della media aritmetica: se ai valori x i

osservati sostituiamo la media aritmetica 𝑥̅ che sintetizza tutti, il totale

di X non cambia. Allora la media aritmetica mantiene inalterato il totale; inoltre, se il totale di X fosse diviso

in parti uguali tra le N unità di U, a ciascuna unità toccherebbe una quota di totale pari a 𝑥̅. Allora la media

aritmetica equidistribuisce il totale di X su N unità di U.

VARIABILITA’

ESEMPIO DI TRILUSSA PAGINA 83

La variabilità (o dispersione di X) è l’attitudine di un fenomeno quantitativo a manifestarsi nelle N unità di U,

con modalità tra loro diverse e distanti. È lo scopo della statistica: la variabilità è ciò che rende necessario il

ricorso alla strumentazione statistica per l’analisi e la comprensione di un fenomeno su U.

La variabilità assume valore 0, in assenza di essa (ovvero quando le modalità sono costanti); assume valori

positivi quando X si manifesta su U con molteplici e differenti modalità e assume valori sempre più elevati

all’aumentare della variabilità. Una misura di variabilità che utilizza tutta la v.s. è la deviazione standard di X

(chiamata anche scarto quadratico medio). Si tratta della misura di variabilità più nota e utilizzata e si

identifica con la lettera sigma (σ). Questa confronta ciascuna delle k modalità osservate con un unico valore

fisso scelto come polo di confronto.

Formula della deviazione standard. 𝜎 = √

1

𝑁

𝑖

2

𝑖

𝑘

𝑖= 1

Formula alternativa.𝜎 = √

1

𝑁

𝑖

2

𝑖

𝑘

𝑖= 1

Come salta fuori la formula? Ogni modalità è confrontata con la media aritmetica(la quale essendo una sintesi

della v.s. è un ottimo punto di riferimento); la differenza (xi-𝑥̅ ) può risultare positiva o negativa, il segno qui

è ininfluente e ci interessa la distanza dalla media, quindi si eleva al quadrato in modo da enfatizzare la

distanza e facilitare i calcoli; gli scarti quadratici, poi, vengono ponderati con le frequenze; poiché gli scarti

sono k, li sintetizziamo tutti in una media sommando e dividendo poi per N; infinte, si ristabilisce l’ordine di

grandezza e dell’unità di misura inserendo la radice quadrata.

σ misura la variabilità di X considerando la dispersione dei valori intorno al loro valore medio. Ci dice che X si

manifesta su U con valori che in media distano da 𝑥̅ 𝑝𝑒𝑟 ± 𝜎.

A partire da sigma possiamo calcolare la varianza e la devianza. La varianza si compone elevando al quadrato

tutto sigma, in modo però da avere alterato il risultato e non è una buona misura di variabilità; però ha

vantaggi nel calcolo. La devianza deriva dalla varianza moltiplicata per N.𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 → 𝜎

2

1

𝑁

𝑖

𝑘

𝑖= 1

2

𝑖

2

𝑖

2

𝑖

𝑘

𝑖= 1

Per confrontare la variabilità di un fenomeno rispetto alla variabilità di un altro fenomeno abbiamo bisogno

di una formula relativa: quella più utilizzata è il coefficiente di variabilità di X che si costruisce ponendo la

deviazione standard a rapporto con la media aritmetica. 𝑐𝑣 =

𝜎

𝑥̅

. Ricordiamoci che il risultato è relativo alla

media non a N !!.

NUMERI INDICE

Quando analizziamo uno stesso fenomeno che viene ripetuto nel tempo si parla di dati longitudinali; per

rilevare questi dati, non utilizziamo la v.s. ma una serie storica. Quando si rileva una serie storica l’obbiettivo

è di descrivere e analizzare il comportamento di X nel tempo. Per analizzare le serie storiche dovremo creare

degli indicatori sintetici per analizzare l’evoluzione nel tempo (numero indice). Utilizzeremo la t minuscola

per indicare gli istanti temporali di osservazione; la T maiuscola per l’ultimo istante di rilevazione. Il numero

indice è il rapporto tra due modalità x t

rilevate in due differenti istanti temporali. Il numero indice può essere

costituito a base fissa o a base mobile.

Statistica descrittiva bi-variata

TABELLE A DOPPIA ENTRATA

L’obbiettivo, con la statistica descrittiva bi-variata, diventa la descrizione del comportamento congiunto di X

e Y su U e la loro relazione statistica. I fenomeni sono osservati congiuntamente su ciascuna delle N unità,

quindi il risultato della rilevazioni sarà un insieme di N coppie (di tipo x,y ). Per organizzare i dati grezzi

utilizzeremo le tabelle a doppia entrata. Tale tabella è composta da righe e colonne e useremo l’indice 𝑖 con

riferimento al fenomeno X, che avrà 𝑘 modalità; useremo l’indice 𝑗 con riferimento al fenomeno Y, che avrà

ℎ modalità. Le modalità di X saranno 𝑥

𝑖

; quelle di Y saranno 𝑦

𝑗

. L’interno della tabella si avrà contando le

manifestazioni della medesima coppia. Ai margini si pongono le somme di colonna e di riga.

SCHEMA P. 108

Sulla tabella a doppia entrata si avranno sia informazioni di tipo bivariato (X e Y condizionati), sia informazioni

di tipo monovariato (X e Y considerati singolarmente).

All’interno della tabella si trova la frequenza con cui si manifesta ciascuna coppia di modalità, all’incrocio tra

la i-esima riga e la j-esima colonna. Queste frequenze (riguardanti entrambi i fenomeni) prendono il nome di

frequenze congiunte (indicate con f ij

). L’interno della tabella costituisce la variabile statistica doppiache sta

alla base della stat. Descrittiva bi-variata. ∑ ∑ 𝑓 𝑖𝑗

𝑖𝑗

𝑘

𝑖= 1

𝑗= 1

𝑗= 1

𝑘

𝑖= 1

Per quanto riguarda i margini delle tabelle, troviamo frequenze che riguardano i fenomeni presi

singolarmente - > frequenze marginali (informazione di tipo mono-variato). Le frequenze marginali si

ottengono sommando le frequenze congiunte che stanno sulla stessa riga (𝑓 𝑖.

) o sulla stessa colonna

.𝑗

𝑖𝑗

𝑖.

𝑗= 1

𝑖𝑗

𝑘

𝑖= 1

.𝑗

SCHEMA P.

Fissando l’attenzione sulle singole righe o colonne separatamente si costruiscono le v.s. condizionate Y|x i

(Y

dato x i

) e X|y j

(X condizionato y j

Considerare le righe separatamente significa ridurre l’attenzione dell’intera U di N unità, alla

sottopopolazione di f i

unità che manifestano la modalità x i

di X e, in questa sottopopolazione, si guarda il

comportamento di Y. La v.s. condizionata Y|x i

descrive il comportamento di Y sulle sole f i

, unità statistiche

che sono omogenee rispetto a X perché manifestano la medesima modalità xi, che chiameremo modalità

condizionante. Stesso discorso va fatto per le colonne.

Dalle v.s. condizionate possiamo arrivare alle frequenze condizionate che vengono chiamate percentuali di

riga e percentuali di colonna.

𝑖

𝑖𝑗

𝑖.

(× 100 𝑑𝑎𝑛𝑛𝑜 𝑙𝑒 𝑝𝑒𝑟𝑐. 𝑑𝑖 𝑟𝑖𝑔𝑎)

𝑖

𝑖𝑗

.𝑗

(× 100 𝑑𝑎𝑛𝑛𝑜 𝑙𝑒 𝑝𝑒𝑟𝑐. 𝑑𝑖 𝑐𝑜𝑙𝑜𝑛𝑛𝑎)

Il fenomeno condizionante è anche chiamato variabile esplicativa, il fenomeno condizionato variabile rispost.

INDIPENDENZA, CONNESSIONE E ASSOCIAZIONE

I fenomeni quantitativa hanno una strumentazione statistica più ampia di quelli qualitativi. Gli strumenti di

questo capitolo si possono applicare ad entrambi i fenomeni ma sono più consigliati per quelli qualitativi.

Se tra X e Y non esiste alcuna relazione statistica, parleremo di indipendenza statistica. Il metodo per stabilire

se X e Y sono indipendenti consiste nel confrontare le frequenze condizionate con le frequenze marginali. Il

Statistica descrittiva bi-variata

confronto è possibile solo tra frequenze relativa. Le f. condizionate sono già relativa, mentre quelle marginali

si ottengono dividendo quelle assolute per N (

𝑖.

per X, e

.𝑗

per Y). Se tutte le k serie di frequenze

condizionate sono uguali tra loro e uguali alle marginali (relative): X e Y sono indipendenti e quindi non esiste

indipendenza statistica (i.s.). 𝐶𝑜𝑛𝑑𝑖𝑧𝑖𝑜𝑛𝑒 𝑑𝑖 𝑖. 𝑠. ∶

𝑖𝑗

.𝑗

Facendo un semplice passaggio algebrico sulla condizione di i.s. (moltiplicare entrambi i membri per 𝑓 𝑖.

) si

ottengono le f. congiunte che realizzano la condizione di i.s. e le chiameremo frequenze teoriche (o attese)

di i.s. e le indicheremo con un *. 𝑓 𝑖𝑗

𝑖.

.𝑗

. Queste renderebbero vera l’i.s.. Quando le tabelle (osservata

e teorica) coincidono si avrà indipendenza statistica (metodo alternativo per verificarla). Il concetto di

indipendenza statistica è simmetrico: tra X e Y esiste i.s.: X è indipendente, Y è indipendente.

Se non è verificata l’i.s. allora ci sarà connessione tra i due fenomeni. Il passo successivo sarà capire se la

connessione (relazione) tra X e Y è forte o debole. L’intensità è tanto più elevata, quanto la tabella osservata

è lontana dalla tabella teorica. Il metodo più utilizzato per guardare questa lontananza consiste nella

differenza tra valore osservato e valore teorico: 𝑓

𝑖𝑗

𝑖𝑗

. Quando non sono nulle (c’è connessione) possono

essere vicine e lontane dallo 0. Le differenze possono essere positive e negative, per consentirci di misurare

la connessione dobbiamo togliere il segno elevando al quadrato e capiremo quanto sono grandi le differenze.

La misura di connessione sarà la chi greca 𝜒. 𝐼𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑐𝑜𝑛𝑛𝑒𝑠𝑠𝑖𝑜𝑛𝑒 𝜒

2

𝑖𝑗

𝑖𝑗

2

𝑖𝑗

𝑗= 1

𝑘

𝑖= 1

Se ci fosse i.s. 𝜒

2

2

𝑖𝑗

2

𝑖.

.𝑗

𝑗= 1

𝑘

𝑖= 1

Normalizzazione-> procedimento con cui si trasforma un indicatore statistico assoluto in una percentuale.

Chiamiamo 𝐼 una generica misura statistica. Se di 𝐼 conosciamo il suo valore minimo (che chiameremo 𝐼 𝑚𝑖𝑛

che sarà il valore che assumerebbe la misura in assenza di ciò che stiamo misurando di X) e il valore massimo

𝑚𝑎𝑥

; cioè il valore che assumerebbe nel caso che X presenti al livello massimo ciò che stiamo misurando)

possiamo trasformare l’indicatore assoluto in percentuale, normalizzandolo con la formula:

𝑚𝑖𝑛

𝑚𝑎𝑥

𝑚𝑖𝑛

Visto che il valore assoluto dell’indice di connessione 𝜒

2

non consente una valutazione, dobbiamo

normalizzarlo. Il valore minimo (di 𝜒

2

è lo 0) si normalizza rapportando al suo valore massimo. Il valore

massimo del 𝜒

2

è il valore che l’indice assumerebbe in caso di massima connessione tra i due fenomeni, cioè

in caso di una relazione statistica perfetta.

2

𝑁×𝑚𝑖𝑛

Valore massimo del 𝜒

2

: è il valore pari a N moltiplicato per il più piccolo tra il numero delle righe (k) e il

numero delle colonne (h), meno 1. In formule  𝑁 ×𝑚𝑖𝑛

DIMOSTRAZIONE DI QUESTA FORMULA:

Statistica descrittiva bi-variata

Parliamo di serie doppia quando le xi e le fi sono tutte diverse e non abbiamo le medie condizionate. È più

facile da disegnare. Esempio p. 149

Interpretazione geometrica della covarianza

Cominciamo a rappresentare sul diagramma anche le medie marginali che appaiono nella formula di

σ XY

(divido il diagramma in 4 parti in base alle medie); la covarianza è basata sugli scarti presi con il loro segno.

A seconda che le modalità siano sopra o sotto la media, questi scarti sono positivi o negativi e cioè

corrispondono ad una particolare dispersione sul piano cartesiano; σ XY

è basata sui prodotti, allora le quattro

zone evidenziate sul diagramma contribuiscono al calcolo di sigma.

SCHEMA PAGINA 152

La relazione statistica di tipo lineare (tra X e Y quantitativi) è chiamata correlazione lineare o semplicemente

correlazione. Quando la covarianza è positiva allora X e Y sono positivamente correlati, se è negativa sono

negativamente correlati, se è nulla (=0) allora X e Y sono incorrelati (non esiste una relazione di tipo lineare).

Una volta capito che X e Y sono correlati dobbiamo capire il grado di correlazione tramite il coefficiente di

correlazione lineare (indicato con la lettera greca rho “ρ”) 𝜌

𝑋𝑌

𝑋𝑌

𝑋

𝑌

Può assumere valori che vanno da - 1 a +1; quando è uguale a zero, X e Y sono incorrelati. 𝜌 = ± 1 sono

perfettamente e negativamente/positivamente correlati.

GRAFICO PERFETTA CORRELAZIONE POSITIVA E NEGATIVA

REGRESSIONE

Dopo aver imparato a stabilire l’esistenza di una relazione statistica in una coppia di fenomeni, a misurare

l’intensità, analizzare il verso e studiarne la natura, ora ci occuperemo di modellarla.

Per modello si intende una rappresentazione semplificata (e approssimata della realtà). Per modello statistico

una interpretazione matematica della relazione tra X e Y nella tabella osservata, quindi consiste in una

formulazione matematica che ne coglie l’andamento di fondo, semplificandolo.

Il più noto strumento statistico per la costruzione di un modello è la regressione. Un modello di regressione

interpreta la dipendenza di Y da X: è una formula da applicare a X per approssimare Y.𝑌

= 𝑓(𝑋). Dove f

denota una qualunque funzione di X e il simbolo sopra la Y indica che stiamo approssimando la realtà

osservata con una curva matematica semplice e regolare. Avremo un modello per prevedere e simulare un

certo fenomeno, si tratterà di un modello statistico basato su dati osservati presso le N unità che

compongono la U di riferimento, lo chiameremo modello di regressione(curva teorica, tramite equazione;

utilizzeremo i dati osservati per costruire il modello teorico per sostituire la spezzata di regressione: i punti

Statistica descrittiva bi-variata

del diagramma osservati, uniti con dei segmenti, prendono il nome di spezzata di regressione che è una curva

empirica, cioè è basata sui dati osservati ed è quindi irregolare e spigolosa, con il modello di regressione

dovremmo trovare una curva liscia e regolare che approssima questa spezzata di regressione).

Il fenomeno condizionato Y ha il ruolo di variabile dipendente (ed è anche chiamato variabile risposta), il

fenomeno X ha il ruolo di variabile indipendente (chiamato anche variabile esplicativa o regressore).

Il modello di regressione adatto per interpretare la correlazione (cioè la relazione lineare tra X e Y) è la retta

di regressione (o modello di regressione lineare).

= 𝑎 + 𝑏𝑋; a e b sono detti parametri della retta. La a è l’intercetta (cioè il punto in cui la retta interseca

l’asse verticale delle ordinate); la b è il coefficiente angolare (determina l’inclinazione della retta e la sua

pendenza: più è elevato più è ripida; meno è elevato, più la retta sarà piatta; negativo - > retta decrescente).

Fare la regressione lineare significa utilizzare dati per assegnare un valore ai parametri a e b della retta. Il

metodo più utilizzato, che approssima al meglio la spezzata di regressione, è quello dei minimi quadrati (mq).

Esso consiste nell’assegnare ai parametri dei valori che randano minima la distanza tra dati osservati e la

retta di regressione.

Condizione dei minimi quadrati  ∑ ∑ (𝑦 𝑗

𝑖

2

𝑖𝑗

𝑗= 1

𝑘

𝑖= 1

. Dove 𝑦̂ = 𝑎 + 𝑏𝑥

𝑖

1.Valori reali osservati  y j

2.Modello  retta di

regressione 𝑌

5.Distanza totale tra i dati reali

e valori teorici

3.Valori teorici approssimati

mediante il modello 

𝑖

𝑖

4.Distanza tra i dati reali e i

valori teorici  è la differenza

tra yj e y cappuccio; va elevata

al quadrato per eliminare

l’influenza del segno e

ponderata con f ij

Soluzione dei minimi quadrati  𝑏 =

𝜎

𝑋𝑌

𝜎

𝑋

2

e 𝑎 = 𝑦̅ − 𝑏𝑥̅.

Se b maggiore di 0: retta dei m.q. crescente; viceversa: decrescente. Il valore a ci dice quanto vale 𝑌

quando

X=0, mentre il valore di b ci dice di quanto varia 𝑌

quando X aumenta di 1. In altre parole, se prendiamo due

valori per X che distano di 1, i corrispondenti valori di 𝑌

, secondo il modello, differiscono di b.

Una volta trovata l’equazione della retta basta trovare due punti sulla retta (genericamente sostituendo x

con 0 e y con 0: ( 0 , 𝑎) e (−

Ora dobbiamo capire quanto è affidabile questo modello (cioè quanto si adatta alla realtà). Allora dobbiamo

valutare la bontà della regressione misurando l’adattamento (accostamento) della retta dei m.q. ai dati

osservati reali. Dobbiamo accertarci che la distanza sia piccola o magari nulla attraverso l’analisi dei residui.

La distanza totale tra valori reali e la retta ci dà il residuo totale della retta, chiamato anche devianza residua.

𝑗

𝑖

2

𝑖𝑗

𝑗= 1

𝑘

𝑖= 1

. Il residuo della retta dei m.q. è nullo (DR=0) quando sono tutte nulle le

distanze tra valori osservati e quelli teorici, quindi la retta si adatta perfettamente ai dati reali.

Per capire se la distanza sia tanta o poca (modello buono o cattivo) dobbiamo misurare la bontà di

adattamento dei m.q. normalizzando il residuo.

Devianza totale  𝐷𝑇 = 𝑁𝜎

𝑌

2

𝑗

𝑖

.𝑗

𝑘

𝑗= 1

. La DT si scompone di due parti: devianza residua e

devianza spiegata (DT=DR+DS). Devianza spiegata

𝑗

𝑖

2

𝑖.

𝑖= 1

. DS parte catturata dalla retta dei

m.q.; DR parte residua, non catturata.

FORMULE ALTERNATIVE PIU’ SEMPLICI    𝐷𝑅 = 𝐷𝑇 ( 1 − 𝜌

𝑋𝑌

2

) e 𝐷𝑆 = 𝐷𝑇×𝜌

𝑋𝑌

2

Bontà di adattamento :

𝐷𝑆

𝐷𝑇

𝐷𝑇 ×𝜌

𝑋𝑌

2

𝐷𝑇

𝑋𝑌

2

Se 𝜌 𝑋𝑌

2

= 0 : se cioè DS=0 e DR=DT la retta lascia tutto residuo e non spiega niente (X e Y sono incorrelati).

Inferenza statistica

DALLA DESCRIZIONE ALL’INFERENZA

Quando abbiamo dei dati parziali (cioè relativi ad un sotto insieme, che chiameremo campione di numerosità

n ) e vogliamo estendere l’analisi del comportamento di X all’intera popolazione di U, parliamo di inferire dal

campione all’intera popolazione.

L’osservazione esaustiva della popolazione U (con tutti i dati) prende il nome di censimento ; se abbiamo dati

solo relativi ad un campione avremo una rilevazione campionario. Ragioni perché è più frequente la

rilevazione campionaria: ragioni di budget (richiede risorsi ridotte rispetto a un censimento) e ragioni di

precisione (consente maggiore cura, precisione e profondità dell’indagine perché non c’è un numero

elevato).

SCHEMA P. 191.

Il termine inferenza indica il generico passaggio dalla premessa alla conclusione. Un caso speciale è

l’inferenza induttiva che procede dal particolare al generale. L’inferenza statistica è una inferenza induttiva

che procede dal campione alla popolazione. Quindi il campione ha il carattere della rappresentatività e della

causalità (è un campione scelto in modo casuale).

CASO, PROBABILITA’ E VARIABILI CASUALI

Lo strumento formale per fare inferenza statistica è la variabile casuale (v.c.).

Cominciamo con il considerare la dicotomia tra situazione deterministica e situazione casuale.

Rappresentiamo con il tradizionale disegno l’insieme di circostanza che sono causa (determinano) un certo

risultato. Chiamo il risultato evento e lo indichiamo con E. Ci si trova in situazione deterministica quando è

noto l’intero insieme di circostanze che determinano E. E è quindi prevedibile a priori con certezza. Situazione

casuale viceversa: l’insieme è noto parzialmente.

SCHEMA P. 195

La parte di circostanze ignote che impediscono di prevedere a priori con certezza il risultato E definisce il caso

Esperimento casule: esperimento condotto sotto l’effetto del caso (nota solo una parte delle circostanze).

Evento elementare: ciascuno dei possibili esiti di un esperimento casuale.

Spazio campionario: insieme di tutti gli esiti di un esperimento casuale (omega: Ω).

Evento casuale: sottoinsieme di Ω. Di solito è quello che ci attendiamo o che vogliamo individuare (indicato

con E. Gli elementi di E sono eventi elementari; un evento elementare che è contenuto in omega può

appartenere o non appartenere ad E; ma non viceversa.

La probabilità di un evento casuale E è un numero associato a E che ne quantifica a priori il grado di incertezza

ovvero la possibilità di realizzazione. Ci limitiamo a dare due definizioni di probabilità:

  1. Definizione classica: P(E) è il rapporto tra il numero di casi favorevoli a E e il numero di tutti i casi

possibili , posto che tutti siano ugualmente possibili.

𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖

𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖

solo con equiprobabilità.

  1. Definizione frequentistica o statistica: Questa definizione si basa sulla cosiddetta legge empirica del

caso , cioè una regola che non si può dimostrare matematicamente ma che si osserva

sistematicamente nella pratica. L’evento E di cui si vuole calcolare la probabilità P(E) è pensato come

il risultato di un esperimento casuale ripetibile un gran numero N di volte sempre nelle stesse

condizioni. Al termine di tali N prove, E si sarà verificato f volte (e non si sarà verificato le rimanente

N- f volte). La legge empirica del caso dice che la frequenza relativa f /N del verificarsi di E tende a

stabilizzarsi intorno a un certo valore man mano che aumenta il numero N di ripetizioni

Inferenza statistica

dell’esperimento (sempre nelle stesse condizioni). La definizione frequentistica di probabilità si basa

su questa legge empirica e stabilisce che la probabilità di E è proprio quel valore, intorno al quale

tede a stabilizzarsi la frequenza relativa dopo un numero sufficientemente grande di prove. In

formule: 𝑃(𝐸) = lim

𝑁→∞

𝑓

𝑁

La definizione frequentistica ci permette di considerare spazi campionari virtualmente infiniti e di

calcolare la probabilità di eventi che non sono tutti ugualmente possibili; però, la ripetibilità delle prove

deve effettuarsi tutta nelle stesse condizioni.

Possiamo pensare la variabile casuale come lo strumento matematico che permette di concentrarsi sulle

sole caratteristiche dell’esperimento che interessano e che trasforma gli eventi casuali in numeri reali,

conservandone comunque la probabilità. Variabile casuale: è una funzione con dominio nello spazio

campionario Ω e codominio nell’insieme dei numeri reali, a cui rimangono associate le probabilità degli

eventi di Ω. 𝑋: 𝛺 → 𝑅.

SCHEMA DEL QUADERNO

La somma delle probabilità di tutti i valori x della v.c. X è pari ad 1, in perfetta analogia con la somma

delle frequenze relative per una v.s. La probabilità associate costituiscono la funzione di probabilità.

V.c. discreta X. V.c. che assume un numero finito (o infinito numerabile) di valori x che di solito sono

numero interi.

Funzione di probabilità di X. È associata a una v.c. discreta, ne descrive completamente le probabilità e

ha sempre somma 1. In formule: 𝑃(𝑋 = 𝑥) 𝑐𝑜𝑛 ∑ 𝑃(𝑋 = 𝑥) = 1 𝑥

Media o valore atteso. È definita e calcolata come per la v.s. ma usando le probabilità al posto delle

frequenze. Il simbolo per indicare la media di una v.c. X è standard e fa riferimento all’inglese Expectation.

Formula: 𝐸(𝑋) = ∑ 𝑥×𝑃(𝑋 = 𝑥)

𝑥

. E(X) si legge “E di X” ed è la media della v.c. X.

Varianza. È definita e calcolata come per la v.s. ma usando la probabilità al posto delle frequenze. È una

misura della variabilità di X, cioè della dispersione dei suoi valori intorno al suo valore atteso, ponderata

con le probabilità. In formule: 𝑉(𝑋) = ∑ [𝑥 − 𝐸(𝑋)]×𝑃(𝑋 = 𝑥) 𝑥

. Si legge “V di X”  “varianza di X.

Deviazione standard. La chiameremo standard deviation per non confonderla con quella della v.s. La

varianza è elevata al quadrato; quando serve ripristinare l’ordine di grandezza basta mettere una radice

quadrata e si ottiene la deviazione standard, useremo il simbolo SD. 𝑆𝐷(𝑋) = √

Per fare inferenza statistica si usano alcune v.c. speciali. Una di queste è la v.c. binomiale.

La variabile casuale binomiale è una particolare v.c. discreta. Serve per modellare situazioni casuali che

hanno 3 caratteristiche: - l’esperimento casuale consiste nell’esecuzione di n prove indipendenti (l’esito

di ciascuna prova non influisce sull’esito della successiva); - ciascuna prova può avere come esito uno (e

soltanto uno) di due eventi tra loro contrari ed esaustivi (che chiameremo successo e insuccesso , in base

a quello che vogliamo osservare); - in ciascuna prova, la probabilità del successo, che denoteremo con p ,

è nota ed è costante, Poiché p è una probabilità, è un numero compreso tra 0 e 1 e conseguentemente

è nota anche la probabilità dell’insuccesso: 𝑃(𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜) = 𝑝 0 < 𝑝 < 1 𝑃(𝑖𝑛𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑜) = 1 − 𝑝

Per indicare la v.c. binomiale useremo la notazione 𝑋~𝐵𝑖𝑛(𝑛, 𝑝) che si legge “X è una v.c. binomiale con

parametri n e p”. Il numero di prove n e la probabilità di successo p sono infatti dei parametri.

Ora possiamo solo immaginare una generica struttura dei nostri eventi elementari. Ciascuna prova può

avere un Successo o Insuccesso e di prove ne facciamo n. Allora il generico risultato della serie di n prove

(cioè il generico evento elementare) è una n-upla.

Inferenza statistica

  1. La curva campanulare ha la proprietà di essere simmetrica rispetto a mu: 𝑃(𝑋) ≥ 𝜇 𝑒 𝑃(𝑋) ≤ 𝜇
  2. Mu rappresenta anche la media di X e la sua moda. 𝑥
    1. 5

0

  1. Si dice che la campana è formata da una pancia e due code con flessi (punti sull’asse delle ascisse

dove la curva cambia concavità) pari a 𝜇 ± 𝜎.

  1. Mu stabilisce la posizione della curva (e se si sposta, la curva si sposta, ma non cambia la forma).

Sigma stabilisce la forma della curva (se è più piccolo la curva sarà stretta e alta, se è più grande sarà

larga e bassa).

  1. Se prendiamo una parte(a,b) della curva, la probabilità che X assume un valore tra a e b coincide con

l’aria sottesa a quell’intervallo.

DISEGNO CHE C’E’ SUL QUADERNO

La Normale tende a manifestarsi con un valore sistematico prevalente (μ); i valori più probabili saranno

vicini a tale valore; i valori lontani da mu sono rari e poco probabili.

Standardizzare una quantità statistica significa operare una trasformazione con lo scopo di depurarla da

unità di misura e grandezza, rendendola confrontabile con altri dati standardizzati perché tutti riferibili a

un’unica situazione standard.

𝑋−𝐸(𝑋)

√𝑉(𝑋)

: togliamo la sua media e dividiamo per la sua deviazione standard.

In questo modo avremo media nulla (=0) e varianza pari a 1 (e quindi anche deviazione standard). Cioè

diventa riferibile a un’unica situazione. E(X standard)=0 e V(X standard)=SD(X standard)=

Standardizzando una v.c. normale 𝑋~𝑁(𝜇, 𝜎

2

) s, con la sua media μ e la sua deviazione standard √𝜎

2

𝜎 si ottiene la v.c. normale standardizzata , che indicheremo con Z. Useremo la notazione 𝑍~𝑁( 0 , 1 ).

𝑋−𝜇

√𝜎

2

𝑋−𝜇

𝜎

. E(Z)=0 e V(Z)=SD(Z)=

Dal valore ottenuto controlliamo le tavole (le quali però segnano solo la parte a sinistra di quel numero

P(Z≤z) , quindi servirà fare delle operazioni aritmetiche semplici).

CAMPIONAMENTO ED ERRORE CAMPIONARIO

Ora abbiamo gli strumenti per introdurre, comprendere e usare gli strumenti della statistica inferenziale.

Il primo passo consiste nel procurarci i dati. In ambito inferenziale questo significa procurarci il campione

che è un sottoinsieme dell’intera popolazione U su cui ci interessa studiare il fenomeno. L’inferenza

statistica si basa su campioni casuali (l’operazione di scelta casuale si chiama campionamento). Il numero

n è la numerosità o ampiezza campionaria e di solito è prefissato e molto più piccolo di N.

L’insieme dei metodi di campionamento prende il nome di teoria dei campioni. Gli elementi che vedremo

noi sono basati sul metodo più semplice: campione bernoulliano. Un campione bernoulliano è il risultato

di n estrazioni casuali da U condotte tutte nelle stesse condizioni, cioè indipendenti tra loro. Si tratta di

estrazioni con reinserimento e equiprobabili.

Solitamente, però avvengono senza reinserimento (per evitare di estrarre la stessa persona) e si parla in

questo caso di campione casuale semplice o anche SRS(simple random sample.

Inferenza statistica

Se n è sufficientemente grande e allo stesso tempo n è piccolo rispetto a N, il che è in genere ciò che

accade, le due tecniche con o senza risultato portano i risultati equivalenti. Frazione di campionamento

n/N sufficientemente piccola.

Ciascuno dei differenti campioni estraibili da U può darci un’immagine più o meno fede di U perché

fornisce un’informazione parziale e differente circa il comportamento su U che ci interessa. Questo è il

concetto di variabilità campionaria. Il processo di inferenza statistica avviene sotto effetto della

variabilità campionaria, la conseguenza è quella che comporta necessariamente incertezza e rischio di

errore (chiameremo questo concetto errore di campionamento).

Quando si dispone solo di dati campionati (parziali e casuali) la distribuzione del fenomeno di interessi

su U e i reali valori delle sue sintesi statistiche sono ignoti e li chiameremo parametri. I parametri ignoti

sono l’oggetto dell’inferenza statistica. Le sintesi statistiche di X rappresentano i corrispondenti

parametri ignoti di U. In particolare E(X)=media del fenomeno in U, la indicheremo con μ e la

V(X)=varianza del fenomeno in U con 𝜎

2

Ciascuna osservazione campionaria X i

è il risultato di un esperimento casuale; è pertanto un evento

casuale e può coincide con uno dei possibili valori della v.c. X. Allora, anche il risultato di ogni estrazione

campionario è interpretato da una v.c. X i

che chiameremo v.c. estrazione campionaria. Poiché nel

campione bernoulliano le estrazioni sono indipendente, allora le v.c. estrazioni campionarie X i

sono tra

loro indipendenti. Infine, poiché X i

può coincidere con qualunque dei possibili valori del fenomeno, a sua

volta interpretato dalla v.c. Z, si ha anche che ciascuna estrazione campionaria X i

è identica a X, e in

quanto identica, ha stessa media e stessa varianza.

La statistica inferenziale offre metodologie per risolvere due grandi classi di problemi di inferenza:

  1. la stima dei parametri, con l’obbiettivo di usare i dati campionari per inferire il valore dei parametri

ignoti;

  1. la verifica di ipotesi statistiche , con l’obbiettivo di usare i dati campionari per inferire se è accettabile

o meno un valore che si ipotizza per i parametri ignoti.

STIME E STIMATORI

Ora impariamo a stimare i parametri ignoti. Per farlo esistono due classi di metodi: stima puntuale (con

un unico valore) e stima intervallare (con un intervallo di valori). Qui l’errore campionario assume

l’aspetto di errore di stima (quanto è più piccolo, più precisa e affidabile è la stima).

La stima puntuale è la metodologia statistica che utilizza le informazioni campionarie per: calcolare un

(unico) valore puntuale per sostituirlo all’ignoto parametro; controllare in termini di probabilità se e

quanto la sostituzione è affidabile e accurata.

Iniziamo a stimare 3 parametri: la media del fenomeno in U (che corrisponde alla media μ di X); la

varianza del fenomeno in U (che corrisponde alla varianza 𝜎

2

di X); una percentuale di valori di X di

interesse, che indicheremo con p e che vedremo a cosa corrisponde. Li calcoleremo per analogia.

Stabilire se una stima è affidabile e sufficientemente precisa significa controllare e misurare l’errore

campionario in termini di probabilità. La stima di un parametro è il risultato di un calcolo, un’elaborazione

eseguita sugli n dati x1…xi…xn, per ottenere un unico numero da sostituire all’intero parametro in U (che

è e rimane ignoto). Per controllare l’errore di stima dobbiamo tenere conto di tutti i possibili risultati

ottenibili da tutti i possibili campioni. Per fare questo affianchiamo al concetto di stima il concetto di

stimatore. Lo stimatore è la stessa funzione (formula) che definisce la stima, ma applicata alla v.c.

estrazioni campionarie X1…Xi…Xn.

Lo stimatore è quindi una v.c. che interpreta tutti i possibili valori della stima su tutti i possibili campioni

estraibili. Quindi, la stima è un numero, ottenuto sul campione effettivamente estratto e l’unico a

disposizione; lo stimatore è una v.c. che tiene conto di tutte le possibili stime ottenibili su tutti i possibili

Inferenza statistica

L’errore quadratico medio è in relazione diretta con sigma quadro e in relazione inversa con n. L’errore

della media campionaria, quindi, è tanto minore quanto più grande è il campione.

Un’altra proprietà auspicabile per uno stimatore è la consistenza che riguarda la precisione (o

accuratezza). A un buon stimatore si richiede che sia sempre più preciso, riducendo l’errore di stima,

all’aumentare dell’ampiezza campionaria n, quando cioè aumentano i dati introdotti nel processo di

stima.

Se lo stimatore non è distorto come la media campionaria, per essere consistente basta che la sua

varianza diventi sempre più piccola al crescere dell’ampiezza campionaria n.

Anche la proprietà di efficienza relativa riguarda la precisione di uno stimatore. È un criterio di scelta

quando si dispone di due (o più) stimatori per lo stesso parametro ignoto.

Se si tratta di stimatori non distorti, MSE coincide con la varianza e dunque il confronto avviene tra le

varianze; lo stimatore non distorto con varianza inferiore è il più efficiente tra quelli a disposizione.

Un teorema (difficile da dimostrare) stabilisce che lo stimatore media campionaria sia il più efficienti tra

tutti i possibili stimatori non distorti per mu.

Abbiamo analizzato a media campionaria, adesso impariamo altri parametri.

Il parametro ignoto da studiare ora è la varianza del fenomeno nella popolazione. La stima più naturale

per la varianza di U è la varianza del campione

1

𝑛

𝑖

𝑛 2

𝑖= 1

. Questa volta però non si può usare questa

formula perché lo stimatore è distorto per sigma quadro e tenderà a sotto-stimare. Per ottenere uno

stimatore non distorto allora dobbiamo dividere per n-1: varianza campionaria corretta (s)

2

1

𝑛− 1

𝑖

𝑛 2

𝑖= 1

. La quantità (n-1) è chiamata gradi di libertà. La varianza non è distorta, è

consistente (perché l’errore s2 diminuisce al crescere dell’ampiezza campionaria). Non avremo la

deviazione standard perché sarebbe distorta per sigma.

L’MSE è quadratico (cioè misura l’errore di stima prendendo le differenze tra stimatore e parametro

elevate al quadrato) e questo produce effetti collaterali e per ristabilire l’ordine di grandezza allora

dobbiamo prendere la √𝑀𝑆𝐸 che è una misura teorica dell’errore medio di stima. La stima dell’errore

medio di stima, calcolata con gli stessi dati campionari è detta standard error (SE).

SE dello stimatore = √𝑀𝑆𝐸 e se lo stimatore non è distorto: √𝑉

SE della media campionaria. Poiché è uno stimatore non distorto, si tratta di stimare la radice della

varianza della media campionario (quindi la radice di sigma quadro fratto l’ampiezza campionaria),

stimando con sigma quadro la varianza campionaria corretta. Quindi : 𝑆𝐸(𝑋

𝑠

2

𝑛

SE è un numero calcolato sul campione che stima l’errore medio che si commette sostituendo all’ignoto

parametro la stima calcolata sul medesimo campione.

Nella ricerca sociale interessano i fenomeni dicotomici. L’oggetto della stima, in questo caso, è la

percentuale di unità statistiche o casi, che tra tutte quelle che compongono la U, è classificabile in una

determinata categoria. Facciamo allora riferimento ai fenomeni categoriali.

Scelta l’ampiezza campionaria n , si estrae da U un campione bernoulliano, il risultato sarà l’insieme di

unità classificabili o non nella categoria che ci interessa. La stima più naturale per l’ignota frequenza

relativa p di soggetti classificabili nella categoria di interesse, è corrispondente alla frequenza relativa nel

campione, cioè la frequenza relativa campionaria che indicheremo con 𝑝̂ (pi cappuccio).

L’affidabilità di questa stima risiede nelle proprietà statistiche del corrispondente stimatore 𝑃

. Questo

assume valore 1 in corrispondenza dei soggetti classificabili nella categoria che ci interessa, 0 in quelli

non classificabili. Allora il campione sarà un insieme di 0 e 1.

Inferenza statistica

La somma dei dati campionari ci dà il numero di soggetti campionati, che tra gli n estratti, sono

classificabili nella categoria che ci interessa: 𝑆𝑡𝑖𝑚𝑎 𝑑𝑒𝑙𝑙𝑎 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙𝑒 𝑝̂ =

1

𝑛

𝑖

𝑛

𝑖= 1

Visto le caratteristiche (campione bernoulliano, prove indipendenti, S e I) avremo una variabile causale

binomiale con parametri n e p per lo stimatore: 𝑆𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒: 𝑃

𝐵𝑖𝑛 (𝑛,𝑝)

𝑛

Allora si determinano velocemente il valore atteso, varianza e standard error dello stimatore P cappuccio.

Non distorsione della freq. relativa (percentuale)campionaria:

𝐸[𝐵𝑖𝑛 (𝑛, 𝑝)] =

Allora il suo MSE coincide con la varianza

) = 𝑉 [

] = (

2

[

)]

2

Standard Error

INTERVALLI DI CONFIDENZA

La stima puntuale è un metodo sempre applicabile (è sempre calcolabile a partire dai soli dati

campionari), è semplice (perché si procede per analogia), però: è difficile avvicinarsi ed azzeccare il

parametro ignoto l’affidabilità della stima puntuale risiede nella garanzia probabilistica offerta dalle

proprietà teorico-formali del corrispondente stimatore.

La stima intervallare, a garanzia della sua affidabilità, offre un numero associabile che misura la proprietà

con cui il corrispondente stimatore contiene effettivamente l’ignoto parametro. L’errore di

campionamento lo possiamo fissare noi.

Intervallo di confidenza  per un ignoto parametro. È un intervallo di valori calcolato sui dati campionari

,per il quale si può confidare, a un prescelto livello probabilistico, che contenga l’ignoto valore del

parametro.

A favore della stima intervallare (IC): meno rischioso (è più facile, attraverso un intervallo, avvicinarsi al

parametro ignoto); è più informativo (ma meno preciso, offre informazione più ampia di un unico valore);

è più affidabile(quantificabile con una probabilità scelta a priori).

Contro : ha un elevato livello di complessità e servono elle informazioni ausiliari a priori.

Un IC non è sempre calcolabile sulla base dei soli dati campionari, ma è calcolabile solo se ci si trova o in

una o nell’altra delle seguenti situazioni:

  1. è noto (o ipotizzabile con un elevato grado di sicurezza) che il fenomeno X in U è ben interpretato da

una v.c. Normale. Questa situazione la chiameremo popolazione normale

  1. La numerosità del campione n è sufficientemente grande perché valgono opportuni teoremi di teoria

delle probabilità Chiameremo questa situazione grandi campioni.

POPOLAZIONE NORMALE

- SIGMA QUADRO NOTO

Ipotizziamo di avere un fenomeno, ben interpretato con una v.c. Normale con media μ ignota ma varianza

2

nota. In formule: 𝑋~𝑁(𝜇, 𝜎

2

nota). Un teorema della probabilità ci garantisce che se X è normale

anche lo stimatore media campionaria 𝑋

lo è. Quindi se la varianza è nota avremo: 𝑋

𝜎

2

𝑛

nota).

Questa è una informazione ausiliaria.

La metodologia di costruzione di un IC prevede 5 passi:

  1. Si estrae un campione bernoulliano di ampiezza n e ci si procurano i dati campionari.
  2. Si calcola la stima puntuale per mu, cioè la media del campione: 𝑥̅ =

1

𝑛

𝑖

𝑛

𝑖= 1