Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica corso EMA, Appunti di Statistica

Dispensa completa di appunti a lezione+slide+libro di testo.

Tipologia: Appunti

2021/2022

Caricato il 19/10/2023

teo-cava
teo-cava 🇮🇹

5

(1)

4 documenti

1 / 29

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica – Economia e Management s2s20x-teoria_ed_esercizi_statistica_v3_1.docx
Sommario
SATISTICA DESCRITTIVA....................................................................................................................................3
Tipi variabili.................................................................................................................................................. 3
Tabella di frequenza.....................................................................................................................................4
Istogrammi di frequenza.............................................................................................................................. 5
Indici di posizione.........................................................................................................................................6
Moda........................................................................................................................................................ 6
Quantile (Mediana)...................................................................................................................................6
Media.......................................................................................................................................................7
Indici di variabilità...................................................................................................................................... 10
Varianza.................................................................................................................................................. 10
Scarto quadratico medio o Deviazione Standard....................................................................................10
Covarianza..............................................................................................................................................10
Coefficiente di Variazione....................................................................................................................... 11
STATISTICA BIVARIATA................................................................................................................................... 12
Tabella di contingenza o a doppia entrata..................................................................................................12
Frequenze relative condizionate................................................................................................................ 12
Indipendenza..........................................................................................................................................13
Massima connessione.............................................................................................................................14
Indice di Paerson.................................................................................................................................... 14
Medie, varianze marginali e condizionate..................................................................................................15
Coefficiente di correlazione lineare............................................................................................................ 16
TEORIA DELLA STIMA STATISTICA...................................................................................................................17
Stima statistica........................................................................................................................................... 18
Stima puntuale....................................................................................................................................... 18
Stima intervallare................................................................................................................................... 20
Intervallo di confidenza per p..................................................................................................................... 21
Dimensione campionaria in funzione dell’errore.......................................................................................22
Modello lineare classico bivariato..................................................................................................................23
Regressione................................................................................................................................................ 23
Proprietà degli errori...................................................................................................................................... 23
Retta dei minimi quadrati........................................................................................................................... 24
Stime dei minimi quadrati..........................................................................................................................25
Bontà di adattamento.................................................................................................................................26
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d

Anteprima parziale del testo

Scarica Statistica corso EMA e più Appunti in PDF di Statistica solo su Docsity!

Sommario

  • SATISTICA DESCRITTIVA....................................................................................................................................
    • Tipi variabili..................................................................................................................................................
    • Tabella di frequenza.....................................................................................................................................
    • Istogrammi di frequenza..............................................................................................................................
    • Indici di posizione.........................................................................................................................................
      • Moda........................................................................................................................................................
      • Quantile (Mediana)...................................................................................................................................
      • Media.......................................................................................................................................................
    • Indici di variabilità......................................................................................................................................
      • Varianza..................................................................................................................................................
      • Scarto quadratico medio o Deviazione Standard....................................................................................
      • Covarianza..............................................................................................................................................
      • Coefficiente di Variazione.......................................................................................................................
  • STATISTICA BIVARIATA...................................................................................................................................
    • Tabella di contingenza o a doppia entrata..................................................................................................
    • Frequenze relative condizionate................................................................................................................
      • Indipendenza..........................................................................................................................................
      • Massima connessione.............................................................................................................................
      • Indice di Paerson....................................................................................................................................
    • Medie, varianze marginali e condizionate..................................................................................................
    • Coefficiente di correlazione lineare............................................................................................................
  • TEORIA DELLA STIMA STATISTICA...................................................................................................................
    • Stima statistica...........................................................................................................................................
      • Stima puntuale.......................................................................................................................................
      • Stima intervallare...................................................................................................................................
    • Intervallo di confidenza per p.....................................................................................................................
    • Dimensione campionaria in funzione dell’errore.......................................................................................
  • Modello lineare classico bivariato..................................................................................................................
    • Regressione................................................................................................................................................
  • Proprietà degli errori......................................................................................................................................
    • Retta dei minimi quadrati...........................................................................................................................
    • Stime dei minimi quadrati..........................................................................................................................
    • Bontà di adattamento.................................................................................................................................
    • Indice di determinazione r
    • Stimatori minimi quadrati...........................................................................................................................
    • Intervalli di confidenza e verifica ipotesi....................................................................................................
  • PROBABILITA’.................................................................................................................................................
    • Leggi di Morgan..........................................................................................................................................
    • Impostazioni della probabilità....................................................................................................................
      • Impostazione classica.............................................................................................................................
      • Impostazione frequentista......................................................................................................................
      • Impostazione assiomica..........................................................................................................................
      • Impostazione soggettivista.....................................................................................................................

Tabella di frequenza

Raccoglie le misurazioni dei dati dell’indagine condotta  Il fenomeno studiato si indica con una lettera maiuscola (ad esempio X )  Con xi si intende il valore i-esimo del fenomeno X  Con ni si intende la misurazione i-esime del fenomeno X, associata ad xi Grandezza principali  FREQUENZA ASSOLUTA : si indica con ni ed è il numero di unità statistiche che presentano la modalità xi

 FREQUENZA RELATIVA : si indica con f^ i e si calcola come f i = n ni.

Vale la proprietà (^) ∑ i = 1

k

f i = 1

FREQUENZA ASSOLUTA CUMULATA : si indica con Ni e rappresenta il numero di unità statistiche che presentano una modalità minore o uguale a xi. In pratica si calcola sommarizzando le frequenze assolute di indice inferiore o uguale ad i  FREQUENZA RELATIVA CUMULATA : si indica con Fi e rappresenta la proporzione di unità statistiche che presentano una modalità minore o uguale ad xi. In pratica si calcola sommarizzando le frequenze relative di indice inferiore o uguale ad i Le frequenze cumulabili si possono calcolare quando le modalità sono almeno ordinabili, per cui non esistono per le VARIABILI QUALITATIVE SCONNESSE

DENSITA’ DI FREQUENZA : si può calcolare per variabili quantitative continue ed è data dal rapporto tra la FREQUENZA ASSOLUTA, RELATIVA o PERCENTUALE e l’AMPIEZZA DELLA CLASSE Quindi:

di = n aii oppure li = f a^ ii

La relazione tra le due grandezze è

li = d ni

Spesso, per convenienza, alcuni fenomeni vengono discretizzati (ad esempio, se si pesa 67,8934Kg oppure 68,0345Kg si dice che si pesa 68Kg)  un dato qualitativo continuo viene trasformato in uno discreto ed in questi casi si ricorre alla distribuzione in classi di frequenza. Ad esempio, se 10 persone appartenenti ad un gruppo pesano (in kg) 65, 70, 88, 72, 69, 81, 80, 73, 73, 69, può essere definita la seguente tabella Peso da hi

Peso a hi+

ni 65 70 4 70 80 4

Indici di posizione

Gli indici di posizione sono degli indicatori sintetici che con uno o pochi valori riassumono la distribuzione dei dati, dando un ordine di grandezza del fenomeno studiato. Gl indici di posizione devono essere sempre affiancati da un ulteriore quantità che misura la precisione come indicatore sintetico, cioè un indicatore di precisione I principali indici di posizione sono:

Moda

La moda viene indicata con Mo e può essere calcolata per tutti i tipi di carattere. Per i caratteri qualitativi e quantitativi continui è la modalità a cui è associata la frequenza assoluta maggiore. Per i caratteri quantitativi discreti (con tabella di frequenze) è il valore centrale dell’intervallo che presenta densità di frequenza maggiore

Indicatori di precisione Si valuta la corrispondente frequenza relativa o relativa percentualetanto più questa è grande rispetto alle altre, tanto più la moda è un buon indicatore

Quantile (Mediana)

Sia 0<p<1, si dice quantile di ordine p e si indica con xp quel valore che dopo aver ordinato in senso non decrescente i dati, lascia alla sua sinistra almeno p osservazioni ed alla sua destra (1-p) osservazioni  p=1/4 = 0,25 è detto primo quartile  p=1/2 = 0,5 è detto secondo quartile o mediana  p=3/4 = 0,75 è detto terzo quartile I quartili così introdotti dividono l’insieme delle osservazioni in 4 gruppi, al cui interno cadono almeno il 25% delle osservazioni Indicatori di precisione Gli indicatori di precisione della MEDIANA sono costruiti dal primo e terzo quartile o DIFFERENZA INTERQUARTILE (DI): si calcola come DI = x0,75 – x0, o SCARTO INTERQUARTILE (SI): si calcola come SI = (x0,75 – x0,25)/ o RANGE o CAMPO DI VARIAZIONE (R): si calcola come differenza tra il massimo ed il minimo valore osservato: R=xmax - xmin o Posso quindi concluder che:  Se DI è piccola rispetto ad R  la mediana è un indicatore sintetico preciso  Se DI è grande rispetto ad R  la mediana è un cattivo indicatore sintetico Il BOXPLOT si costruisce come segue:

džϬ͕ϳ ϱ džϬ͕ϱϬ x0,

džϬ͕ϳ ϱн ϭ͕ ϱ/

x0,25- 1,5DI

In caso di distribuzioni in classi di frequenza, una volta individuata la classe i a cui appartiene la mediana (è quella in cui Fi supera il valre 0,5), la mediana può essere calcolata con la seguente formula:

Me = hi + 0,5− liFi −^1

Media

La MEDIA di una grandezza X (indicata con x ) è un indice si posizione che può essere calcolato solo per

caratteri quantitativi Media aritmetica La media aritmetica si calcola semplicemente sommando tutte le frequenze assolute e dividendo per il numero di occorrenze:

x = 1 n ( x 1 + x 2 + …. + xn )

In caso di tabella di frequenza la media si calcola sommando il prodotto tra il valore della classe e la sua frequenza assoluta e dividendo per il numero di classi

x = (^1) nx = 1

k xi ∙ ni =∑ x = 1

k

xi ∙ f i

Proprietà della media aritmetica: o Redistribuzione e mantenimento del totale o Annullamento degli scarti ∑ x = 1

k

( x ¿¿ i − x ) ∙ ni = 0 ¿

o Linearità o Media di somma e differenza o Media di combinazione lineare o Associatività o Minimizzazione della somma degli scarti al quadrato

Indicatori di precisione

Per la media aritmetica si calcola lo scarto quadratico medio s valuta la corrispondente frequenza relativa

o relativa percentualetanto più questa è grande rispetto alle altre, tanto più la moda è un buon indicatore

~ sXY = 1

n ∙i = 1

n

( x ¿¿ i − x )( y ¿¿ i − y )¿ ¿

Esiste anche un’altra formula, più semplice da applicare:

~ sXY = 1

n ∙i = 1

n

xi ∙ yi − x ∙ y

 Una covarianza negativa indica che al crescere di X mediamente Y decresce  Al contrario, una varianza positiva indica che al crescere di X mediamente anche Y cresce

Coefficiente di Variazione

Il coefficiente di variazione di un fenomeno X, indicato come CV(X), è un indice di variabilità relativa dato dal rapporto tra lo scarto quadratico medio ed il valore assoluto della media aritmetica, ossia:

CV ( X )=

~ sx

| x |

E’ un numero puro

STATISTICA BIVARIATA

Spesso due o più caratteri vengono rilevati contemporaneamente su n unità statistiche: in questi casi l’obiettivo della statistica è indagare eventuali legami tra i caratteri rilevati. Vengono trattati solo i casi di 2 variabili quantitative (o categoriali) rilevate sulle stesse unità statistiche ( statistica bivariata )

Tabella di contingenza o a doppia entrata

La tabella di contingenza (o doppia entrata) permette di riorganizzare i dati per le successive elaborazioni. Data la raccolta di questi dati a sinistra, la tabella a doppia entrata aggrega i dati in ascissa ed ordinata secondo le due variabili considerate

Frequenze assolute:

 nij = frequenze assolute congiunte (elementi sui singoli incroci)

 (^) ni. =∑ j = 1

k

nij = frequenze assolute marginali di X (sommatoria della riga i-sima)

 (^) n. j =∑ i = 1

h

nij = frequenze assolute marginali di Y (sommatoria della colonna j-sima)

 (^) n =∑ i = 1

hj = 1

k

nij = dimensione del campione

Frequenze relative:

 f ij = frequenze relative congiunte (elementi sui singoli incroci)

 (^) f (^) i. =∑ j = 1

k

f ij = frequenze marginali relative di X (sommatoria della riga i-sima)

 (^) f (^). j =∑ i = 1

h

f ij = frequenze marginali relative di Y (sommatoria della colonna j-sima)

Frequenze relative condizionate

Poiché Y si manifesta attraverso k modalità statistiche distinte, si possono individuare k sottoinsiemi di unità statistiche, uno per ogni modalità di Y: si definiscono distribuzioni condizionate relative di X come il rapporto tra le frequenze assolute ed il totale delle unità statistiche del gruppo di appartenenza.

 La tabella delle frequenze relativa condizionate di X si costruisce dividendo in ciascuna cella il valore nij per il totale della colonna di appartenenza (che si denota come n.1). La sommatoria di ogni colonna deve uscire 1, inclusa l’ultima che è quella delle Frequenze Marginali.  La tabella delle frequenze relativa condizionate di Y si costruisce dividendo in ciascuna cella il valore nij per il totale della riga di appartenenza (che si denota come n1.). La sommatoria di ogni riga deve uscire 1, inclusa l’ultima che è quella delle Frequenze Marginali. Riprendendo l’esempio di sopra:

o Ad ogni modalità X corrisponde una sola modalità Y (su ogni riga ho un solo elemento diverso da 0) Y 1 Y 2 X 1 x 0 X 2 x 0 X 3 0 x

Indice di Paerson

Solitamente una tabella di contingenza su dati reali non è né di massima connessione, né di completa indipendenza: quando non c’è indipendenza vuol dire che c’è connessione tra i due caratteri ed è interessante calcolare questo grado di connessione ( indice di Paerson ). Il legame tra X e Y è tanto più forte quanto la tabella dei dati è lontana da quella teorica di indipendenza e vicina a quella di massima connessione L’ indice di Paerson (rappresentabile con il simbolo X^2 ) permette di misurare la distanza tra la tabella misurata e quella teorica.

X^2 =∑ i = 1

hj = 1

k ( nij − ^ nij )^2

^ nij

 Il valore minimo di X^2 è 0 , che si ottiene quando tutte le contingenze sono nulle (quando c’è quindi massima indipendenza )  Il valore massimo di X^2 si ottiene quando c’è massima connessione e vale: max (^ X^2 )= n ∙ min ( h −1. k − 1 ) Un’altra formula per calcolare l’indice di Paerson, più semplice da usare in pratica è:

X^2 = n ¿

Per valutare e confrontare il livello di connessione tra due variabili si può usare l’ indice di connessione normalizzato , detto anche Chi quadrato normalizzato:

~ X 2 = X^2

max X^2 =^

X^2

n ∙ min ( h − 1 , k − 1 )=

i = 1

hj = 1

k nij^2

ni ∙ n j^ −^1

min ( h − 1 , k − 1 )

Esprimendo l’indice di connessione normalizzato in percentuale, esso indica la percentuale di connessione rispetto al massimo raggiungibile:  0 = indipendenza  1 = massima connessione  più alta è più le due variabili sono connesse.

Medie, varianze marginali e condizionate

Principali grandezze

Media marginale : (^) y =^ ∑ j = 1

k

n. j y j

n

 Varianza marginale : ~ s 2

Y =

j = 1

k

n. j ( y j − y )^2

n

Media condizionata di Y dato xi : (^) yi =^ ∑ j = 1

k

nij y j

ni

Varianza condizionata di Y dato xi: (^) ~ si (^2) =^ ∑ j = 1

k

nij ( y j − y )^2

ni

Proprietà associativa della media marginale: la media delle medie condizionate, pesata con la dimensione del gruppo, coincide con la media marginale di Y La varianza delle h medie condizionate di Y, pesata con la dimensione del gruppo, è detta varianza between:

Varianza between: ~ s^2 B = (^1) ni = 1

h

ni ( yi − y )^2

La media delle h varianze condizionate è detta varianza within :

Varianza within: ~ s^2 W =^1 ni = 1

h ~

si^2 ni

Conoscendo le due varianze marginali per X e Y, esistono delle formule più semplici

Varianza between: ~ s^2 B =^1 n [ nX ( x^ Xx )^2 + nY (^ xYx )^2 ]

 Varianza within: ~ s^2 W =^1 n ( nX ∙ ~ s^2 X + nY ∙^ ~ s^2 Y )

Proprietà di scomposizione della varianza marginale : La varianza marginale è data dalla varianza delle medie condizionate più la media delle varianze condizionate.

~ s^2 Y =~ s^2 B +~ s^2 W

Eta quadro ( indice di dipendenza in media di Y da X ) se le medie condizionate sono tutte uguali tra loro si

dice che Y è indipendente in media da X. Questo si verifica quando ~ s^2 B =0.

Un indice che misura il grado di indipendenza in media di Y da X è l’ ETA QUADRO :

η^2 =

~ s^2 B

~ s^2 Y^ =

~ s^2 B

~ s^2 B +~ s^2 W

Coefficiente di correlazione lineare

Il secondo strumento per studiare la dipendenza lineare tra due fenomeni è il coefficiente di correlazione lineare , che quantifica in un certo senso quanto rappresentato nel diagramma di dispersione.

TEORIA DELLA STIMA STATISTICA

Nel caso di indagini campionarie, la caratteristica di interesse va stimata introducendo il concetto di incertezza. L’ inferenza statistica è la disciplina che partendo da una informazione campionaria riesce a determinare delle affermazioni sulla popolazione da cui il campione è tratto. Campionamento bernoulliano  L’operazione di selezione può continuare indefinitamente  Probabilità delle successive estrazioni indipendente dal risultato delle precedenti  Composizione della popolazione immutata con probabilità di selezione delle unità costanti estrazione per estrazione Variabili casuali campionarie:  Parametro: si chiama parametro di una variabile casuale (v.c.) X e viene indicato con θ una funzione dei valori che la v.c. assume su tutte le unità della popolazione e che caratterizza la distribuzione della v.c. stessa  Stima: la stima t è una funzione dei dati campionari utilizzata per prevedere il valore incognito dei un parametro θ della v.c. X oggetto di studio nella popolazione di riferimento  Stimatore : lo stimatore Tn è la v.c. generata dalle stime calcolate su tutti i campioni Ωn; è quindi una v.c. campionaria. Introduciamo alcune delle principali variabili casuali (v.c.)  Media campionaria : se da una popolazione si estrae un campione bernoulliano di dimensione n sulle cui unità si osserva un fenomeno X, si ottengono dei valori campionari x 1 … xn la cui media è: x = (^1) ni = 1

n

xi

Al variare del campione variano gli n valori ed i relativi xi. Se si considerano tutti i possibili campioni

di dimensione n e tutte le medie ad essi associate si definisce lo stimatore ~ X media campionaria.

o Valore atteso della v.c = valore atteso di X  E (~ X ) = μ

o Varianza della v.c = varianza di X/n  Var (~ X ) = σ x^2 = σ

2

n

Varianza campionaria : se si calcola la varianza del campione di n elementi ottengo:

~ s^2 = 1

n ∙^ ∑ i = 1

n

( xi − x )^2

Al variare del campione, la formula descrive la v.c. variabile casuale (o stimatore) varianza

campionar ia ~ s^2

o Il valore atteso di questa v.c.  E (~ s^2 )=^ n − n^1 ∙^ σ^2

Considerando invece la quantità: s^2 = (^) n −^11 i = 1

n

( xi − x )^2

che al variare del campione genera lo stimatore S^2 , chiamato varianza campionaria corretta , ed il

suo valore atteso è E ( S^2 )= σ^2

Proporzione campionaria : considerando un fenomeno che possa avere solo 2 modalità (A ed B), nella popolazione finita ci saranno NA unità con la modalità A e N-NA unità con modalità B. La proporzione con modalità A è quindi p=NA/N Se ora abbiamo un campione di n unità se ne possono osservare x con la modalità A e n-x con la modalità complementare B. Quindi

^ p = nx

rappresenta la proporzione campionaria, che è una stima dell’ignoto p.

Al variare del campione, ^ p descrive lo stimatore ^ P =X/n, dove la v.c. a numeratore (X) ha

distribuzione binomiale con valore atteso np e varianza np(1-p ).

Valore atteso e varianza di ^ P sono dati allora da:

E ( ^ P ) =^1 n E ( x ) = np n = p

Var (^ ^ P )= n^12 Var ( x )= np (^1 n − 2 p )= p (^1 n −^ p )

Stima statistica

Quando si estrae un campione per stimare l’ignoto parametro di una variabile di interesse nella popolazione, si dispone di una sola stima. Come usarla per calcolare l’ignoto parametro?

Stima puntuale

Con un unico valore spero di azzeccare l’ignoto valore del parametro θ. Uno stimatore è detto consistente (corretto o asintoticamente corretto) se all’aumentare di n la sua varianza tende a 0:

lim n → ∞ Var ( Tn )= 0

Uno stimatore di dice corretto (o non distorto ) se il suo valore atteso coincide con il parametro oggetto di stima: E (^) ( T (^) n )= θ

 Una percentuale di probabilità, tipo 95% (o 99%), da cui essendo ( 1 − α ) =0,95posso calcolare

quanto vale 1 − α / 2 , da questo posso ricavare dalla tabella il valore di z.

Ad esempio, con un intervallo di confidenza al 95%, 1 −^ α 2 =0,975^ da cui z0,975=1,

A parità di altri parametri, tanto più ampio è l’intervallo di confidenza, tanto più ampio è l’IC (Intervallo di Confidenza). Un IC piccolo è più informativo di uno ampio e l’ampiezza dell’intervallo è un elemento importante per la stima:

a = 2 z 1 − α 2 √^ σn

Intervallo di confidenza con varianza ignota Se la varianza della popolazione non è nota, essa viene stimata con la varianza campionaria s^2 che genera lo stimatore S^2. La formula per il calcolo della probabilità diventa quindi:

P ( Xtn − 1 ; 1 − α 2 √^ Sn < μ < X + tn − 1 ; 1 − α 2 √^ Sn )=( 1 − α )

IC =( Xtn − 1 ; 1 − α 2 √^ Sn , X + tn − 1 ; 1 − α 2 √^ Sn )¿

Dove tn − 1 ; 1 − α 2 si ricava dalla tabella dei t-value incrociando la riga n-1 con la colonna 1 −^ α 2.

Negli esercizi vengono di norma forniti:

 Una sequenza di valori, da cui si deduce n (numero valori) e X (media valori)

 Se la varianza non è nota si procede a calcolare la varianza campionaria s^2 : s^2 = (^) n −^11 i = 1

n

( xi − x )^2

 Dalla tabella dei t-value determino il valore di tn − 1 ; 1 − α 2. Ad esempio se n=10 ( n-1=9 ) e la

percentuale è al 95% ( 1- α^ /2=0,975 ) il valore di t=2,26216.

Intervallo di confidenza per p

Se n è molto grande, l’IC di una percentuale può essere calcolato approssimando la Media Campionaria alla Normale, per il teorema del limite centrale:

^ P ≈ N ¿

Si può quindi costruire un IC approssimato a livello di confidenza ( 1 − α ) per l’ignota proporzione p di una

variabile dicotomica:

^ p ± z 1 − α / 2 √ ^ p^ (^1 n −^ ^ p )

IC =¿

Dove ^ p è la proporzione osservata nel campione.

Dimensione campionaria in funzione dell’errore

L’errore si può definire come | θ − t | e non essendo noto θ anche l’errore non può essere noto.

Di norma si tollera un errore | θ − t |< ε ad un livello prefissato di probabilità ( 1 − α ).

P (| X − μ | ≤ z 1 − α 2 √^ σn )=(^1 − α )

Da cui ottengo:

n = z^21 − α 2^ σ^

2

ε^2

Per calcolare la dimensione campionaria minima quando il parametro di interesse è una proporzione p, si può determinare:

ε = z^21 − α

2

p ( 1 − p )

n da cui^ n = z

2 1 − α 2

p ( 1 − p )

Se p è ignoto mi metto nella situazione peggiore (in cui p = 1 / 2 ) da cui:

n =

z^21 − α

2

4 ε^2