Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti per orale di statistica, Appunti di Statistica

Vanno molto per l’orale dopo lo scritto

Tipologia: Appunti

2021/2022

In vendita dal 12/12/2022

EconomiaAziendaleUnical
EconomiaAziendaleUnical 🇮🇹

6 documenti

1 / 33

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21

Anteprima parziale del testo

Scarica Appunti per orale di statistica e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

La distribuzione statistica descrive il modo in cui uno o più caratteri, rappresentativi di un certo

fenomeno, si manifestano in una popolazione oggetto di studio.

L’elenco delle modalità osservate unità per unità costituisce una distribuzione unitaria.

Rappresenta il conteggio delle unità statistiche che presentano una certa modalità del carattere

in relazione alla numerosità del collettivo.

Le modalità sono organizzate in intervalli di valori detti classi, e le frequenze associate a ciascun

intervallo rappresentano il n° di unità sulle quali è osservato/misurato il fenomeno.

UNITÀI

SINGOLO

CARATTERE

> DISTRIBUZIONE UNITARIA

SEMPLICE

PIU' CARATTERI

DISTRIBUZIONE UNITARIA MULTIPLA

NOTAZIONE

N

COLLETTIVO ONUMEROTOTALEUNITÀ

f. POPOLAZIONE

vi

UNITÀ

STATISTICA

F-

CARATTERE

×

  • MODALITÀ

DISTRIBUZIONE

DI FREQUENZA

SI

CHIAMA

DISTRIBUZIONE

DI FREQUENZA

LOSCHEMACONCUISIASSOCIAADOGNIMODALITÀDELCARATTEREXLA RISPETTIVA

FRLQUTNZA

.

MI ALL'

INTERNO DELLO SCHEMA SIPUÒNOTARECOME

:

K

My

N

N=

Mèmttmztm

}

Mk

i

Ma

3

M

}

FREQUENZA RELATIVA

fini

COSÌ

POSSIAMO

INDICARE /LPESOCHEQUELLAMODALITÀHA

NELLA

DESCRIZIONE

DEL

COLLETTIVO RISPETTO AL CARATTERE

.

FREQUENZE PERCENTUALI

MOLTIPLICANDO LE

FREQUENZE

RELATIVE

PER

OTTENIAMO LE

FREQUENZE

PERCENTUALI

.SI/NDlCAC0NlaN0TAZlONEPi.

f.

FREQUENZA

CUMULATA

ESSASICAKOLA ATTRAVERSO

LA

FORMULA

:

MENTRE LA FREQUENZA RELATIVA

CUMULATA

:

Ni

Nizhni

Fini

DISTRIBUZIONE INCASSI

ILNUMERODICLASSIÈDATODALLAFORMULADISTURGES

:

KE

11-3/3221-

/N

Per ottenere le frequenze relative da una tabella a doppia entrata è sufficiente dividere ogni

elemento della matrice per il gran totale n :

Consideriamo una variabile doppia (X,Y) e supponiamo di voler studiare la distr. della variabile Y

rispetto ad un prefissato valore di X=xi

Indica l’ammontare di carattere posseduto complessivamente da tutte le unità.

FREQUENZA

CONGIUNTA

RELATIVA

fi]

1

FREQUENZE CONDIZIONATE

UNITA

'

3

INTENSITÀ

TOTALE

DEL FENOMENO

SI

PUÒ MISURARE COME

Le misure di centralità esprimono sinteticamente il centro ideale della distribuzione, ossia quel

valore intorno al quale tendono a gravitare i dati.

Le medie sono utili perché sono espresse nella stessa unità di misura del carattere osservato.

Secondo Cauchy (1821) è qualunque valore reale M intermedio tra il valore più piccolo della

distribuzione ordinata in senso crescente x(1) (minimo) e il valore più grande x(N) (massimo).

Tale criterio, viene definito di internalità.

Secondo Chisini (1929) è invece quel valore (interno) che rispetto ad una funzione sintetica lascia

inalterato il valore

Se il carattere X è quantitativo discreto e conosciamo la sua distribuzione di frequenza:

MISURE DI CENTRALITÀ

MEDIA

r

ARITMETICA

MEDIA

PONDERATA

MEDIA

L

GEOMETRICA

MODA

MEDIANA

MEDIA

ARITMETICA

M

Xn

COME

DEFINIZIONE GENERALE

:

LA MEDIA ARITMETICA

DI UNA DISTRIBUZIONE STATISTICA DI

S AGGREGATA

E

'

LA SOMMA DEI TERMINI

μ ,

✗ 2 ,


fu

DIVISA PER

"

N

"

.

ABBIAMO

DIVERSE FORMULE

PER CALCOLARE LA
MEDIA
ARITMETICA

IN

BASE ALLA

SITUAZIONE IN CUI

CI TROVIAMO

:

1 OSSERVAZIONI

DI

UN
CARATTERE QUANTITATIVO

Supponiamo di voler studiare la distribuzione condizionata Y|x con una tabella a doppia variabile.

Calcolare la media condizionata significa calcolare la media aritmetica di una sottopopolazione che

presenta un certo carattere di X o Y, infatti siamo interessati a vedere come si distribuisce nel

collettivo il carattere misurato dalla variabile Y fissato un certo valore della variabile X=xi, o

viceversa con Y=yj.

Attraverso la media ponderata è possibile valutare sinteticamente un fenomeno, inserendo anche

un sistema di pesi che tenga conto dell’importanza che le diverse manifestazioni dello stesso

hanno all’interno della popolazione oggetto di studio. Essa si calcola:

Essa si utilizza quando il carattere studiato si modifica mediante proporzioni(andamento geometrico)

MEDIA

CONDIZIONATA

MEDIA PONDERATA

MEDIA GEOMETRICA

PER

POTERLA
CALCOLARE E

'

NECESSARIO CHE

TUTTI I VALORI SIANO POSITIVI

.

MEDIE DI POSIZIONE

LE

MEDIE

DI

POSIZIONE

NON HANNO BISOGNO

DI CALCOLI

,

ESSE SONO :

La moda Mo è la modalità più frequente della distribuzione del carattere.

Può essere utilizzata sia per caratteri a quantitativi o qualitativi.

La moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore si

parla di distribuzione bimodale (due mode)

Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso

determinare la moda

E’ la modalità presentata dall’unità centrale del collettivo.

Divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più basso e

l’altro con modalità di ordine più alto.

Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili.

Il suo calcolo varia a seconda di N:

  • Se n è dispari, la posizione è (n+1)/2 (la mediana è la modalità presentata dall’unità centrale)
  • Se n è pari si hanno due unità centrali con posizione n/2 e n/2 +1 (si hanno due mediane date

dalle modalità delle due unità centrali: se il carattere è quantitativo, possiamo considerare come

mediana la semisomma dei valori delle due unità centrali).

Non è sensibile alla presenza di valori anomali!

La classe mediana è la classe xi-1 -| xi se la corrispondente frequenza cumulata relativa Fi è

maggiore o uguale a 0,50: una volta individuata la classe mediana, si può ottenere la mediana per

approssimazione lineare.

In generale il p-esimo percentile è la modalità che (in senso crescente) si trova nella posizione:

Alcuni percentili in particolare sono di interesse per la descrizione dei fenomeni

I quartili sono dei percentili che consentono di dividere la distribuzione in quattro parti uguali:

  • Se p=25 allora abbiamo il 25° percentile (detto primo quartile, Q1), cioè la modalità che lascia

a sinistra il 25% delle unità

  • Se p=75 allora abbiamo il 75° percentile (detto terzo quartile, Q3), cioè la modalità che lascia

a sinistra il 75% delle unità

MODA

MEDIANA

FREQUENZA

CURVATA CLASSE PRECEDENTE

A

QUELLA

MEDIANA

ESTREMO

INFERIORE CLASSE

MEDIANA

j

AMPIEZZA

CLASSE

MEDIANA

FREQUENZA

CUMULATA CASSE MEDIANA

PERCENTILI

E

QUARTU

i.

[

in

È un indice interno nel quale si collocano il 50% delle osservazioni

Tanto più piccola è la differenza interquartile tanto più la metà delle osservazioni risulta

addensata intorno alla mediana.

Lo scostamento semplice ci indica di quanto in media le osservazioni si discostano dal valore

medio scelto. Possiamo trovare due casi:

Ovviamente è possibile in entrambe le tipologie di distribuzione utilizzare per il calcolo anche le

frequenze relative (ricordando che fi = ni/N)

Prendono in considerazione il quadrato degli scarti, il risultato è che a valori più distanti dal centro

si assegna un maggior peso mentre ai valori più vicini si assegna minor peso

L’indice più utilizzato nella famiglia degli scostamenti quadratici è la cosiddetta varianza

Quando tutti i valori della distribuzione sono uguali allora la varianza è nulla

Più si allontana dallo 0 più il fenomeno è variabile

La varianza è ottenuta come media degli scarti dalla media della distribuzione al quadrato

Il numeratore è chiamato devianza ed è utilizzato in alcuni casi come indice di variabilità al posto

della varianza

DIFFERENZA

INTER QUARTI

LE

APPROFONDIMENTO

OLTRE

AD

INDICI ASSOLUTI

E RELATIVI

,

TROVIAMO ANCHE

DIFFERENZE MEDIE E SCOSTAMENTI MEDI

:

DIFFERENZE MEDIE

: MISURANO A VARIABILITÀ RISPETTO ALLA DIFFERENZE TRA UNITA STATISTICHE

.

ES

. CAMPO

VARIAZIONE

;

DIFF .

INTER QUARTI

LE

SCOSTAMENTI

MEDI

:

MISURANO A VARIABILITÀ RISPETTO

AD

UN

CENTRO

RAPPRESENTATO. ES. SCOSTAMENTI SEMPLICI

,

SCOSTAMENTI QUADRKI

.

SCOSTAMENTO SEMPLICE

PRIMA

DI PARLARE

DI SCOSTAMENTI BISOGNA PARLARE DI

SCARTO

LO SCARTO È LA DIFF

. TRA SINGOLI VALORI DELLA DISTRIBUZIONE E
UN VALORE MEDIO

"

C

"

CHE SOLITAMENTE COINCIDE

CON LA MEDIA

(

×

,

c)

POSSIAMO

TROVARCI IN CASI DI

:

DISTRIBUZIONI DI FREQUENZA ASSOLUTA

CON A-

MEDIA

CON

LA

MEDIANA

CON A-

MEDIA CON

LA

MEDIANA

SCOSTAMENTI

QUADRKI

( VARIANZA)

→ SIGMA

→ È

La varianza presenta alcune peculiarità

1) dipende da tutte le modalità del carattere

2) assume solo valori non negativi: σ > 0

3) ènullaseesoloseilcarattereè“degenere”: sex1 =x2 =...=xN allora σ =

4) è sensibile ai valori anomali (poiché lo è la media aritmetica in essa contenuta)

5) è invariante per traslazioni del tipo Y = X + a: infatti si dimostra che σ = σ

Consideriamo una variabile doppia (X,Y) e supponiamo che sia stata organizzata in una tabella

che contiene sulle righe le r modalità di X e sulle colonne le c modalità di Y

Con lo stesso criterio già visto è possibile calcolare anche la varianza della distribuzione condizionata Y|x :

siamo interessati a studiare la variabilità nel collettivo del carattere misurato dalla variabile Y fissato un certo

valore della variabile X

Essi vengono utilizzati per confrontare la variabilità di fenomeni, con un diverso ordine di grandezza

o più fenomeni, espressi anche con diversa unità di misura

Possono essere costruiti rapportando l’indice di variabilità assoluto ad una media

Utilizzato per confrontare la variabilità di due distribuzioni

ANCHE

IN

QUESTO CASO POSSIAMO TROVARCI IN SITUAZIONI

DI

:

DISTRIBUZIONE

INCASSI

PER RISOLVERE

IL

PROBLEMA DELLE

UNITÀ

DI MISURA CALCOLIAMO

LO

SCARTO QVADRKO

MEDIO

RADICE

DELLA DEVIANZA

PROPRIETÀ DELLA VARIANZA

=

2

i

i

VARIABILITÀ DI

VARIABILI DOPPIE

VARIANZA

CONDIZIONATA

DOVE

:

mi

= NUMEROSITÀ

GRUPPO
DEFINITO DA

✗ i

M (

Yk;)

=

MEDIA

DI Y

NEL

GRUPPO DEFINITO DA ✗

i

mig

= NUMEROSITÀ

GRUPPO
MODALITA

Y

INDICI

REATI

V O DI

VARIABILITÀ

(OEFFKENTE

DI

VARIABILITÀ

Possiamo ricorrere ai soli intervalli di variabilità per descrivere graficamente la distribuzione

La rappresentazione ottenuta è detta box plot (diagramma a scatola e baffi)

Il box-plot è un grafico caratterizzato da tre elementi:

1) un rettangolo (box) la cui dimensione indica la variabilità dei valori “prossimi” al centro della

distribuzione

2) una linea o punto, che indica la posizione del centro della distribuzione

3) due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi

della distribuzione

Attraverso il box plot è possibile evidenziare la presenza di eventuali valori anomali. Abbiamo già

detto che un valore anomalo è un valore molto più piccolo o molto più grande rispetto ai valori

della distribuzione: per poter evidenziare tali modalità particolari è necessario calcolare

i cosiddetti valori minimo e massimo “teorici” e confrontarli con quelli effettivamente osservati

Nello studio dei fenomeni economici e sociali descritti attraverso caratteri quantitativi di tipo

trasferibile può essere interessante analizzare la cosiddetta concentrazione. Riguarda il modo in

cui un fenomeno trasferibile si ripartisce tra le unità, in particolare l’attitudine ad accentrarsi in un

numero di unità ridotto

Si parla di disuguaglianza distributiva e si considera la concentrazione come un eccesso di tale

particolare fenomeno

GRAFICAMENTE

BOX

PLOT

NN X Max

Qi

Moo

Qs

UNITA

'

5

CONCENTRAZIONE

Data una distribuzione unitaria di n osservazioni di un carattere X, ordinati in senso crescentesi è

interessati a studiare come l’ammontare totale del carattere

sia ripartito fra le diverse unità statistiche che compongono il collettivo:

(1) equidistribuzione (assenza di concentrazione) ciascuna delle n unità possiede 1/n

dell’ammontare complessivo A del carattere, ossia:

(2) massima concentrazione l’intero ammontare del carattere è posseduto da una unità:

Per misurare la concentrazione di un carattere X in un collettivo è necessario considerare gli scarti

(differenze) tra frequenze relative cumulate delle unità statistiche e frazione cumulata

dell’ammontare di carattere posseduto:

La concentrazione totale nel collettivo è ottenuta sommando gli scarti

A-

Èi

Xi

ci

=

(

Pi

qi

)

SI TRATTA

DI

UNA MISURA

IN CUI IL

VALORE

:

=

O NEL CASO

DI

EQUI
DISTRIBUZIONE

O

NEL CASO DI CONCENTRAZIONE

SARA

'

!

Pi =

ME

PER

MAX CONCENTRAZIONE

In generale possiamo pensare che presi due caratteri ci sia una relazione di dipendenza o

indipendenza

Consideriamo una variabile doppia (X,Y) e supponiamo che sia stata organizzata in una tabella: sulle

righe le r modalità di X e sulle colonne le c modalità di Y

Possiamo osservare, a seconda del problema trattato,

diversi tipologie di relazione:

Consideriamo a tal proposito le distribuzioni condizionate della X rispetto alla Y:

se la distribuzione condizionata X|Y non si modifica al variare delle modalità di Y allora si parla di

indipendenza in distribuzione, e quindi le variabili sono sconnesse

L’indipendenza in distribuzione è una relazione simmetrica: se X è indipendente da Y allora anche Y

risulta essere indipendente da X

In generale se due variabili sono indipendenti in distribuzione è possibile allora ricostruire la tabella

doppia a partire dalle distribuzioni marginali di riga e colonna, avendo:

Si ha quando tra due caratteri logicamente indipendenti sia invece evidenziata una

relazione.

UNITA

'

RELAZIONI

TRA VARIABILI

INDIPENDENZA

IN GENERALE

DUE CARATTERI SONO INDIPENDENTI QUANDO LA CONOSCENZA DI

UNO DEI DUE

NON MIGLIORA

LA

"

PREVISIONE

"

DELLA MODALITÀ DELL' ALTRO.

ASSOCIAZIONE SPURIA

:

Se scegliamo una modalità qualsiasi della Y allora sappiamo qual è la modalità

osservata della X, e viceversa.

Se scegliamo una modalità qualsiasi della X allora sappiamo qual è la modalità

osservata della Y, ma non è vero il contrario.

La misura del grado di connessione si basa sullo scarto tra la frequenza osservata e la frequenza

teorica che si osserverebbe se tra le variabili ci fosse perfetta indipendenza.

In caso di indipendenza le contingenze sono tutte nulle

L’indice chi-quadro di Pearson valuta complessivamente l’indipendenza tra le variabili e che allo

stesso tempo annulli l’effetto compensativo dei segni positivi e negativi

È ottenuto come somma delle contingenze al quadrato sulle frequenze teoriche.

Quando si ha perfetta indipendenza l’indice assume valore 0.

Nel caso invece di massima connessione, il valore (massimo) che l’indice può assumere dipende

dalla dimensione della tabella e dalla numerosità del collettivo.

Per calcolare l’intensità della dipendenzaè utile ricorrere ad un indice normalizzato, che ha il

vantaggio di variare tra 0 e 1 e può quindi essere espresso in percentuale

Quando la V di Cramer vale 0 allora abbiamo perfetta

indipendenza

Quando la V di Cramer vale 1 allora abbiamo massima

connessione

MASSIMA

DIPENDENZA

CONNESSIONE)

SI

HA

MASSIMA DIPENDENZA TRA DUE

CARATTERI QUANDO

CONOSCENDO

UNA QUALSIASI

MODALITÀ DI UNO DEI DUE SI

PUÒ DETERMINARE

UNIVOCAMENTE L'ALTRO .

SI

POSSONO VERIFICARE

DUE CASI

:

PERFETTA INDIPENDENZA

:

PERFETTA DIPENDENZA

:

GRADO DI CONNESSIONE

INDICE

CHI

QUADRO

INDICE

DI CRAMER

Uno degli aspetti fondamentali dello studio della relazione tra due variabili quantitative è legato al

concetto di concordanza, ossia la ricerca della direzione della dipendenza tra Y e X

Poiché non è possibile cogliere il segno della concordanza (o discordanza) osservando tutti gli

scarti misti uno per volta, è necessario costruire una misura di sintesi => COVARIANZA

CONCORDANZA

COEFFKENTE

DI
CORRELAZIONE
IL

COEFFKENTE

DI
CORRELAZIONE

QUANTIFICA

LA

FORZA DELLA RELAZIONE

LINEARE TRA DUE VARIABILI

,

E SI CALCOLA

COME

:

Il diagramma di dispersione fornisce una idea immediata sia sulla direzione della relazione sia sulla

sua intensità

Una relazione statistica tra la Y e la X può essere descritta da:

La prima parte f(X) - la componente DETERMINISTICA - rappresenta il contributo della X, la

seconda parte ɛ invece - la componente STOCASTICA - rappresenta il contributo di tutto ciò che

non è stato osservato, ed è perciò considerato un termine di errore

Date due variabili X (indipendente) e Y (dipendente) si assume che:

Per poter calcolare l’intercetta e il coefficiente di regressione è necessario minimizzare gli errori.

Tale procedura è chiamata dei minimi quadrati:

GRAFICO DI DISPERSIONE

REGRESSIONE

LINEARE

SEMPLICE

E

'

UN

MODELLO ATTRAVERSO IL

QUALE

SI RAPPRESENTA

IL FENOMENO OGGETTO DI STUDIO

E

LA RELAZIONE

TRA

VARIABILI

.

ESSO CERCA DI

SINTETIZZARE

AL MEGLIO

LA NUVOLA

DI

PUNTI

DEFINITA

DALLA

DISTRIBUZIONE

CONGIUNTA DI

DUE

VARIABILI

.

CALCOLO

DI A E

B