Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Distribuzioni di Frequenze, Valori Medie e Variabilità - Pro, Dispense di Statistica

La dispensa comprende la statistica monovariata, bivariata e l’inferenza statistica.

Tipologia: Dispense

2021/2022

In vendita dal 26/06/2022

Chiaraasironi
Chiaraasironi 🇮🇹

4.3

(3)

8 documenti

1 / 57

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
CAP 2: DEFINIZIONE E NOTAZIONE DI BASE
La statistica è un insieme di metodologie e di strumenti formali per la
trattazione quantitativa dei fenomeni osservabili nella realtà sociale, in
natura o in laboratorio.
Con “
trattazione quantitativa
”, intendiamo la realizzazione del seguente
processo logico:
osservazione --> analisi --> comprensione
Ossia il processo che realizziamo attraverso:
raccolta di dati --> elaborazione (di essi) -->
trasformazione di dati in informazioni.
1. RACCOLTA DATI: l’operazione di raccolta dati prende il nome di
“rilevazione”.
2. ELABORAZIONE: l’obbiettivo principale dell’elaborazione statistica è
di farli parlare, ossia di trasformarli da dati muti in informazioni
utilizzabili per prendere decisioni.
3. TRASFORMAZIONE DEI DATI: il dato sarà un’informazione statica
estratta con metodo scientifico, che verrà interpretata per prendere
decisioni.
4 ELEMENTI BASE
I fenomeni di interesse per la statistica sono detti “
fenomeni statistici
”,
sono coloro che si manifestano con una molteplicità di manifestazioni. Il
carattere della molteplicità determina la necessità di metodi statistici
per il trattamento dei fenomeni, in particolare lo strumento statistico
dovrà astrarsi dalla realtà per arrivare alla formalizzazione del metodo
(attraverso formule, notazione, linguaggio). Esempi di fenomeni sono:
genere, livello di scolarizzazione, peso, temperatura.
Sono indicati tipicamente con X, Y, W, A, B.
I supporti fisici o teorici delle diverse manifestazioni del fenomeno sono
dette “
unità statistiche
; attraverso esse è possibile registrare le
manifestazioni del fenomeno di interesse. Es. se facciamo riferimento
alle persone di un collettivo di interesse, le unità statistiche sono
individui.
Indichiamo con x, y, w, a, b ogni singola manifestazione del fenomeno,
ossia la
modalità
o i
valori
del fenomeno.
L’insieme delle unità statistiche sulle quali interessa studiare il
fenomeno è chiamato
“popolazione statistica”
o “
universo di
riferimento
”.
Essa viene indicata con la lettera U
Il numero di unità statistiche che compongono la popolazione statistica
di riferimento è chiamato
numerosità
o
dimensione
di U. I fenomeni di
interesse possono manifestarsi sia su popolazione finite e sia su
popolazioni infinite
La notazione che useremo è la lettera N
: su U di numerosità N sono presenti le manifestazioni x del fenomeno X.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Distribuzioni di Frequenze, Valori Medie e Variabilità - Pro e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

 CAP 2: DEFINIZIONE E NOTAZIONE DI BASE

 La statistica è un insieme di metodologie e di strumenti formali per la

trattazione quantitativa dei fenomeni osservabili nella realtà sociale, in

natura o in laboratorio.

 Con “ trattazione quantitativa”, intendiamo la realizzazione del seguente

processo logico:

osservazione --> analisi --> comprensione

 Ossia il processo che realizziamo attraverso:

raccolta di dati --> elaborazione (di essi) -->

trasformazione di dati in informazioni.

  1. RACCOLTA DATI: l’operazione di raccolta dati prende il nome di

“rilevazione”.

  1. ELABORAZIONE: l’obbiettivo principale dell’elaborazione statistica è

di farli parlare, ossia di trasformarli da dati muti in informazioni

utilizzabili per prendere decisioni.

  1. TRASFORMAZIONE DEI DATI: il dato sarà un’informazione statica

estratta con metodo scientifico, che verrà interpretata per prendere

decisioni.

 4 ELEMENTI BASE

 I fenomeni di interesse per la statistica sono detti “ fenomeni statistici”,

sono coloro che si manifestano con una molteplicità di manifestazioni. Il

carattere della molteplicità determina la necessità di metodi statistici

per il trattamento dei fenomeni, in particolare lo strumento statistico

dovrà astrarsi dalla realtà per arrivare alla formalizzazione del metodo

(attraverso formule, notazione, linguaggio). Esempi di fenomeni sono:

genere, livello di scolarizzazione, peso, temperatura.

 Sono indicati tipicamente con X, Y, W, A, B.

 I supporti fisici o teorici delle diverse manifestazioni del fenomeno sono

dette “ unità statistiche”; attraverso esse è possibile registrare le

manifestazioni del fenomeno di interesse. Es. se facciamo riferimento

alle persone di un collettivo di interesse, le unità statistiche sono

individui.

 Indichiamo con x, y, w, a, b ogni singola manifestazione del fenomeno,

ossia la modalità o i valori del fenomeno.

 L’insieme delle unità statistiche sulle quali interessa studiare il

fenomeno è chiamato “popolazione statistica” o “ universo di

riferimento”.

 Essa viene indicata con la lettera U

 Il numero di unità statistiche che compongono la popolazione statistica

di riferimento è chiamato numerosità o dimensione di U. I fenomeni di

interesse possono manifestarsi sia su popolazione finite e sia su

popolazioni infinite

 La notazione che useremo è la lettera N

: su U di numerosità N sono presenti le manifestazioni x del fenomeno X.

Quindi, in generale:

o X è un FENOMENO

o U è un INSIEME

o N è un NUMERO (eventualmente infinito)

o x può essere un ATTRIBUTO, NUMERO (positivo, nullo,

numero reale con virgola o negativo), CATEGORIA.

 ANALISI STATISTICA DI UN FENOMENO

 Una volta stabiliti gli elementi base della statistica (il fenomeno, la

popolazione, le unità statistiche su cui osservare le diverse

manifestazioni), bisogna “trattare quantitativamente” il fenomeno

ossia:

  1. Osservarne le manifestazioni, cioè recarsi fisicamente presso le unità

statistiche per osservarne il comportamento con il fine di creare i

DATI. Può succedere anche che i dati siano già disponibili presso

fonti ufficiali (ISTAT). = rilevazione di X su U

  1. Organizzare il risultato della rilevazione, bisogna organizzare il

risultato attraverso tabelle e grafici in modo da renderlo più leggibile.

= fase della strutturazione dei dati medianti variabili statistiche e

distribuzioni di frequenza.

  1. Elaborare i dati strutturati, dove l’obbiettivo è quello di far emergere più

chiaramente dai dati le informazioni che interessano e di comprendere i

meccanismi che determinano il variare del fenomeno. = costruzioni di

indici e valori sintetici e di studiarne le eventuali relazioni con altri

fenomeni.

  1. Comunicare i risultati, Non tutti coloro che riceveranno i risultati

dell’analisi sono esperti di statistica per tanto questa fase è caratterizzata

da una forte interdisciplinarità.

 LE DUE FUNZIONI DELLA STATISTICA

  1. Se la rilevazione è stata esaustiva di U, ossia censuaria e si dispone di

tutto gli N dati osservati presso tutte le unità statistiche, la statistica ha

allora il compito di descrivere il comportamento di X su U. Gli strumenti

di analisi descrittiva aventi tale scopo formano la statistica descrittiva,

che si classifica a sua volta in:

o Monovariata/univariata --> ha per oggetto un solo

fenomeno singolarmente rilevato e come obbiettivo la

descrizione sintetica del suo comportamento su U;

o Bivariata --> ha per oggetto una coppia di fenomeni

congiuntamente rilevati sulla stessa U e l’obbiettivo è

lo studio delle eventuali relazioni tra i due

o Multivariata --> ha per oggetto più di due fenomeni

rilevati sulla stessa U e l’obbiettivo è descriverne il

comportamento congiunto, e studiarne le relazioni.

 Esse necessitano di strumenti matematici e statistici differenti.

  1. Più frequentemente a causa del tempo e del budget a disposizione è

concessa unicamente una rilevazione di tipo parziale di U, e quindi per

variabile. Es. frequenza in presenza, genere,

città di residenza

FRA i fenomeni quantitativi abbiamo un’altra sotto-classificazione:

o fenomeni quantitativi discreti --> fenomeni che

possiamo enumerare (spesso iniziano con #). Es

numero di esami registrati sul libretto, numero di

furti di motorini denunciati a Milano.

o Fenomeni quantitativi discreti --> fenomeni che

si possono misurare una volta scelta

un’opportuna unità di misura e un opportuno

strumento di misurazione. Es peso corporeo alle

ore 8, temperatura massima a Milano. Le

manifestazioni di un fenomeno continuo sono

intervalli.

 RILEVAZIONE: QUESTIONARI E SCALE DI MOBILITÀ

 Il questionario è il tipico strumento con il quale si effettua la rilevazione;

da questo dipende la qualità dei dati sui quali poi si effettua l’analisi

statistica.

 Il fenomeno viene operativizzato in una domanda --> X

 Il menù delle possibili risposte (delle diverse modalità del fenomeno)

prende il nome di SCALA DELLE MODALITÀ/DI RILEVAZIONE, ossia è

l’insieme di tutte le diverse manifestazioni di X osservabili su U. Una

buona scala delle modalità deve rispettare due principi:

  1. Esaustività: deve prendere tutte le possibili manifestazioni di

X che si possono potenzialmente osservare su U.

  1. Mutua esclusività: modalità che si escludono a vicenda senza

possibilità di confusione o sovrapposizione.

Queste due caratteristiche garantiscono la corretta rilevazione di X SU U.

 CLASSIFICAZIONE DELLE SCALE DI MODALITÀ

 Scala qualitativa --> le modalità sono attributi/categorie

 Scala quantitativa --> le modalità sono numeri

Sotto-classificazione scala qualitativa:

 Scala qualitativa ordinale --> gli attributi/categorie possono essere

ordinati secondo un criterio oggettivo/convenzionalmente accettato.

 Scala qualitativa sconnessa --> attributi/categorie non ammettono un

ordinamento oggettivo ma solo casuale/personale.

 Xi = attributo, categoria

Sotto-classificazione scala quantitativa:

 Scala quantitativa di tipo rapporto --> 0 ha significato di assenza del

fenomeno. Si possono eseguire tutte le operazioni elementari.

 Scala quantitativa di tipo non rapporto -->0 ha un’origine convenzionale,

cioè scelta secondo un criterio. Es. Se il 17/05 del 2021 c’erano 11 gradi

e il 17/05/2022 sono previsti 22 gradi, si può affermare che la

temperatura prevista per domani è il doppio di quella dell’anno scorso?

NO in quanto se considero lo stesso U ma cambio la scala di modalità,

avrò un risultato diverso. Quindi il rapporto non ha significato, non

consentono la divisione.

Nei FENOMENI DISCRETI

 Indicheremo con k = n delle diverse modalità, che può essere finito o

infinito. Se finito --> fenomeni discreti FINITI, se infinito --> fenomeni

discreti NUMERABILI.

 Indice i = diverse modalità previste dalla scala

 Xi= numero

Nei FENOMENI CONTINUI (manifestazione

attraverso intervalli)

o Xl = estremo inferiore dell’intervallo

o XL = estremo superiore dell’intervallo

o K = il n di intervalli xi con cui si rileva X continuo

o Xi = intervallo

 FENOMENI QUANTITATIVI RILEVATI CON SCALA ORDINALE QUALITATIVA

 ES. REDDITO MENSILE --> è qualitativo MA tende ad essere rilevato

con scala quantitativa, in quanto ha una maggiore probabilità di essere

rilevato correttamente MA così facendo si abbassa il livello di analisi

statistica (prof consiglia di trattarlo come fenomeno quantitativo

continuo).

 FENOMENI QUALITATIVI TRATTATI CON SCALA QUANTITATIVA

 Es. ESITO DELL’ESAME --> è qualitativo ma viene trattato con una

scala quantitativa, da 18 a 30, scala di tipo non rapporto

CAPITOLO 4: DISTRIBUZIONI DI FREQUENZE,

TABELLE E GRAFICI

 Il risultato della rilevazione del fenomeno X sulla popolazione U è un

insieme di N osservazioni, ciascuna delle quali coincide con una delle k

diverse modalità xi. In particolare, il risultato ci fornisce: DATI GREZZI,

ossia l’insieme dei dati raccolti sulla popolazione con la loro natura e il

loro tipo di scala. Essi presi singolarmente non ci dicono niente:

l’obbiettivo è quello di far emergere, per sintesi successive, le

informazioni utili a descrivere e a spiegare il comportamento di X su U.

  1. Prima sintesi consiste nel dare una struttura ai dati grezzi,

ponendoli in tabelle e grafici che corrispondono alle

distribuzioni di frequenze e alle variabili statistiche.

  1. Per sintesi successive, faremo emergere le informazioni che

contengono i dati, ma a ogni livello di elaborazione da un lato

si ottiene di far emergere più chiaramente un aspetto del

 Nel costruire la distribuzione di frequenza, abbiamo avuto la prima perdita

che riguarda l’ordine in cui i dati sono stati raccolti.

 Le frequenze assolute vengono definite tali in quanto sono direttamente

influenzate dalla numerosità di N, per tanto non permettono il confronto

tra popolazione con numerosità differenti. Quindi occorre depurare le

frequenze assolute:

 FREQUENZE RELATIVE= la frequenza relativa associata alla modalità

xi è il rapporto fra la frequenza assoluta di xi e la numerosità N di U.

Indicheremo la frequenza relativa con pi.

 Al denominatore poniamo la grandezza che disturba il confronto; Esse

sono sempre confrontabili, in quanto grandezze adimensionali. Il

denominatore rappresenta il totale del numeratore, perciò risultano

sempre comprese tra 0 e 1, e la loro somma è pari a 1.

 L’informazione perduta è la dimensione N di U.

in formule:

DIMOSTRAZIONE:

 Le percentuali sono le frequenze relative moltiplicate per 100. La loro

somma è pari a 100.

 FREQUENZE CUMULATE

 Quando x è almeno ordinale, possiamo aumentare il livello di analisi

attraverso

 Le FREQUENZE CUMULATE: si tratta di cumulare le frequenze

associate alle modalità inferiori, dopo aver posto in senso crescente le

modalità osservate. Esse si indicano con Fi.

 Esistono anche le frequenze cumulate relative, che si indicano con Φi.

 Rispondono alle domande del tipo: “quanti sono i soggetti che

dichiarano non più di…?”, “quanti sono i soggetti che dichiarano più

di…?”

 In formule:

 PROPRIETÀ:

o Frequenze cumulate assolute sono numeri interi compresi

tra 0 e N

o Frequenze cumulate assolute sono numeri compresi tra 0

e 1.

o La prima frequenza cumulata corrisponde con la

frequenza della modalità più piccola; l’ultima frequenza

cumulata corrisponde con la numerosità N di U -->

assolute, mentre corrisponde con 1 --> relative.

o Fra frequenze assolute e relative e le corrispondenti

cumulate esiste una corrispondenza biunivoca: data una

distribuzione è possibile passare all’altra e viceversa.

Fi – Fi-1 = fi

Φi – Φi-1 = pi

 DENSITÀ DI FREQUENZA

 Se poniamo l’attenzione sui fenomeni quantitativi continui. Se X è

continuo, le modalità xi sono intervalli. La distribuzione di frequenze

all’interno degli intervalli è ignota. Dobbiamo adottare 2 ipotesi per

proporre una ripartizione delle f1 all’interno degli infiniti valori

dell’intervalli:

  1. Ipotesi del valore centrale --> assegnare a ciascuna delle f1delle

unità statistiche all’interno dell’intervallo un unico punto, che è

il valore centrale dell’intervallo. Tale valore corrisponde alla

semisomma dei suoi estremi:

xi* = Xl + XL / 2

  1. Ipotesi di distribuzione uniforme --> obbiettivo è quello di

distribuire in modo uniforme ed equidistante le frequenze

all’interno dell’intervallo. MA il problema è che gli intervalli

possono avere ampiezza diversa. L’ampiezza dell’intervallo xi: Xl

o Unica rappresentazione sensata quando la v.s. si

presenta con intervalli di ampiezza diversa

o L’area totale dell’istogramma è N se si rappresentano

le frequenze assolute, è 1 se si rappresentano le

relative.

 Istogramma può anche essere fatto con le frequenze cumulate.

 CAP 5: VALORI MEDI

 Vogliamo portare la sintesi della variabile statistica, fino

all’individuazione di un unico valore che da solo ci dia un’idea del

comportamento di X su U e del suo ordine di grandezza --> valore

medio.

 Questa sintesi però comporta una perdita di informazioni consistente,

non sappiamo più quante sono e quali sono le diverse modalità con cui X

si manifesta su U.

 Non è sensato costruire un singolo valore medio perfettamente

rappresentativo dell’intera variabile statistica --> bisogna procedere per

gradi, costruendo valori medi differenti.

 MODA

 La moda o norma di una variabile statistica è la modalità a cui è

associata la frequenza più elevata fra le k osservate, cioè la modalità

più osservata.

 La moda di x viene indicata con X

 La moda è un valore medio calcolabile per X qualunque (a

prescindere dalla qualità dei dati)

 X0 è immediatamente individuabile e non serve un computer.

 La variabile statistica può essere priva di moda, per tanto essa in quel

caso non è un buon valore medio

 La v.s. può anche presentarsi con più di una moda --> fenomeno bi-

modale (tri-modale, pluri-modale).

CASO DI X CONTINUO:

 Se gli intervalli sono di ampiezza differente, l’ampiezza degli intervalli

influenza la frequenza

 L’intervallo modale sarà quello a cui è associata la densità più

elevata fra le k osservate.

 MEDIANA

 La mediana di X è la modalità che nell’ordinamento, occupa la posizione

centrale

 Per indicare la mediana di X, useremo la notazione X0,

 La mediana è calcolabile solo per i fenomeni almeno ordinali, cioè

qualitativi ordinali oppure quantitativi

 Offre un’informazione più raffinata: il 50% di U manifesta modalità xi <

uguale X0,5, l’altro 50% modalità xi > uguale x0,5.

 Per individuare la mediana, dobbiamo scorrere le frequenze cumulate

relative e non appena si raggiunge o eventualmente si supera lo 0,5 -->

abbiamo la mediana.

 Bisogna disporre le modalità xi in ordine crescente

X CONTINUO:

 GENERALIZZAZIONI DELLA MEDIANA

 Dividendo U in 4 gruppi contenenti ciascuno un quarto di N, cioè il 25%

di U, si identificano 3 modalità detti quartili di X.

 I quartili di X sono le tre modalità X0,25, X0,5, X0,75 che

nell’ordinamento occupano le posizioni 25%, 50%, 75% di U.

 I quartili ci informano che il 25% di U manifesta una modalità non

superiore al primo quartile chiamato anche quartile inferiore; il 50% di

U manifesta una modalità non superiore al secondo quartile che coincide

quindi con la mediana; il 75% di U manifesta una modalità non superiore

al terzo quartile chiamato quartile superiore.

 I quintili dividono U in 5 gruppi contenenti ciascuno il 20%

 I decili dividono U in 10 gruppi contenenti ciascuno il 10%

 I percentili dividono U in 100 gruppi contenenti ciascuno l’1%

 SINTESI IN 5 NUMERI E BOX PLOT

 Per un fenomeno almeno ordinale, i seguenti 5 numeri danno una

descrizione sintetica dell’intera variabile statistica:

  1. Minimo: xi
  2. I quartile: x0,
  3. Mediana: x0,
  4. III quartile: X0,
  5. Massimo: Xk

 Sintesi che viene rappresentata graficamente attraverso --> box-plot

 In una variabile statistica un valore anomalo (outlier) è una modalità

molto ma molto diversa da tutte le altre modalità osservate, molto più

piccola o molto più grande

 Il caso ideale si ha quando è possibile classificarlo con certezza come

un errore ed eliminarlo

 Per costruire il box-plot si tiene da parte il valore anomalo, e lo si

inserisce nel grafico finale

 Quando U è molto numerosa conviene utilizzare dati aggregati, ossia

bisogna considerare U divisa in un certo numero di sottopopolazioni.

 La media generale di X su U è sempre raggiungibile dai dati aggregati,

basta calcolare la media delle medie delle sottopopolazioni

3. ANNULLAMENTO DEGLI SCARTI

 Le differenze (xi -

x ) sono dette scarti o deviazioni della media

aritmetica. Se poi si tiene conto del fatto che lo scarto xi è presente su U

con frequenza f, si ha lo scarto ponderato (xi-

x ) fi.

 Quando lo scarto è > 0 --> si dice che xi è un valore sopramedia

 Quando lo scarto è < 0 --> si dice che xi è un valore sottomedia

 proprietà di annullamento degli scarti: i valori sopra e sotto-media si

compensano cioè se si sommano tutti i k scarti ponderati si ottiene

sempre 0. Proprietà che vale solo per la media aritmetica.

 DIMOSTRAZIONE:

 Questa proprietà dà alla media il ruolo di baricentro della variabile

statistica e in questo caso ne rappresenta una sintesi della tendenza

centrale.

4. EQUIDISTRIBUZIONE/MANTENIMENTO DEL TOTALE

 La somma di tutti i valori di X su tutte le N unità osservate prende il

nome di totale di X; in formule:

 Totale di x è anche dato dalla media moltiplicata per N, che a sua volta è

la somma delle frequenze fi.

 Se ai valori di x osservati sostituiamo la media aritmetica, il totale di x

non cambia: media mantiene inalterato il totale.

 Se il totale di X fosse distribuito in parti uguali tra le N unità di U, a

ciascuna unità toccherebbe una quota di totale pari a

x : media

equidistribuisce il totale di x sulle N unità di U.

 CAPITOLO 7: LA VARIABILITÀ

 In questo capitolo considereremo i soli fenomeni quantitativi

 I valori medi, in particolare la media, non bastano per descrivere un

fenomeno statistico quantitativo, in quanto esso non è in grado di

cogliere la variabilità o dispersione di X.

 La variabilità/dispersione di X è l’attitudine di un fenomeno quantitativo

a manifestarsi sulle N unità di U, con modalità fra loro diverse e distanti.

 Per raggiungere il nostro obbiettivo, ossia la descrizione del

comportamento di X su U, dovremo allora ottenere la misura e l’analisi

della variabilità.

 Una misura della variabilità di X è allora un indice sintetico con le

seguenti caratteristiche:

o assume valore 0 = assenza di variabilità, X si manifesta

sulle N unità con un’unica modalità --> v.s.

costante/degenere

o Assume valore > 0 = quando x si manifesta su U con

modalità molteplici e differenti --> variabilità

o Assume valori positivi e via via più grandi

all’aumentare della variabilità

 Una misura di variabilità più raffinata, meno sensibile agli eventuali

valori anomali e che utilizza tutta la v.s. è la deviazione standard di x/

scarto quadratico medio.

 Essa si indica con la lettera “σ”.

 Si confronta ciascuna delle k modalità osservate xi con un unico valore

fisso scelto come polo di confronto.

può nemmeno indicarci se X è più variabile o meno di un altro fenomeno

anche su un’altra popolazione: NON CONFRONTABILE.

 Per confrontare e valutare X --> misura di variabilità relativa. Dobbiamo

mettere a confronto la misura assoluta con la quantità che disturba il

confronto.

 Otteniamo quindi il coefficiente di variazione di x, che si costruisce

ponendo a rapporto la deviazione standard con la media aritmetica

(sintesi dell’ordine di grandezza ed espressa nella stessa unità di misura

di X)

 Il cv è un indice puro, in quanto è privo di unità di misura

 È confrontabile fra fenomeni con diverso ordine di grandezza e diversa

unità di misura e fra fenomeni rilevati su popolazioni diverse

 È valutabile come percentuale della media (% di

x ¿

 Valutare la variabilità di un fenomeno serve anche per valutare la

capacità di sintesi della media aritmetica: più alta è la variabilità del

fenomeno, meno informativa risulta

x

 Cv è un valore sempre > 0

 COME SI COSTRUISCE UN INDICE

NORMALIZZATO

 Obbiettivo: trasformare una misura di variabilità assoluta in percentuale

di variabilità massima possibile

 Processo: normalizzazione

 La normalizzazione è il procedimento di trasformazione di un indicatore

statistico assoluto in una percentuale:

 I= generica misura statistica assoluta e di essa conosciamo:

o Imin= Il valore minimo, cioè il valore che I assumerebbe

in assenza di ciò che stiamo misurando di X

o Imax= Il valore massimo, cioè il valore che I

assumerebbe nel caso che X presenti al livello massimo

ciò che stiamo misurando

I= I – Imin / Imax – Imin

 Il risultato della normalizzazione è sempre un numero compreso fra 0 e

 X 100 --> è interpretabile come percentuale, e sarà un numero compreso

tra 0 e 100

 = 0 --> I=I min

 = 1 --> Imin=I max

 È poco se vicino a 0, è tanto se vicino a 1

 CAPITOLO 8: NUMERI INDICE

 Nelle applicazioni economiche e sociali è frequente la rilevazione di

un fenomeno effettuata ripetutamente nel tempo. Il risultato di

questa rilevazione prende il nome di SERIE STORICA.

 In una serie storica:

o Unità statistiche = istanti temporali di osservazione

o Obbiettivo= descrivere e analizzare il

comportamento di X nel tempo

o Ordine = tempo

 NUMERI INDICE (NI)

 t= istanti temporali di osservazione

 T= ultimo istante di osservazione

 Xt= modalità di X osservata all’istante t

 Il numero indice è il rapporto fra due modalità xt rilevate in due

differenti istanti temporali

 Scopo= analizzare l’evoluzione temporale di x

 2 tipi di numeri indice:

o A base fissa --> si sceglie un istante temporale come

base da tenere al denominatore, che rimarrà fissa. In

genere l’istante base è l’istante inziale della rilevazione.

Ci da informazioni sull’evoluzione temporale di X rispetto

all’istante base. Istante base t=

o A base mobile --> è il rapporto fra ciascuna modalità xt e

la modalità osservata all’istante precedente xt-1. La

base, quindi, cambia a ogni rapporto. La serie dei numeri

indice a base mobile si costruisce a partire dal secondo

istante di rilevazione. Con t= 2,,,,,T. Ci da informazioni

sull’evoluzione temporale di X rispetto all’anno

precedente.

 Fatto 100 l’istante di riferimento posto al denominatore:

o NI = 100 --> nessuna evoluzione

o NI > 100 --> evoluzione in aumento

o NI < 100 --> evoluzione in diminuzione

 VARIAZIONI PERCENTUALI

 Variazioni percentuali rispetto all’anno base:

 Il risultato della rilevazione è un insieme di N coppie di tipo (x,y) che

prende il nome di: MATRICE DI DATI GREZZI.

 Il risultato della rilevazione congiunta viene organizzato in una tabella a

doppia entrata composta da righe e colonne.

 Useremo l’indice” i” con riferimento al fenomeno X --> “xi” sono le

modalità con cui si manifesta X

 Useremo l’indice “j” con riferimento al fenomeno Y --> “yj” sono le

modalità con cui si manifesta Y.

 Sulle righe --> le k modalità xi di X

 Sulle colonne --> le h modalità yj di Y

 FREQUENZE CONGIUNTE E MARGINALI

 Sulla tabella a doppia entrata si leggono informazioni sia di tipo

monovariato, che riguardano X e Y singolarmente, sia di tipo bivariato,

che riguardano X e Y congiuntamente

 All’interno della tabella troviamo la frequenza con cui si manifesta

ciascuna coppia di modalità (xi, yj). Queste frequenze riguardano

entrambi i fenomeni --> FREQUENZE CONGIUNTE che indicheremo

con “fij”.

 L’interno della tabella a doppia entrata costituisce la VARIABILE

STATISTICA DOPPIA.

 La somma di tutte le frequenze congiunte --> N

 Ai margini della tabella si trovano frequenze che riguardano i fenomeni

X e Y considerati singolarmente e separatamente --> FREQUENZE

MARGINALI

 Per indicarle, avremo bisogno di un solo indice, cioè quello del fenomeno

a cui si riferiscono, e di un punto

o fi. = frequenze marginali di X

o fj. = frequenze marginali di Y.

 La somma delle frequenze congiunte sulla i-esima riga dà le frequenze

marginali di X

 La somma delle frequenze congiunte sulla i-esima colonna dà le

frequenze marginali di Y.

 Le k coppie (xi,fi.) e le h coppie (yj, f.j) --> VARIABILI STATISTICHE

MARGINALI

Su di esse sono applicabili tutti gli strumenti della statistica descrittiva

monovariata

 FREQUENZE MARGINALI di X -->

 FREQUENZE MARGINALI DI Y -->

 DISTRIBUZIONI E FREQUENZE CONDIZIONATE

 Per descrivere il comportamento congiunto di una coppia di fenomeni,

dobbiamo analizzare il comportamento dell’uno condizionatamente

all’altro.

 Il condizionamento statistico è la tendenza sistematica di un certo

fenomeno ad assumere certi valori, al variare dell’altro fenomeno

 Fissando l’attenzione sulle singole righe o sulle singole colonne

separatamente si costruiscono le --> VARIABILI STATISTICHE

CONDIZIONATE:

o Y|xi (Y condizionato da xi) = si riduce l’attenzione

alla sottopopolazione di fi. e di essa si guarda il

comportamento di Y. In questo caso xi è la modalità

condizionante, mentre Y è il fenomeno condizionato

o X|yj (X condizionato da yj) = si riduce l’attenzione

alla sottopopolazione di f.j e di essa si guarda il

comportamento di X. In questo caso yj è la modalità

condizionante, mentre X è il fenomeno condizionato.

 Avremo tante variabili statistiche condizionate quante sono le possibili

modalità condizionanti

 Sulle v.s. condizionate --> FREQUENZE

CONDIZIONATE/PERCENTUALI DI RIGA O COLONNA= che sono

frequenze relative ottenute dal rapporto fra le frequenze congiunte e la

frequenza marginale della modalità con cui si condiziona.

 Informazione statistica: informano sul comportamento di un fenomeno

condizionatamente all’altro.

 Fenomeno condizionante --> variabile esplicativa, staticamente spiega

 Fenomeno condizionato --> variabile risposta, risposta che si ottiene al

variare della variabile esplicativa

 CAPITOLO 10: INDIPENDENZA STATISTICA

 Se fra X e Y non esiste alcuna relazione statistica --> X e Y sono

statisticamente indipendenti