Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica domande esame orale, Schemi e mappe concettuali di Statistica

troverete un riassunto della teroria

Tipologia: Schemi e mappe concettuali

2019/2020

Caricato il 08/11/2024

hprdlr
hprdlr 🇮🇹

6 documenti

1 / 42

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
UNITA’ 1
Il termine statistica deriva dal latino status che indica l’analisi quantitativa di un fenomeno. Da ciò
deriva la definizione espressa da Leti, che afferma che la statistica è una scienza che analizza in
maniera quantitativa un fenomeno. Ci vengono forniti dei dati che contengono una informazione
potenziale, che con un accurata analisi le diverse informazioni possono essere messe a confronto e
quindi generare una conoscenza; quest’ultima rappresenta la base necessaria ai fini di un indagine
statistica. Tutte le operazioni che vengono utilizzate sono:
-I conteggi> quante famiglie hanno più di 5 figli?
-Misurazioni> di quanto è la produttività di un azienda?
-Classificazione> in base alla qualità;
-Sintesi del fenomeno
Infatti la ricerca statistica parte da un problema che si analizza attraverso due approcci:
1. Approccio esplorativo: analisi dei dati;
2. Approccio confermativo: conferma di ipotesi poste già in essere;
Poi si effettua una raccolta dei dati che possono essere analizzati o uno per volta, o più caratteri per
volta (modello multidimensionale); Si analizzano questi dati e si cerca di interpretare i risultati per
saperli leggere; infine, si effettua una conclusione per vedere se è conforme al problema posto:
garage out e garage in: più o meno qualità si inserisce all’interno della ricerca statistica e minore o
maggiore sarà il risultato. La statistica cerca di analizzare un fenomeno formato da diverse unita
statistiche che nel complesso formano una popolazione. Il fenomeno può essere analizzato o
direttamente (evento nella collettività) o indirettamente (la qualità della vita); sostanzialmente, la
statistica si focalizza su un fenomeno collettivo:
- o che si ripete lo stesso nel tempo e nello spazio;
- o che si riferiscono ad una collettività di casi singoli.
Le unità statistiche invece sono delle unità elementari di un fenomeno oggetto di studio e possono
presentare una o più caratteristiche di interesse. La popolazione invece è un insieme di unita
statistiche che presentano almeno una caratteristica omogenea. Può essere suddivisa in una serie di
sotto popolazione (genere maschile e genere femminile> esseri viventi). Se della popolazione si
prende in considerazione un solo gruppo questo ‘prende il nome di campione.
I dati sono l’osservazione delle specifiche caratteristiche di determinate unita statistiche, questi
vanno analizzati e rielaborati o attraverso un analisi totale, dalla quale scaturisce la vera e propria
conoscenza del fenomeno, oppure attraverso un analisi parziale che ci consegna soltanto una stima
del fenomeno. Ciascun fenomeno è formato da diverse caratteristiche che prendono il nome di
carattere e si segnano con la X maiuscola, mentre le singole modalità che ogni carattere presenta si
segnano con la x minuscola.
I caratteri possono essere:
-quantitativi: espressi numericamente;
-Qualitativi: espressi con locuzioni o attributi.
I caratteri qualitativi si distinguono in:
- caratteri ordinabili: se possono essere ordinati secondo una determinata scala gerarchica;
- Caratteri sconnessi: non possono essere ordinati secondo una scala gerarchica.
I caratteri quantitativi si distinguono in:
- caratteri discreti: numeri interi;
-caratteri continui: numeri reali.
I tipi di operazioni possibili sono:
Per i caratteri qualitativi sconnessi si può dire solo se un carattere è diverso da un altro, se
qualitativi ordinabili se un carattere è minore, maggiore o uguale a un altro carattere, e se sono
quantitativi discreti o continui si utilizzano due tipi di variazioni:
-una variazione relativa che effettua un rapporto tra due caratteri;
-Una variazione assoluta che effettua la differenza tra i due caratteri.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a

Anteprima parziale del testo

Scarica statistica domande esame orale e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

UNITA’ 1

Il termine statistica deriva dal latino status che indica l’analisi quantitativa di un fenomeno. Da ciò

deriva la definizione espressa da Leti, che afferma che la statistica è una scienza che analizza in

maniera quantitativa un fenomeno. Ci vengono forniti dei dati che contengono una informazione

potenziale, che con un accurata analisi le diverse informazioni possono essere messe a confronto e

quindi generare una conoscenza; quest’ultima rappresenta la base necessaria ai fini di un indagine

statistica. Tutte le operazioni che vengono utilizzate sono:

- I conteggi> quante famiglie hanno più di 5 figli?

- Misurazioni> di quanto è la produttività di un azienda?

- Classificazione> in base alla qualità;

- Sintesi del fenomeno

Infatti la ricerca statistica parte da un problema che si analizza attraverso due approcci:

  1. Approccio esplorativo: analisi dei dati;
  2. Approccio confermativo: conferma di ipotesi poste già in essere;

Poi si effettua una raccolta dei dati che possono essere analizzati o uno per volta, o più caratteri per

volta (modello multidimensionale); Si analizzano questi dati e si cerca di interpretare i risultati per

saperli leggere; infine, si effettua una conclusione per vedere se è conforme al problema posto:

garage out e garage in: più o meno qualità si inserisce all’interno della ricerca statistica e minore o

maggiore sarà il risultato. La statistica cerca di analizzare un fenomeno formato da diverse unita

statistiche che nel complesso formano una popolazione. Il fenomeno può essere analizzato o

direttamente (evento nella collettività) o indirettamente (la qualità della vita); sostanzialmente, la

statistica si focalizza su un fenomeno collettivo:

  • o che si ripete lo stesso nel tempo e nello spazio;
  • o che si riferiscono ad una collettività di casi singoli.

Le unità statistiche invece sono delle unità elementari di un fenomeno oggetto di studio e possono

presentare una o più caratteristiche di interesse. La popolazione invece è un insieme di unita

statistiche che presentano almeno una caratteristica omogenea. Può essere suddivisa in una serie di

sotto popolazione (genere maschile e genere femminile> esseri viventi). Se della popolazione si

prende in considerazione un solo gruppo questo ‘prende il nome di campione.

I dati sono l’osservazione delle specifiche caratteristiche di determinate unita statistiche, questi

vanno analizzati e rielaborati o attraverso un analisi totale, dalla quale scaturisce la vera e propria

conoscenza del fenomeno, oppure attraverso un analisi parziale che ci consegna soltanto una stima

del fenomeno. Ciascun fenomeno è formato da diverse caratteristiche che prendono il nome di

carattere e si segnano con la X maiuscola, mentre le singole modalità che ogni carattere presenta si

segnano con la x minuscola.

I caratteri possono essere:

- quantitativi : espressi numericamente;

- Qualitativi : espressi con locuzioni o attributi.

I caratteri qualitativi si distinguono in:

  • caratteri ordinabili : se possono essere ordinati secondo una determinata scala gerarchica;

- Caratteri sconnessi : non possono essere ordinati secondo una scala gerarchica.

I caratteri quantitativi si distinguono in:

  • caratteri discreti : numeri interi;

- caratteri continui : numeri reali.

I tipi di operazioni possibili sono:

Per i caratteri qualitativi sconnessi si può dire solo se un carattere è diverso da un altro, se

qualitativi ordinabili se un carattere è minore, maggiore o uguale a un altro carattere, e se sono

quantitativi discreti o continui si utilizzano due tipi di variazioni:

- una variazione relativa che effettua un rapporto tra due caratteri;

- Una variazione assoluta che effettua la differenza tra i due caratteri.

Se, infine, alla variazione relativa si sottrae uno e lo esprimiamo in termini percentuali, questo

prende il nome di tasso di variazione che indica la velocità del cambiamento del fenomeno di

interesse.

UNITA’ 2

Quando si prende in considerazione un dato di questo si tratta o la sintesi dei dati che va appunto a

sintetizzare quanto detto o la formazione dei dati, quest’ultima è data dalla rilevazione per ciascuna

unita statistica delle modalità. Ciò da vita ad una tabella che prende il nome di data set, nella quale

sulle righe troviamo le diverse unità statistiche, mentre sulle colonne i diversi tipi di carattere siano

essi quantitativi o qualitativi. Le modalità invece vengono inserite nelle celle. Si può parlare quindi

di rappresentazione statistica che rappresenta i diversi caratteri quantitativi e qualitativi di un

fenomeno oggetto di studio. A ciò si ricollega la distribuzione statistica che è tutte le manifestazioni

di un fenomeno nel collettivo oggetto di studio. Quest’ultima può essere una distribuzione unitaria

semplice se si riferisce a un solo carattere, o una distribuzione unitaria multipla quando si riferisce a

più caratteri: uni-variata, bi-variata, multi-variata…

Il carattere si presenta con X (maiuscolo), la modalità con x (minuscola), la dimensione del

collettivo si segna con N mentre le singole unita statistiche sono segnate da u (u con N rappresenta

la ennesima unita statistica del collettivo). Per quanto riguarda le unita statistiche se fanno

riferimento a un tempo, prendono il nome di serie storiche altrimenti se fanno riferimento a un area

territoriale prendono il nome di serie territoriale.

Sostanzialmente, tutte le caratteristiche possono essere ordinate in ordine crescente ovvero x

rappresenta la prima modalità statistica inserita nella distribuzione statica mentre x(1) rappresenta

la modalità statistica inferiore a tutte le altre modalità registrate, quindi la più piccola modalità

osservata nel collettivo.

  • Per quanto riguarda i caratteri quantitativi discreti e continui si parla di variazioni assolute e

relative che vengono rappresentate o con una differenza o con un rapporto tra i due caratteri. In

questo caso, se si fa riferimento ad un N le variazioni di quest’ultimo saranno N-1 (es. 16 sono gli

anni durante i quali il prezzo del biglietto del cinema è variato, le sue variazione durante tutti

questi anni sono uguali a 15).

DISTRIBUZIONI DI FREQUENZA

Di solito si necessita di una distribuzione più compatta, per tanto si parla di distribuzione di

frequenza che è quante unita statistiche presentano una determinata modalità nel collettivo oppure

quante volte una modalità si presenta in un collettivo. La distribuzione di frequenza si distingue in

frequenza assoluta o frequenza relativa:

- frequenza assoluta : il conteggio di unita statistiche che presentano una determinata modalità e

si esprimono con “n”;

- Frequenza relativa : il conteggio delle unita statistiche che presentano una determinata modalità

rispetto ad un collettivo e si esprimono con “f”.

  • Se vogliamo le distribuzioni di frequenza percentuali moltiplichiamo le frequenze relative per
  • se vogliamo le frequenze relative facciamo n/N;
  • se vogliamo passare dalle percentuali alle relative dividiamo la percentuale per 100, se vogliamo

passare alle assolute facciamo che n=f per N.

Le frequenze relative sono sempre comprese tra 0 e 1, quelle percentuali tra 0 e 100.

DISTRIBUZIONI IN CLASSE

Si può parlare anche di distribuzioni in classe che vengono utilizzate per la rappresentazione di

caratteri quantitativi discreti e continui di un numero immensamente grande. Le distribuzioni in

classe fa si che le modalità siano organizzate in intervalli di valori che prendono il nome di classi

(K). Per determinare il numero di classi non si utilizza un solo metodo ma bisogna ricordare che

profilo riga andiamo a dividere ogni elemento sulla riga per il totale della riga stessa, diversamente

se vogliamo calcolare il profilo colonna andiamo a dividere ogni elemento sulle colonne per il totale

della colonna stessa.

UNITA’ 3

Solitamente si cerca di studiare la manifestazione del carattere oggetto di studio in ciascuna delle

unità che compongono il collettivo. Pertanto è utile conoscere l’ intensità totale del fenomeno del

collettivo studiato, cioè l’ammontare di carattere posseduto complessivamente da tutte le unità

statistiche: quanto più c’è un’ intensità maggiore, quanto più il carattere è grande.

Può essere calcolata in diversi modi, ovvero si utilizzano diversi operatori matematici tra cui: la

somma, il prodotto e la potenza. La scelta tra quali scegliere più opportunamente viene fatta

tenendo conto di cosa stiamo studiando:

  • Distribuzione unitaria: abbiamo singole unita statistiche e quindi l’intensità totale sarà calcolata

con la sommatoria delle singole unita statistiche. Nel caso in cui si sta studiando dei fenomeni in

cui l’intensità cresce proporzionalmente allora in questo caso si utilizza la Produttoria delle xi;

  • Distribuzioni di frequenza: quante volte ho osservato xi. L’intensità totale si calcola con la

sommatoria di xi per in ovvero delle modalità osservate per la corrispondente frequenza. Nel caso

in cui si sta studiando un fenomeno in cui l’intensità cresce proporzionalmente, allora utilizziamo

la produttoria di xi elevato a in, ovvero avremo la modalità elevata alla corrispettiva frequenza.

Tuttavia bisogna porre in essere quella che è la sintesi dei dati, sintetizzando in un unico dato

numerico una caratteristica di interesse. Ovvero si cerca di sostituire tutte le modalità del carattere

in esame con un’ unica modalità che le rappresenti: ottenuta l’intensità totale del fenomeno è

necessario procedere ad una redistribuzione dello stesso su tutte le unità statistiche. Quindi si

indicano degli opportuni indici sintetici del fenomeno considerato, dette misure o indici di

centralità. Queste misure di centralità esprimono sinteticamente il centro ideale della distribuzione.

Alcuni indici sono adatti a sintetizzare tutti i tipi di carattere, altri invece riescono a sintetizzare solo

i caratteri quantitativi. Pertanto la scelta di un indice sintetico deve tener conto:

  1. Tipologia del carattere (qualitativo o quantitativo);
  2. La sua rappresentazione statistica ( distribuzione unitaria, di frequenza o in classi)
  3. Le motivazioni che inducono a riassumente la distribuzione in un unico valore.

MEDIA

La media da un idea immediata della manifestazione del fenomeno nel collettivo, si distinguono:

  • Medie analitiche : fanno riferimento ai caratteri quantitativi e pertanto utilizzano delle operazioni

algebriche sulle modalità;

  • Medie di posizione : fanno riferimento anche a caratteri qualitativi e pertanto non richiedono

operazioni algebriche sulle modalità.

La media (M) di una variabile X secondo Cauchy, è sempre quel valore interno alla

distribuzione :

(es. voti a scuola compresi tra 6 e 8, la media non potrà mai essere del 9). Pertanto si parla di

internalità della media.

Chisini, invece afferma che, la media è quel valore interno che rispetto ad una funzione

sintetica lascia inalterato il valore.

MEDIA ARITMETICA

La media aritmetica parte dall’ intensità totale e può essere calcolata sommando tra di loro le

diverse xi dividendole poi per N, quindi sostanzialmente è uguale all’ intensità totale fratto il

numero del collettivo.

- Nel caso di frequenze assolute sarà uguale alla sommatoria delle xi per ni fratto N; ovvero la

sommatoria delle modalità per le corrispondenti frequenze assolute, tutto diviso N;

- Nel caso di frequenze relative invece sarà uguale alla sommatoria delle diverse xi per fi, ovvero

alle modalità per le corrispondenti frequenze relative, e non vado a dividere per N in quanto si

può già dire che esse stesse sono già divise per N perché nelle frequenze relative N=1;

- Nel caso di distribuzioni in classi invece si va a calcolare il valore centrale (estremo superiore

più estremo inferiore di ciascuna classe, diviso due), vado poi a moltiplicare ogni valore centrale

per la frequenza, sommo i prodotti e ottengo l’intensità totale. Divido poi tutto per N, ottenendo

cosi il prezzo medio per ogni unità statistica. In questo caso pero il calcolo della media risulta

soltanto essere un approssimazione della realtà.

Sostanzialmente la media aritmetica ha diverse proprietà:

1. La media è sempre un valore interno alla distribuzione, pertanto si parla di internaléta della

media;

2. La somma di tute le differenze tra i valori della distribuzione e il loro valore medio è sempre

pari a zero;

3. La media è l'unico valore che minimizza la somma degli scarti al quadrato; 4. La media gode della linearità, ovvero è invariante per trasformazioni affini; 5. La media di un carattere osservato su una popolazione divisa in sottogruppi è pari alla media

delle medie di tutti i sottogruppi (associativi della media).

LINEARITA’ DELLA MEDIA ARITMETICA

Dato un certo fenomeno, se viene effettuata una traslazione la media si muove lungo questa nuova

distribuzione: ovvero se si aggiunge a tutti in valori una costante A allora la media sarà pari alla

media della distribuzione originaria maggiorata della costante A. Allo stesso modo se

moltiplichiamo tutti i valori per una costante B allora la media della nuova distribuzione sarà

proporzionale a quella della distribuzione originaria di una quantità B:

es. 18-20-22> la media è 20; se aggiungo ad ogni valore 3:

2 0 + 3 = 3 La media sarà uguale a 20+3, quindi 23.

ASSOCIATIVITA’ DELLA MEDIA ARITMETICA

Se suddivido il collettivo in sotto collettivi diversi, questi possono essere trattati come delle sotto

popolazioni più piccole. A partire dalla media della sotto popolazione, calcolo la media totale delle

medie delle medie. Quindi prendo la media di ciascuna sotto popolazione, la moltiplico per quante

unità statistiche appartengono alla sotto popolazione, sommo la media degli altri sotto collettivi e la

divido per N, dopo di che la dimensione del collettivo la ottengo come somma delle dimensioni

delle due sotto popolazioni. Quindi sarà uguale alla sommatoria di ciascuna media del sotto

collettivo per Ni (le unita statistiche che appartengono a quel sotto collettivo) dividendo tutto per

N;

DISTRIBUZIONE BI-VARIATA

Nel caso di distribuzioni doppie di frequenze, per calcolare la media, si deve tener conto delle

variabili:

- se entrambe qualitative: la media non può essere calcolata;

- Se entrambe quantitative: la media può essere calcolata;

- Se una qualitative e una quantitativa: la media può essere calcolata solo per quella quantitativa.

  • Quindi la media generale della variabile X sarà uguale alla sommatoria di xi per la frequenza

marginale di riga, tutto fratto N;

  • La media generale della variabile Y sarà uguale alla sommatoria di yi per la frequenze marginale

di colonna, tutto fratto N.

Considera la frequenza più alata e la corrispondente modalità. Per determinare la moda si

possono utilizzare si ale frequenze assolute, le frequenze relative o le frequenze percentuali: la

moda è sempre la modalità prevalente.

DISTRIBUZIONI IN CLASSE

Nel caso delle distribuzioni in classe individuiamo la classe di modalità più frequenti. Si parla

pertanto di classe modale :

- Classe equi-ampie : si individua la classe che ha la frequenza assoluta, relativa o percentuale più

alta;

- Classe non equi-ampia: si deve tener conto sia della frequenza della classe ma anche

dell’ampiezza della classe ovvero della densità di frequenza (rapporto tra frequenze assoluta e

ampiezza classe) più alta.

- La moda può ritenersi un buon criterio di sintesi quando si presenta con una frequenza

nettamente maggiore di tutte le altre modalità. In tal caso è ragionevole assumerla come valore

tipico del fenomeno, cioè come quel valore più idoneo si rappresentarlo sinteticamente;

- La moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore si

parla di distribuzione bi-modale ;

- Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso

determinare la moda;

DISTRIBUZIONI BI-MODALI

In questo caso abbiamo più di un valore modale: i fenomeni sono complessi e bisogna tener conto di

più caratteristiche, in realtà c’è una seconda caratteristica che divide il collettivo in due sotto

collettivi e quindi bisogna tenerla in considerazione.

LA MEDIANA

La mediana (Me) il centro della distribuzione ordinata di valori nel collettivo; rispetto a coloro che

fanno parte del collettivo avremo che un 50% di unità statistiche presentano un valore uguale o

inferiore al valore mediano e un 50% di unità statistiche che ha un valore uguale o maggiore del

valore mediano. Nelle distribuzioni unitarie i dati non sono organizzati in senso crescente, pertanto

necessita di essere prima ordinati. Può essere determinata per tutti i tipi di carattere quantitativi o

qualitativi, tranne per quelli sconnessi. A seconda della numerosità e di come sono organizzati i

dati, cambia il modo di determinare l’indice: in generale per le distribuzioni unitarie si guarda alla

numerosità, cioè se le unità del collettivo sono pari o dispari, per le distribuzioni di frequenza si

guarda invece alle frequenze cumulate, meglio se relative.

COME SI CALCOLA LA MEDIANA?

Bisogna innanzitutto ordinare la distribuzione in senso crescente;

- Se N è dispari, si considera la posizione data da (n+1)/2;

- Se N è pari si considera prima (N/2) e poi si considera la posizione [(N/2)+1];entrambi sono

candidati ad essere la mediana, se si tratta di carattere quantitativo allora possiamo

considerare la mediana come la semi-somma dei valori delle unità centrali:

Me= {X(N/2)+X[(N/2)+1]}/

Se si tratta di un carattere qualitativo non si può effettuare la semi-somma in quanto può

essere fatta solo per un carattere quantitativo, ma se è qualitativo ordinabile devo

considerare entrambe le modalità.

Da ciò si evince come la mediano sia un indice robusto, perché anche con delle variazioni, il

valore mediano non cambia e meglio rappresenta ciò che si studia, ovvero il centro della

distribuzione.

DISTRIBUZIONI DI FREQUENZA

È necessario osservare le frequenze cumulate relative , qui le modalità sono già ordinate in senso

crescente e pertanto non necessitano di essere ancora ordinate. Per poter calcolarle, in maniera

semplice, si può guardare alle frequenze cumulate ma in termini relativi e fare quindi N/N. Ora

avremo il 50% di unita statistiche minori della mediana e un 50% di unita statistiche maggiori della

mediana. Consideriamo allora il 50% non in termini percentuali e avremo lo 0,5, a questo punto

guardo la cumulata che è uguale o contiene 0,5, la mediana corrisponde a quel valore.

Esempio:

32=numero pari; Me= {x(32/2)+X[(32/2)+1]}/2= [X(16)+X(17)]/

Andiamo a considerare le frequenze relative cumulate che posseggono lo 0,5: la prima frequenza

relativa cumulata che possiede 0,5 è quella di 0,78 la quale corrisponde a 20. Pertanto la mediana sarà

uguale a 20.

DISTRIBUZIONI IN CLASSI

Se il carattere è suddiviso in classi, si può ottenere un valor ben approssimato assumendo

implicitamente l’ipotesi che nella classe mediana le unita siano distribuite uniformemente:

Calcolo le frequenze relative e poi le vado a cumulare per ottenere le frequenze relative cumulate,

poi osservo la frequenza relativa cumulata che contiene 0,5 e individuo così la classe mediana, da

ciò si può ottenere la mediana per approssimazione lineare ipotizzando che le unita statistiche

crescano uniformemente:

Me= xi-1+[(0,5-Fi-1)/(Fi-Fi-1)]*omega (ampiezza classi)

PERCENTILI

Possiamo immaginare di suddividere il collettivo in 100 parti, ognuna delle quali contenente lo

stesso numero di unità. I valori che suddividono la distribuzione in 100 parti di uguale numerosità

sono detti percentili o quartili.

Si definisce p-mo percentile, corrispondente alla frazione p/100 del collettivo, la modalità xi del

carattere che suddivide il collettivo in due gruppi tali che:

  1. Il primo gruppo ha numerosità N(p/100) e le sue unita hanno una modalità al più (inferiore o

uguale) pari a xi.

  1. Il secondo gruppo ha numerosità N(1-p/100) e le sue unita hanno una modalità almeno

(superiore o uguale) pari a xi.

Quindi Pi= [(p/100)*Numerosità collettivo]

Ci interessano anche i quartili che sono p=25 (primo quartale) e p=75(terzo quartile), il secondo

quartine è p=50 quindi la mediana. Per determinare i percentili nelle distribuzioni unitarie e di

frequenza si utilizza lo stesso procedimento utilizzato per la mediana. Ciò vale anche per le

distribuzioni in classi:

Q 1 =xi-1+[(0,25-Fi-1)/(Fi-Fi-1)*omega (ampiezza classi)

Q 3 =xi-1+[(0,75-Fi-1)/(Fi-Fi-1)*omega (ampiezza classi)

X n N F

5 3 3 0,

10 12 15 0,

20 10 25 0,

50 5 30 0,

100 2 32 1

UNITA’ 4

Se andiamo a considerare una distribuzione, di questo si può calcolare la media o la mediana. Molto

spesso accade però che è difficile effettuare un confronto utilizzando i soli indici di posizione e

pertanto si vanno a considerare altre caratteristiche che tengono conto dei fenomeni in maniera

diversa: la variabilità.

VARIABILITA’

Si considerano dei caratteri quantitativi, in quanto per caratteri qualitativi è più opportuno parlare

di mutabilità. La variabilità rappresenta sempre l’attitudine di un fenomeno a manifestarsi in

maniera diversa tra le diverse unità statistiche del collettivo, raccontando meglio ciò che abbiamo

osservato: più il fenomeno è variabile, e più c’è un rumore di fondo che da fastidio, pertanto la

variabilità deve essere tenuta sotto controllo:

- Valore intrinseco: la conoscenza della variabilità è alla base della statistica: se tutte le

manifestazioni di un fenomeno fossero uguali fra loro la rilevazione di una singola modalità

consentirebbe la conoscenza della totalità del fenomeno, quindi non avrebbe più senso uno

studio statistico;

- Accuratezza della sintesi dei dati : l’impiego delle medie (sia di posizione che analitiche) non è

sufficiente a sintetizzare le informazioni rilevate su una popolazione oggetto di studio,

specialmente quando occorre confrontare tra loro popolazioni.

Inoltre la variabilità è anche un modo in cui i dati si organizzano rispetto alla centralità del

fenomeno. Pertanto possiamo parlare di variabilità come di dispersione, quindi vuole dire che le

unità statistiche si trovano più vicine al centro di dispersione e ciò vuol dire minore variabilità della

distribuzione, viceversa le unità statistiche possono essere lontane dal centro, e quindi avere

maggiore dispersione o variabilità. Non si può dire quanto è variabile un fenomeno, mas solo se è

variabile o meno. A secondo degli aspetti della variabilità che si vuole mettere in evidenza, è

necessario calcolare indici di variabilità diversi:

  1. Indici che tengono conto delle specifiche distribuzioni;
  2. Scostamenti delle unità statistiche rispetto al centro della distribuzione;
  3. Scostamenti delle unità statistiche rispetto ad altre unità statistiche.

Un’ulteriore distinzione viene effettuata fra:

1. Indici assoluti: sono espressi nella stessa unità di misura con la quale si rilevano le modalità del

carattere;

  1. Indici relativi : non sono espressi in nessuna unita di misura, ovvero si effettuano dei confronti;

Le misure di variabilità presentano diverse caratteristiche, definite come principi generali delle

misure di variabilità:

  • Deve essere pari a 0 se tutte le unità statistiche sono simili tra loro;
  • Se c’è almeno una differenza diciamo che deve essere maggiore di 0;
  • La misura della variabilità deve essere invaiante rispetto alle traslazioni;
  • Se si confrontano due caratteri o collettivi, allora se c’è maggiore dispersione, la misura di

variabilità è maggiore rispetto all’altro.

A prima vista una distribuzione con una elevata variabilità potrebbe sembrare più complessa da

analizzare rispetto ad una distribuzione con una bassa o nulla variabilità; in statistica in realtà la

variabilità può essere vista da diversi punti di vista:

- Variabilità come ricchezza di informazione: Possiamo considerare il fatto che una elevata

variabilità, ossia una maggior dispersione dei valori della distribuzione intorno al suo centro,

implica una maggior ricchezza di informazione: da questo punto di vista più la distribuzione è

variabile più il fenomeno tende a manifestarsi in modo diverso nel collettivo e quindi abbiamo

maggiori elementi per poterlo studiare;

- Variabilità come elemento di discriminazione: se il nostro obiettivo è quello di classificare le

unità statistiche in gruppi omogenei rispetto ad una o più caratteristiche allora una bassa

variabilità in ciascun gruppo, rispetto ad una elevata variabilità tra i gruppi, consente di separare

le unità statistiche e quindi ottenere una migliore informazione.

media aritmetica, posso calcolare uno scostamento semplice mediano ma devo calcolare la

centralità con la mediana, e viceversa.

DISTRIBUZIONI DI FREQUENZA

Nelle distribuzioni di frequenza si deve pesare ogni scarto in valore assoluto per la corrispondente

frequenza. Posso calcolare uno scostamento semplice medio tenendo conto che al numeratore

abbiamo la somma degli scarti in valore assoluto moltiplicati per le corrispondenti frequenze

assolute, stessa cosa per la mediana. Nel caso di frequenze relative moltiplico ogni scarto in valore

assoluto per la corrispondente fi e non devo dividerE nulla perché ho già diviso ogni quantità ni per

N ottenendo le quantità relative.

DISTRIBUZIONI IN CLASSI

Stesso ragionamento delle modalità, sostituiamo i valori centrali delle classi o anche qui posso

ragionare in termini di frequenze assolute o in termini di frequenze relative.

SCOSTAMENTI QUADRATICI

Piuttosto che prendere i valori assoluti degli scarti, possiamo prendere degli scarti al quadrato o

scostamenti quadratici. L’indice più utilizzato è la varianza indicata con la lettera σ^2. Per ricordare

che sono degli scostamenti quadratici. Questi sono solo della media, in quando la mediana non

presenta scostamenti quadratici. Quando tutti i valori nella distribuzioni sono uguali allora la

varianza è nulla: infatti se tutte le unita del collettivo presentano lo stesso valore ciò indica che non

c’è variabilità. La varianza non ha un massimo: più si allontana dallo 0 più il fenomeno è variabile.

La varianza quindi indica la differenza tra xi e il valore medio calcolato come media aritmetica,

eleviamo al quadrato e dividiamo per N.

Stessa cosa vale nelle distribuzioni di frequenza e nelle distribuzioni in classi (bisogna sostituire alle

modalità il valore centrale di ciascuna classe):

PROPRIETA’ DELLA VARIANZA

  • La varianza è sempre maggiore di zero, sarà uguale a 0 quando non c’è la varianza;
  • La varianza assume valori da 0 a più infinito;
  • Dipende da tutte le modalità del carattere;
  • È sensibile ai valori anomali (poiché contiene in essa la media aritmetica), quindi è un indice non

robusto;

  • Le unità di misura verranno espresse al quadrato:

Es. altezza in cm. —> varianza in cm^2_._

Esiste un modo più semplice per calcolare la varianza, risolvendo il quadrato posso elevare i dati al

quadrato e faccio la media sottraendo il quadrato della media:

  • Nelle distribuzioni di frequenze la media la calcolo normalmente, per l’altro pezzo devo fare la

media dei dati delle modalità al quadrato ma ciascuna moltiplicata per la corrispondente

frequenza, altrimenti il risultato non è giusto;

  • Nelle distribuzioni in class i si rifa la stessa cosa delle distribuzioni di frequenza con l’unica

accortezza di sostituire alle modalità xi ci ovvero con il valore centrale.

DISTRIBUZIONI DOPPIE MISTE E QUANTITATIVE

Inizialmente si deve considerare se ha senso calcolare la variabilità per entrambe le variabili X e Y.

Dopo si fa la varianza generale di Y o di X, la formula è uguale:

- considero le modalità del carattere;

- Considero le frequenze;

- Per valutare la variabilita dell’intero collettivo della variabile X, le frequenze delle diverse xi le

vado a leggere sulle distribuzioni marginali di rifa, quindi ogni xi viene confrontata con la media

generale, calcolo lo scarto e lo elevo al quadrato e dopo questo si moltiplica per la corrispondente

frequenza marginale di riga ni. , sommo tutti gli scarti pesati e poi divido per il gran totale. Lo

stesso vale per la variabile Y.,

VARIANZE CONDIZIONATE

LA MEDIA DI Y|xi sarà la media della variabile Y tra le unita statistiche che hanno presentato xi. La

variabilità del fenomeno non per tutte le unità statistica ma solo di quelle che hanno una particolare

modalità dell’altro carattere che stiamo considerando.

Per calcolare una varianza condizionata devo utilizzare le corrispondenti medie condizionate:

es. studiare la variabilità delle età solo per gli intervistati che hanno indicato la birra bionda come birra

preferita:

CENTRALITA’ E VARIABILITA’

  • Centralità: semisomma del valore minimo e del massimo: pertanto parliamo di mid range;
  • media interquartile: semisomma del valore del primo quartile e del terzo quartile;
  • Campo di variazione: differenza tra il valore massimo e il valore minimo;
  • Differenza tra 3° e 1° quartile;

Facciamo una sintesi utilizzando i cinque valori rappresentativi:

  • La distribuzione si dice simmetrica se:
    • la distanza tra primo quartile e mediana e terzo quartile è uguale;
  • la distanza tra xmin e primo quartile e tra terzo quartile e xmax è uguale;
  • la mediana, la media interquartile e il midrange coincidono.

In questo caso anche la moda e la media aritmetica coincidono con la mediana

  • La distribuzione si dice asimmetrica se:

- la distanza tra primo quartile e mediana e tra mediana e terzo quartile è diversa;

- La distanza tra x

min e primo quartile e tra terzo quartile e xmax è diversa;

- La mediana, la media interquartile e il mid range non coincidono.

In generale si distingue tra asimmetria positiva e negativa:

  1. La distribuzione si dice asimmetrica negativa (obliqua a sinistra) se è più alta a destra e più dolce

a sinistra la distanza tra xmin e primo quartile è maggiore di quella tra terzo quartile e xmax

  • la mediana è maggiore della media interquartile, la media interquartile è maggiore del midrange;

quindi di solito avremo che la moda>mediana>media

  1. La distribuzione si dice asimmetrica positiva (o “obliqua a destra”) se:
  • la distanza tra x min

e primo quartile è minore di quella tra terzo quartile e x max

  • la mediana è minore della media interquartile, la media interquartile è minore del midrange

Possiamo ricorrere ai soli intervalli di variabilità per descrivere graficamente la distribuzione: la

rappresentazione viene detta BOX PLOT (diagramma a scatola a baffi), ed è caratterizzato da tre

elementi:

  1. Rettangolo la cui dimensione indica la variabilità dei valori prossimi al centro della

distribuzione;

  1. Una linea o punto che indica la posizione del centro della distribuzione;
  2. Due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori

estremi della distribuzione.

Generalmente come valore centrale si considera la mediana, come altezza/larghezza la distanza

interqutile e come estremi i segmenti il valore minimo e massimo della distribuzione.

Attraverso il box plot è possibile evidenziare la presenza di eventuali valori anomali. Abbiamo già

detto che un valore anomalo è un valore molto più piccolo o molto più grande rispetto ai valori

della distribuzione: per poter evidenziare tali modalità particolari è necessario calcolare

i cosiddetti valori minimo e massimo “teorici” e confrontarli con quelli effettivamente osservati

E’ possibile considerare come minimo e massimo della distribuzione i valori così ottenuti:

Xmin => valore più grande tra xmin e [Q 1

-1.5(Q

-Q

)]

xmax => valore più piccolo tra xmax e [Q 3

+1.5(Q

-Q

)]

Gli eventuali valori esterni a tali valori sono considerati anomali:

consente di valutare il livello di concentrazione di un carattere trasferibile in un collettivo. Quindi

possiamo dire che:

- da 0 a 0.25 la concentrazione è bassa;

- da 0.25 a 0.5 la concentrazione è medio-bassa;

(es. R=0.36 -> 36% della max concentrazione osservabile, quindi si ha una concentrazione

medio-bassa);

- per R=0.5 si ha una media concentrazione;

- da 0.5 a 0.75 la concentrazione è medio-alta (es. R=0,69 -> 69% della max concentrazione

osservabile, quindi si ha una concentrazione medio-alta)

- da 0.75 a 1 la concentrazione è alta:

(es. R=0.83 -> 83% della max concentrazione osservabile, quindi si ha una alta

concentrazione).

CURVA DI LORENZ

È possibile realizzare una rappresentazione grafica della concentrazione detta Curva di Lorenz,

come si costruisce?

- asse orizzontale: pi;

- Asse verticale: qi.

Dopo aver rappresentato il quadrato traccio la linea della equi distribuzione (bisettrice del piano

cartesiano), l’area compresa tra la linea della equi distribuzione e la spezzata di concentrazione è

chiamata area di concentrazione che è la rappresentazione grafica di ciò che si è calcolato attraverso

il rapporto di concentrazione. Più è piccola, più è basso il livello di concentrazione, più è grande,

più c’è maggiore concentrazione. Se considero il triangolo equilatero di lato 1 come area, significa

che ho osservato la massima concentrazione perché per ogni pi avrà una corrispondente qi pari a 0.

L’unica ordinata diversa da zero sarà quella corrispondente alle n di unita statistiche.

CONCENTRAZIONE NELLA DISTRIBUZIONE DI FREQUENZA

Nella distribuzione di frequenza i dati sono già ordinati in ordine crescente e per calcolare la

concentrazione faremo che:

Quindi è data dalla sommatoria dei prodotti tra modalità e corrispondenti frequenze e la somma di

frequenze per modalità, in rapporto al totale: è la frazione relativa cumulata del carattere possedute

dalle prime h unità statistiche, l’indice R viene sempre calcolato allo stesso modo.

DISTRIBUZIONI IN CLASSI

Dobbiamo distinguere due casi diversi:

A. se conosciamo l’ammontare di carattere posseduto e il numero di unità si assume che ci sia

equidistribuzione (ogni unità della classe possiede lo stesso ammontare di carattere);

B. se non conosciamo l’ammontare di carattere posseduto dalle unità della classe allora possiamo

stimarlo moltiplicando il valore centrale per il numero di unità statistiche della classe.

Esiste un metodo alternativo di calcolare la concentrazione chiamato Metodo dei Trapezi:

Immaginiamo di avere delle distribuzioni e calcolare le pi e le qi, costruiamo il grafico e diamo una

prima valutazione. Il triangolo (O,A,B) rappresenta l’area di massima concentrazione, la parte in

grigio è l’area che può essere misurata sottraendo al triangolo l’area di queste figure che si trovano

al di sotto del grafico (sono dei trapezi capovolti), calcolando l’area di queste figure e sapendo l’area

di massima concentrazione ricaviamo l’area di concentrazione:

Calcolo l’area del triangolo equilatero (b*h/2) dopo di che sottraiamo l’area delle figure al di sotto

del grafico. In basso a sinistra abbiamo un trapezio generale.

Si possono fare dei confronti tra collettivi diversi anche in termini grafici: nel grafico A (slide 22) ho

una prima rappresentazione di una spezzata con la linea continua e una seconda rappresentazione

con la tratteggiata. È chiaro che l’area è minore all’interno tra la spezzata e la continua e quindi c’è

una concentrazione minore rispetto alla seconda. Questa è una definizione rischiosa e quindi

l’indice R va sempre calcolato in quanto non si riesce a dire dal grafico o dal suo indice delle

valutazioni corrette.