Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


TEORIA STATISTICA PROF. TORELLI MOI, Appunti di Statistica

Questo file contiene gli appunti per la parte teorica dell'esame di "Introduzione alla statistica per le scienze economiche e aziendali" del professor Torelli. Il corso fa parte del programma di laurea in Marketing e organizzazione di impresa presso l'Università di Modena e Reggio Emilia.

Tipologia: Appunti

2022/2023

In vendita dal 27/06/2024

JohnnyDope.GZ
JohnnyDope.GZ 🇮🇹

4.5

(11)

22 documenti

1 / 56

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA PARTE TEORICA
PARTE 1 STATIST ICA DES CRI TTI VA
IL SIGNIFICATO DI STATISTICA
Si tratta di un insieme di metodologie che hanno come scopo la conoscenza quantitativa dei fenomeni collettivi. Lo
studio dei fenomeni collettivi può essere svolto sull’intera collettività, oppure solo una sua parte. Se si utilizzano
informazioni su una parte per trarre conclusioni o deduzioni sull’intera collettività, il campo della statistica è
chiamato statistica inferenziale o inferenza statistica. Al contrario, la statistica descrittiva ha come oggetto la
semplice descrizione quantitativa delle caratteristiche di una collettività, sia essa intera o parziale.
L’IMPORTANZA DI IMPOSTARE CORRETTAMENTE UN’INDAGINE STATISTICA
Per ottenere risultati affidabili occorre seguire procedure rigorose e controllare (limitare) i fattori di disturbo
dell’indagine. Occorre soprattutto partire da un’ottica corretta e non distorta (Es. se si effettua uno studio su due
gruppi di soggetti, per ottenere risultati comparabili è necessario che le caratteristiche dei due gruppi siano
corrispondenti e comparabili).
UN CASO SIGNIFICATIVO
-Per verificare l’effetto di un farmaco, non dovrebbero essere i pazienti a scegliere il gruppo in cui ci sarà il
trattamento di quel farmaco o Quello in cui non ci sarà (di trattamento o di controllo)
-Si avrebbe il rischio di una sproporzione di pazienti più attivi, meno rassegnati, più attenti, più consapevoli nel
gruppo di trattamento
-Occorre un esperimento controllato, dove è la casualità statistica a stabilire chi farà parte del gruppo dei due
gruppi
-Conviene utilizzare anche dei placebo, e sia i pazienti, sia i medici dovrebbero essere all’oscuro del gruppo di
appartenenza
METODI DI RICERCA E DISTORSIONI
Per conoscere la propensione alla lettura da parte di un campione di giovani rappresentativo di tutta quella fascia
di età, non si dovrebbero scegliere gli intervistati all’interno di una biblioteca. Se un campione deve essere
rappresentativo di una popolazione, non ci si dovrebbe affidare ad un metodo di indagine che si caratterizza per un
tasso di risposta dell’1%.
ALCUNE DEFINIZIONI
-POPOLAZIONE STATISTICA: la popolazione statistica è l’oggetto di un’indagine, l’insieme degli elementi che ci
interessano ai fini dell’indagine (es. tutti i visitatori di una fiera).
-UNITÀ STATISTICHE: sono i singoli elementi che compongono la popolazione statistica (i singoli visitatori)
-FENOMENI STATISTICI: sono le caratteristiche rilevate per ogni unità statistica (es. tipologia di visitatori); si
distinguono in fenomeni quantitativi (espressi con parole o concetti) e fenomeni quantitativi (in numeri)
-MODALITÀ: Sono i diversi valori che può presentare un fenomeno (es riguardo alla tipologia di visitatore: italiano
o straniero; appartenente ad un settore industriale o terziario, ecc.)
I fenomeni qualitativi si suddividono in ordinali e nominali:
-fenomeni ordinali: fra le modalità si può stabilire un ordine logico (crescente o decrescente): per esempio,
livello di accordo con la depenalizzazione del suicidio
-Fenomeni nominalI: fra le modalità non si possono instaurare relazioni di graduatoria di superiorità o inferiorità
si possono instaurare solo relazioni di uguale o diverso (es. tipologia di negozio preferito—> non c’è un ordine
logico tra supermercato, ipermercato, mercato del contadino, ecc —> non posso quindi instaurare relazioni di
graduatoria di superiorità o inferiorità, ma solo di relazioni di uguale o diverso)
Spesso, per praticità di elaborazione, si attribuiscono codifiche numeriche alle diverse modalità dei fenomeni
qualitativi, che ovviamente rimangono qualitativi: si tratta infatti di dati che non provengono da operazioni di
misurazione o di conteggio, ma da una codifica.
I fenomeni quantitativi presentano modalità espresse con numeri, che derivano da un’operazione di misura o di
conteggio.
-Fenomeni discreti: le modalità sono costituite da un numero finito di valori, che possono variare tra loro solo per
un ammontare fisso (es. studenti di un comune); le modalità possono essere poste in corrispondenza con un
sottoinsieme dei numeri interi
-Fenomeni continui: la scala delle possibili modalità è continua: il numero delle modalità è teoricamente infinito
(le modalità possono differire tra loro per entità variabili). Le modalità con cui si possono esprimere questi
fenomeni continui sono corrispondenti ad un sottoinsieme dei numeri reali e non più di numeri interi (es.
distanza tra luogo di lavoro e residenza dell’acquirente).
LE MISURE DI POSIZIONE, DI VARIABILITÀ E DI CONCENTRAZIONE
MISURE DI POSIZIONE
IL CALCOLO DI UNA MEDIA
La media ha lo scopo di rappresentare con un solo indicatore un insieme di dati, evidenziando quindi l’ordine di
grandezza. Le medie possono essere distinte in:
-medie ottenute in base ad un vincolo analitico
-Medie che fanno riferimento alla posizione dei valori
Le medie analitiche si basano su fenomeni quantitativi e sono: media aritmetica, geometrica, quadratica, ecc..; le
medie di posizione sono: mediana (su fenomeni quantitativi e qualitativi ordinali) e la moda (su tutti i fenomeni)
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38

Anteprima parziale del testo

Scarica TEORIA STATISTICA PROF. TORELLI MOI e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA PARTE TEORICA

PARTE 1 STATISTICA DESCRITTIVA

IL SIGNIFICATO DI STATISTICA

Si tratta di un insieme di metodologie che hanno come scopo la conoscenza quantitativa dei fenomeni collettivi. Lo

studio dei fenomeni collettivi può essere svolto sull’intera collettività, oppure solo una sua parte. Se si utilizzano

informazioni su una parte per trarre conclusioni o deduzioni sull’intera collettività, il campo della statistica è

chiamato statistica inferenziale o inferenza statistica. Al contrario, la statistica descrittiva ha come oggetto la

semplice descrizione quantitativa delle caratteristiche di una collettività, sia essa intera o parziale.

L’IMPORTANZA DI IMPOSTARE CORRETTAMENTE UN’INDAGINE STATISTICA

Per ottenere risultati affidabili occorre seguire procedure rigorose e controllare (limitare) i fattori di disturbo

dell’indagine. Occorre soprattutto partire da un’ottica corretta e non distorta ( Es. se si effettua uno studio su due

gruppi di soggetti, per ottenere risultati comparabili è necessario che le caratteristiche dei due gruppi siano

corrispondenti e comparabili).

UN CASO SIGNIFICATIVO

- Per verificare l’effetto di un farmaco, non dovrebbero essere i pazienti a scegliere il gruppo in cui ci sarà il

trattamento di quel farmaco o Quello in cui non ci sarà (di trattamento o di controllo)

- Si avrebbe il rischio di una sproporzione di pazienti più attivi, meno rassegnati, più attenti, più consapevoli nel

gruppo di trattamento

- Occorre un esperimento controllato, dove è la casualità statistica a stabilire chi farà parte del gruppo dei due

gruppi

- Conviene utilizzare anche dei placebo, e sia i pazienti, sia i medici dovrebbero essere all’oscuro del gruppo di

appartenenza

METODI DI RICERCA E DISTORSIONI

Per conoscere la propensione alla lettura da parte di un campione di giovani rappresentativo di tutta quella fascia

di età, non si dovrebbero scegliere gli intervistati all’interno di una biblioteca. Se un campione deve essere

rappresentativo di una popolazione, non ci si dovrebbe affidare ad un metodo di indagine che si caratterizza per un

tasso di risposta dell’1%.

ALCUNE DEFINIZIONI

- POPOLAZIONE STATISTICA: la popolazione statistica è l’oggetto di un’indagine, l’insieme degli elementi che ci

interessano ai fini dell’indagine (es. tutti i visitatori di una fiera).

- UNITÀ STATISTICHE: sono i singoli elementi che compongono la popolazione statistica (i singoli visitatori)

- FENOMENI STATISTICI: sono le caratteristiche rilevate per ogni unità statistica (es. tipologia di visitatori); si

distinguono in fenomeni quantitativi (espressi con parole o concetti) e fenomeni quantitativi (in numeri)

- MODALITÀ: Sono i diversi valori che può presentare un fenomeno (es riguardo alla tipologia di visitatore: italiano

o straniero; appartenente ad un settore industriale o terziario, ecc.)

I fenomeni qualitativi si suddividono in ordinali e nominali:

- fenomeni ordinali : fra le modalità si può stabilire un ordine logico (crescente o decrescente): per esempio,

livello di accordo con la depenalizzazione del suicidio

- Fenomeni nominalI: fra le modalità non si possono instaurare relazioni di graduatoria di superiorità o inferiorità

si possono instaurare solo relazioni di uguale o diverso (es. tipologia di negozio preferito—> non c’è un ordine

logico tra supermercato, ipermercato, mercato del contadino, ecc —> non posso quindi instaurare relazioni di

graduatoria di superiorità o inferiorità, ma solo di relazioni di uguale o diverso)

Spesso, per praticità di elaborazione, si attribuiscono codifiche numeriche alle diverse modalità dei fenomeni

qualitativi, che ovviamente rimangono qualitativi: si tratta infatti di dati che non provengono da operazioni di

misurazione o di conteggio, ma da una codifica.

I fenomeni quantitativi presentano modalità espresse con numeri, che derivano da un’operazione di misura o di

conteggio.

- Fenomeni discreti: le modalità sono costituite da un numero finito di valori, che possono variare tra loro solo per

un ammontare fisso (es. studenti di un comune); le modalità possono essere poste in corrispondenza con un

sottoinsieme dei numeri interi

- Fenomeni continui : la scala delle possibili modalità è continua: il numero delle modalità è teoricamente infinito

(le modalità possono differire tra loro per entità variabili). Le modalità con cui si possono esprimere questi

fenomeni continui sono corrispondenti ad un sottoinsieme dei numeri reali e non più di numeri interi (es.

distanza tra luogo di lavoro e residenza dell’acquirente).

LE MISURE DI POSIZIONE, DI VARIABILITÀ E DI CONCENTRAZIONE

MISURE DI POSIZIONE

IL CALCOLO DI UNA MEDIA

La media ha lo scopo di rappresentare con un solo indicatore un insieme di dati, evidenziando quindi l’ordine di

grandezza. Le medie possono essere distinte in:

- medie ottenute in base ad un vincolo analitico

- Medie che fanno riferimento alla posizione dei valori

Le medie analitiche si basano su fenomeni quantitativi e sono: media aritmetica, geometrica, quadratica, ecc..; le

medie di posizione sono: mediana (su fenomeni quantitativi e qualitativi ordinali) e la moda (su tutti i fenomeni)

LE MEDIE ANALITICHE

Il calcolo di una media analitica consiste nel determinare un’opportuna operazione che viene applicata all’insieme

dei valori. È importante individuare l’operazione più opportuna per la specifica situazione

LE PRINCIPALI MEDIE ANALITICHE

- Media aritmetica (l’operazione è la somma dei valori):

- media aritmetica semplice

- media aritmetica ponderata

- Media geometrica (l’operazione è il prodotto dei valori)

- Media quadratica (l’operazione è il quadrato dei valori

LA MEDIA ARITMETICA

- La media campionaria si indica con X

- La media della popolazione si indica con μ

- In tanti casi, per indicare in modo generico la media aritmetica, si utilizza M

LA MEDIA ARITMETICA SEMPLICE

Si ottiene facendo la somma dei valori e dividendo il risultato per il numero dei valori

LA MEDIA ARITMETICA PONDERATA: QUANDO VIENE UTILIZZATA

- Quando i dati sono presentati in una distribuzione di frequenze, dove a ogni modalità corrisponde una certa

numerosità di unità statistiche (pesi)

- In generale, quando si ritiene utile (o necessario) ponderare i valori con un opportuno sistema di pesi, in quanto è

ragionevole dare ad ogni valore un proprio livello di importanza

Si ottiene facendo la somma dei prodotti con il relativo peso (p) divisa per la somma dei pesi

x1p1+x2p2+xi*pi…/ p1+p2+p i + pn…

ESEMPIO DI MEDIA ARITMETICA PONDERATA

numero di acquirenti di un servizio per durata del processo decisionale in minuti

M= (171)+(277)+(398)+(488)+(595)+ (649)+(7*22) / 71 + 77 + 98 + 88 + 95 + 49 + 22

M= 1794/500= 3,588 MINUTI —> SIGNIFICA CHE MEDIAMENTE CHE I 500 SOGGETTI CHE FANNO PARTE DEL CAMPIONE

HANNO EVIDENZIATO UNA DURATA DEL PROCESSO DECISIONALE DI 3,588 MINUTI

+ 4,5 +9,9 +4,2 +7,8= 111668,8/55,1= 202,70 KM/H DELLA VELOCITÀ DEL

VENTO —> L’INSIEME DEL PAESE CONSIDERATO HA FATTO RISCONTRARE

UNA VELOCITÀ MEDIA DEL VENTO DI 202,70 KM/H

PROPRIETÀ DELLA MEDIA ARITMETICA

L a media di un gruppo di valori è sempre compresa tra il valore minimo e quello massimo.

La somma degli scarti della media è sempre pari a zero

MINUTI (Xi) ACQUIRENTI (N)

Quando la mediana è espressa con due valori mediani è possibile o calcolarne una media, oppure tenere tali e quali

i due valori.

  1. ordino i valori: 35, 40,46,54,62.

2)Essendo 5 valori si fa: 5+1/2=3. Quindi la mediana per il numero di

promozioni sarà 46.

Per quanto riguarda l’entità delle promozioni si riordinano i valori e si

calcolano poi la mediana, in questo caso la mediana sarà “MEDIA”.

In questo caso le unità statistiche sono gli acquirenti, mentre i

valori sono i minuti ed è ciò di cui voglio trovare la mediana. In

questo caso i valori sono già ordinati. Le unità statistiche sono

Le unità sono pari, quindi si procede così: 500/2= 250 e

(500/2)+1= 251. Occorre trovare quindi il 250° e il 251°

acquirente —> i primi acquirenti sono 71, e non bastano, quindi

aggiungo i 77 del secondo gruppo ma arrivo a 148 e non basta

comunque, aggiungo i 98 del terzo gruppo e arrivo a 246 ma non

basta ancora, quindi aggiungo anche il quarto gruppo e arrivo a

  1. Quindi il 241° e il 251° acquirente sono entrambi nel gruppo

degli 88 acquirenti che hanno indicato 4. Quindi la mediana è 4.

Posso trovare la mediana anche lavorando in valori percentuali su 500:

- Calcolo % di 71 su 500= 14,2%

- Calcolo % di 148 su 500= 29,6%

- Calcolo % di 246 su 500= 49,2%

Vado avanti così: la classe che mi fa arrivare e superare il 50% è quella che contiene le unità statistiche il cui valore

è il valore mediano—> supero il 50% con gli 88 acquirenti che hanno evidenziato un valore di 4 —> MEDIANA PARI A 4

MEDIA E MEDIANA NELLE DISTRIBUZIONI ASIMMETRICHE

Nella distribuzione di una popolazione o di un campione, la media non separa in due parti uguali le unità statistiche

(tranne quando la media coincide con la mediana). La media risente del fatto che alcuni valori siano molto distanti

dalla media stessa, mentre la mediana non ne risente. Se una coda della distribuzione dei valori è molto allungata,

la media è spostata verso questa coda, in confronto alla mediana, la quale non dà cosi importanza ai valori estremi

della distribuzione.

- ASIMMETRIA NEGATIVA: coda pronunciata verso sinistra, quindi maggiore concentrazione verso le modalità

maggiori

- ASIMMETRIA POSITIVA: coda pronunciata verso destra, quindi maggiore concentrazione verso le modalità minori

ESEMPIO DI DISTRIBUZIONE ASIMMETRICA POSITIVA: distribuzione degli studenti sufficienti per voto ottenuto nel

modulo “analisi della varianza nei processi industriali”

In questo caso ho una coda verso destra—> ho una gran parte di

studenti che si colloca su voti medio bassi o bassi, ho però un frangia

poco rilevante in termini numerici di studenti con voti particolarmente

alti. L’esistenza di studenti con voti particolarmente alti fa si che la

media più elevata rispetto alla mediana in quanto risente di questi

valori particolarmente alti.

I PERCENTILI

Il percentile di ordine p (100p) è il valore Xp che divide in due parti la distribuzione ordinata, in modo che il p% dei

valori sia prima di Xp. (ES. Il primo percentile è il valore in corrispondenza del quale si raggiunge l’1% delle unità. Il

decimo percentile è il valore in corrispondenza del quale si raggiunge il 10% delle unità

I PERCENTILI: CASI PARTICOLARI

Il cinquantesimo percentile corrisponde alla mediana, il decimo percentile corrisponde al primo decile, il ventesimo

percentile al secondo decile, ecc. il venticinquesimo percentile corrisponde al primo quartile (Q1), il

settantacinquesimo percentile corrisponde al terzo quartile (Q3). Un quartile corrisponde al 25% del totale, quindi

UNA APPLICAZIONE: RILEVAZIONE DEL FOSFORO REATTIVO ALLA STAZIONE DI CATTOLICA SU 365 GIORNI (MG/MC)

100p mg (xp)

50 - 2,81 (mediana)

Come si interpretano?

- il 3% delle rilevazioni ha un valore MINORE O UGUALE DI 1,

- Il 10% delle rilevazioni ha un valore MINORE O UGUALE DI 1,

- Il 5% delle rilevazioni ha un valore MAGGIORE O UGUALE DI 4,

- QUAL È LA % DELLE RILEVAZIONI CHE HANNO DATO UN VALORE MINORE O UGUALE AL 3,51%? IL 75%.

- QUAL È IL VALORE CORRISPONDENTE AL PRIMO 25% DI STAZIONI? HA UN VALORE INFERIORE O UGUALE A 2,

- QUAL È LA PERCENTUALE DI RILEVAZIONI HA HANNO UN VALORE COMPRESO TRA 1,97 E 4,62? L’85% —> 1,97 è

il DECIMO PERCENTILE, quindi significa che il 10% di rilevazioni ha mostrato un valore inferiore o uguale ad 1,97.

4,62 è il 95° percentile, quindi significa che l’ultimo 5% di rilevazioni ha messo in evidenza un valore maggiore o

uguale a 4,62, per cui si toglie il primo 10% e l’ultimo 5% e significa che rimane l’85% delle rilevazioni

- Una rilevazione che ha fatto rilevare un valore = 1,91 è in corrispondenza del percentile? Approssimativamente il

quinto

LE MISURE DI VARIABILITÀ

IL SIGNIFICATO DI VARIABILITÀ

Una media sintetizza un gruppo di dati in un unico valore; questa operazione comporta tuttavia una perdita di

informazioni. Due campioni possono fare riscontrare la stessa media, pur a fronte di situazioni molto diverse. Le

misure di variabilità sono indicatori in grado di valutare in modo sintetico le differente tra i valori di un gruppo di

dati.

- non assumono mai valori negativi

- Sono pari a zero se il fenomeno non presenta variabilità

- Presentano valori crescenti all’aumentare della variabilità

IL CAMPO DI VARIAZIONE (RANGE)

Il campo di variazione è la differenza tra il valore massimo Xmax e il valore minimo Xmin tra quelli osservati: Xmax

  • Xmin. Ha il difetto di tenere conto soltanto dei valori estremi, non essendo sensibile alle modificazioni nei valori

intermedi (che alterano comunque la variabilità globale).

LA DEVIAZIONE STANDARD O SCARTO QUADRATICO MEDIO

La deviazione standard si basa sugli scarti tra i singoli valori e la loro media aritmetica: Xi - M. Non sarebbe

possibile utilizzare la media aritmetica degli scarti, poiché la loro somma algebrica è sempre nulla. Si può invece

impiegare la media dei quadrati degli scarti (rms)

SIMBOLOGIA

La deviazione standard campionaria si indica con s; la deviazione standard della popolazione si indica con σ;

spesso, per indicare in modo generico la deviazione standard, si utilizza SD.

SD: Il calcolo

- Si dice deviazione standard la media quadratica degli scarti di ogni valore dalla media aritmetica.

SD: radq [ Σ (xi - M)^2/n]

- La deviazione standard è espressa nella stessa unità di misura dei valori del fenomeno

- Il numeratore che si trova sotto la radice quadrata, ossia Σ (xi - M)^2, è chiamato devianza

Si calcola partendo dallo scarto, ossia ogni valore (x i

) meno la media (M) e si eleva al quadrato. Si ripete il

procedimento per tutti i valori per poi fare la somma dei quadrati, i quali andranno poi divisi per il numero dei

valori considerati. A questo punto abbiamo trovato la varianza. Risolviamo la radice quadrata e otteniamo la

deviazione standard, la cui unità di misura è la stessa del fenomeno che stiamo analizzando.

La deviazione standard si calcola facendo la media quadratica degli scostamenti di ogni valore dalla media

aritmetica—> quindi è uguale alla radice quadrata della media dei quadrati degli scostamenti—> prendo ogni valore,

calcolo il suo scostamento dalla media, alzo al quadrato questo scostamento, faccio la somma di tutti questi

quadrati, divido per il numero di valori considerato e metto tutto sotto radice quadrata. Alzando al quadrato ed

Estraendo la radice quadrata riesco ad ottenere un indicatore che è quello della deviazione standard che è espresso

GLI INDICI RELATIVI DI VARIABILITÀ RAPPORTATI AL LORO MASSIMO

- sono idonei a rispondere ad una domanda di questo tipo: la variabilità espressa da una deviazione standard, o da

una varianza, è forte o debole?

- Si calcolano indicatori il cui campo di variazione è standard (solitamente, l’intervallo 0 -1)

PROCEDIMENTO

- Si identifica la situazione di massima variabilità (presente quando il fenomeno assume soltanto i due valori

più distanti tra loro);

- Come individuare il massimo valore che la deviazione standard può assumere? Si calcola il campo di

variazione teorico (differenza tra il valore massimo possibile e il valore minimo possibile) e si divide per 2

- Si rapporta la deviazione standard effettivamente ottenuta al valore massimo che esso può assumere

La massima deviazione standard NON PUO ESSERE SUPERIORE ALLA METÀ DEL CAMPO DI VARIAZIONE.

ESEMPIO: la spesa alimentare media per famiglia è di 7000€ e la deviazione standard è pari a 700. In questo

caso la deviazione standard è espressa in € perchè si sta lavorando in €. 700 indica una dispersione intorno alla

media che è forte, debole o intermedia?

1. Calcolo il rapporto tra la deviazione standard e la massima divisione standard possibile—> per farlo devo

calcolare la massima deviazione standard—> per calcolarla c’è bisogno del valore minimo teorico e del

valore massimo teorico:

1. Per quanto riguarda il valore minimo si può immaginare che la famiglia in questione non possa spendere

meno di 2000€ in prodotti alimentari e al massimo può spendere 100.000€ per prodotti alimentari.

2. PER CALCOLARE LA DEVIAZIONE STANDARD MASSIMA PRENDO IL CAMPO DI VARIAZIONE: 100.000 - 2.000=

98.000, OTTENGO 98.000. divido questo campo di variazione per 2 —> 98.000/2= 49.

3. IN QUESTA SITUAZIONE LA MASSIMA DEVIAZIONE STANDARD IPOTIZZATA È 49.

4. Se divido la deviazione standard per la deviazione standard massima: 700/49.000—> 1/70—> la deviazione

standard è molto piccola rispetto alla massima deviazione standard possibile.

IL RAPPORTO TRA LA DEVIAZIONE STANDARD E MASSIMA DEVIAZIONE STANDARD SI TROVA L’INCIDENZA DELLA NOSTRA

DEVIAZIONE STANDARD SULLA MASSIMA DISPERSIONE POSSIBILE

UN PROBLEMA

A volte, si ha difficoltà ad individuare in maniera oggettiva il valore minimo teorico e soprattutto il valore massimo

teorico che il fenomeno può assumere. In questi casi, come valore massimo teorico si adotta semplicemente il

valore più alto tra quelli osservati.

LA MEDIA GEOMETRICA

La media geometrica è la radice n-esima del prodotto degli N valori : —> n sta per il numero di

valori

Si utilizza per il calcolo della media del tasso di interesse, oppure del tasso di incremento o decremento. In questi

casi la somma non è idonea a fornire il reale ordine di grandezza del fenomeno. Il tratto comune di queste due

situazioni è un processo di accumulazione—> c’è un processo di accumulazione nel tempo sia relativamente

all’applicazione del tasso di interesse, sia in riferimento all’applicazione del tasso di incremento o di decremento.

(es. se un soggetto versa 1000€ in banca il primo anno gli vengono dati degli interessi del 10%, il secondo anno un

8%, il terzo anno un 5% —> questi interessi non vengono applicati tutti al capitale iniziale perchè i 1000€ versati il

primo anno con un 10% di interesse si trasformeranno in 1100€ ed è questa la base su cui si applicherà l’8% del

secondo anno—> il capitale iniziale del secondo anno è il capitale del primo anno a cui è stata aggiunta la somma

degli interessi maturati il primo anno). Il problema della media geometrica è che sotto alla radice non è possibile

riportare i tassi o le variazioni percentuali, perchè non è su questo che si può fare il calcolo, quindi occorre

trasformare i tassi di interesse in percentuale o le variazioni in percentuale in un indicatore chiamato FATTORE

DI MONTANTE—> per calcolare si parte da 1 e si aggiunge o si sottrae il tasso di interesse o la variazione in

percentuale—> es. la popolazione di una città nel 2019 è aumentata del 3%—> parto da 1 e aggiungo il 3% di 1—

> 1+0,03= 1,03 —> viene chiamato fattore di montante perché è quel numero che posso utilizzare come

moltiplicatore per passare dal capitale iniziale al capitale finale

ESEMPIO DI CALCOLO DI UNA MEDIA GEOMETRICA:

La numerosità degli iscritti ad una manifestazione sportiva mostra da un anno all’altro le seguenti variazioni %:

Trasformo le variazioni % nei relativi fattori di montante: -0,6%—> 1-0,006= 0,994; -3,2%—> 0,968; 1,7%—> 1,017; 0,

n

x 1 * x 2 * x n

Mg= (0,9940,9681,017*1,003)^1/4= 0,9953 —> non ottengo subito il tasso medio annuo di variazione percentuale,

perchè le variazioni percentuali sono state trasformate in fattori di montante—> quindi otteniamo il fattore di

montante medio.

A questo punto devo fare il processo inverso—> devo passare dal fattore di montante medio alla variazione

percentuale media—> prendo il fattore di montante medio e sottraggo 1—> 0,9953-1—> 0,0047—> -0,47%—>

variazione media annua avvenuta in quel periodo.

LA CONCENTRAZIONE — IL SIGNIFICATO DI CONCENTRAZIONE

La concentrazione è un caso particolare di variabilità, in cui il fenomeno:

- è perfettamente trasferibile—> è un fenomeno per il quale è ragionevole pensare a dei trasferimenti realistici fra

un’unità statistica e l’altra (es. settore di produzione dello Yogurt—> è realistico pensare che una parte della

quota di mercato dell’azienda LIDL possa essere ceduta ad un’altra azienda inseguitrice perchè magari questa ha

fatto delle buone strategie di marketing o perchè ha ampliato la sua rete di vendita, ecc..

- Assume soltanto valori non negativi

Tra le diverse misure di concentrazione, l’indice più utilizzato è il rapporto di concentrazione

ESEMPIO:

Ci sono 5 unità statistiche (5 paesi), per ognuna di queste è stata

collocata la quantità in termini di migliaia di persone che hanno

adottato uno stile particolare di vita. In Finlandia sono 57 mila, in

Estonia 35 mila, ecc. il fenomeno è trasferibile (es. niente vieta che

un domani la Danimarca che ha 30 mila persone possa avere un

incremento a scapito degli stati vicini)

PER CALCOLARE LA CONCENTRAZIONE È NECESSARIO:

1. ORDINARE I DATI IN ORDINE CRESCENTE—> IN QUESTO CASO LE

UNITÀ STATISTICHE SONO I PAESI—> 1. DANIMARCA CON 30MILA

PERSONE 2. ESTONIA 3. NORVEGIA 4.SVEZIA 5. FINLANDIA

  1. CALCOLARE LE FREQUENZE RELATIVE (Fi) (FREQUENZE DELLA

SINGOLA UNITÀ STATISTICA) —> che sono il rapporto tra il numero

delle singole unità statistiche e il numero complessivo delle unità

statistiche, 5 nel nostro caso. Quindi faccio 1/5= 0,2 —> in termini di

numerosità ogni paese è il 20% della numerosità complessiva

3.CALCOLARE LE QUANTITÀ RELATIVE (QI) CHE CORRISPONDONO AL VALORE DI OGNI PAESE RAPPORTATO ALLA

SOMMA DEI PAESI —> rapporto la quantità di ogni paese alla quantità complessiva —> 30/212= 0,1415; 35/212=

0,1651; 42/212=0,1981; 48/212=0,2264; 57/212= 0,2689 —> significa che il primo paese (quello con la quantità

minore) pesa per un 20% in termini di numerosità, ma pesa per un 14,15% in termini di quantità; il paese più grande

pesa per un 20% in termini di numerosità, ma pesa per un 26,89% in termini di quantità. LA FREQUENZA RELATIVA

DEVE ESSERE SUPERIORE ALMENO ALL’INIZIO ALLE QUANTITÀ RELATIVE

4.CALCOLARE LE FREQUENZE RELATIVE CUMULATE (F’I): cioè la somma della frequenza relativa

corrispondente al paese in esame più la somma delle frequenze relative precedenti. Finlandia 0,2 +0= 0,20;

Estonia= 0,2 +0,20=0,4;

Cumulate significa che per passare dalla frequenza relativa cumulata si prenderà la frequenza relativa di quel paese

e si aggiungeranno tutte le frequenze relative precedenti. Es. la frequenza relativa del terzo paese è di 0,6,

significa che i primi 3 paesi pesano per un 60% su tutti i paesi in termini numerici

5.CALCOLARE LE QUANTITÀ RELATIVE CUMULATE (Q’I): cioè la somma della quantità relativa corrispondente al

paese in esame più la somma delle quantità relative precedenti e quindi dei paesi più piccoli. Estonia

0,1651+0,1415= 0,3066. I primi 3 paesi incidono sul totale delle quantità per un 50,47%. I primi 3 paesi incidono per

un 60% sulla numerosità complessiva delle unità statistiche prese in esame. Al primo 50% di quantità corrisponde un

60% dei paesi

Le frequenze relative cumulate sono sempre superiori alle quantità relative cumulate, tranne che per l’ultimo caso

dove la cumulazione porta al 100%, cioè a 1. Questo avviene se i dati sono stati ordinati correttamente. Se ho

ordinato correttamente i dati parto dalle unità statistiche più piccole, questo vuol dire che all’inizio i paesi con

quantità più piccole possono avere lo stesso peso di quelli più grandi in termini numerici, ma pesano di meno in

termini di quantità (il paese più piccolo pesa meno in termini di quantità che non in termini di numerosità, in cui

ogni unità statistica ha la stessa incidenza sulla quantità totale).

IL RAPPORTO DI CONCENTRAZIONE

Il rapporto di concentrazione (R) è il principale indicatore di un livello di concentrazione ed è il rapporto tra l’area

di concentrazione e l’area massima di concentrazione, che non è altro che il triangolo 0AB.

L’INTERPRETAZIONE

- R oscilla tra i seguenti limiti:

- R= 0 nel caso di massima equidistribuzione

- R=1 nel caso di massima concentrazione

- Es: se R=0,6 significa che la concentrazione è pari al 60% della concentrazione massima possibile

ALCUNE PROPRIETÀ DI R:

- R non ha unità di misura, è costruito per avere due binari standard entro cui stare, ovvero 0 e 1

  1. Rimane invariato moltiplicando ciascun valore per una costante >0 (es. redditi prima in euro, poi in dollari).

Perchè

  1. Se moltiplico per una costante minore di zero significa che trasformo tutti i valori da positivi a negativi e

quindi non posso più calcolare il rapporto di concentrazione. (es. viene presentato il fatturato di 8 imprese in

€ e viene detto che se questo fatturato fosse espresso in corone danesi anziché in euro, cosa succederebbe ad

R? Rimane invariato perchè fare il cambio valuta è come moltiplicare per una costante;

  1. SE divido per una costante RIMANE INVARIATO —> se divido per 2 ogni valore non cambia perchè il rapporto tra

i valori rimane lo stesso

  1. Sommando una costante C a ogni valore, diminuisce se c>0 (es. stessa distribuzione dei redditi ma decido di

mettere una tassa uguale per tutti di 100€—> chi aveva un reddito di 500€ ne risente, mentre quello che ha

500.000 € di reddito non se ne accorge nemmeno—> significa che i più piccoli diventano ancora più piccoli

rispetto ai più grandi e i più grandi diventano ancora più grandi, aumenta se C<0, con il vincolo (xi+c) maggiore

uguale di 0.

  1. Infatti, se c>0, l’aumento risulta in termini relativi più elevato per i valori piccoli (Es. un aumento di stipendio

di ammontare identico per ogni occupato)

  1. L’opposto si verifica se c<0 (per esempio, una tassa di ammontare uguale per tutti i redditi—> metto una tassa

di 700€ per tutti—> chi ha un reddito di 500€ non può tollerare un valore negativo, quindi non si può calcolare il

rapporto di concentrazione)

ES: Se sottraggo 700€ da tutti i redditi il rapporto di concentrazione aumenta, resta inalterato, diminuisce o non è

più calcolabile? Non è più calcolabile. Basta avere anche un solo valore negativo quindi non è più calcolabile

I NUMERI INDICI

DEFINIZIONE

I numeri indici sono rapporti finalizzati a confrontare le intensità di un fenomeno o più fenomeni in tempi diversi

oppure in situazioni diverse (ad esempio, in differenti regioni). Si hanno infatti numeri indici temporali e numeri

indici territoriali. Servono quindi a misurare variazioni relative.

VARIAZIONI ASSOLUTE E RELATIVE

Se analizziamo una serie storica, le variazioni da un periodo all’altro possono essere misurate in termini assoluti

(differenze) o relativi (rapporti). Le differenze assolute dipendono dall’ordine di grandezza e dall’unità di misura.

Le variazioni relative, nella maggior parte dei casi, sono più efficaci.

IL CALCOLO DEI NUMERI INDICI

Per trasformare una serie storica in una serie di numeri indici, si devono dividere i termini Xt (t=1=1,2… n) per un

denominatore, appartenente alla stessa serie, e moltiplicare i quozienti per 100. Si chiama base il termine assunto

come denominatore dei rapporti

NUMERI INDICI A BASE FISSA

Si ottengono quando tutti i termini della serie vengono rapportati alla stessa base (spesso il primo termine della

serie)

1 I^ t = Xt/X 1 il simbolo a sinistra di I indica il periodo base, quello a destra indica il periodo di riferimento del

calcolo —> ES. se voglio calcolare l’indice del 2021 con base 2014 scriverò (^) 2014 I (^2021)

L’INTERPRETAZIONE

Sottraendo 100 da un numero indice a base fissa si ottiene la variazione percentuale del fenomeno rispetto al

tempo base. (es se l’indice del 2021 con base 2014 su scala 100 è pari a 103,8 significa che dal 2014 al 2021 c’è

stato un aumento del 3,8% —> devo sottrarre 100 —> 103,8 - 100= 3,8 se questo indice è pari a 96,8 significa che dal

2014 al 2021 c’è stata una diminuzione di 3,2 —> una diminuzione perchè abbiamo un saldo negativo).

NUMERI INDICI A BASE MOBILE

Nel caso dei numeri indici a base fissa si dividono tutti i valori della serie con il valore della base (es. potrei

avere l’intera serie dei numeri indici dal 2014 al 2021 tutti a base fissa con base 2014—> li ottengo dividendo il

valore di ogni anno per il valore del 2014 tenuto fisso—>mi serve per capire in ogni anno qual è stata la

variazione avvenuta dal 2014 a quell’anno—> es. l’indice 2019 con base del 2014 mi dice quant’è stata la

variazione % dal 2014 al 2019)

I numeri indice a base mobile invece Si ottengono quando ogni termine della serie viene rapportato al termine

precedente:

t—1 I^ t = Xt/X^ t-

Il numero indice a base mobile relativo al primo anno della serie storica non può essere determinato, non essendo

noto il valore del fenomeno nell’anno precedente. Sottraendo 100 da un numero indice a base mobile si ottiene la

variazione % del fenomeno rispetto al tempo precedente. (es. se ho un indice a base mobile del 2018 pari a 100,

significa che nel 2018, rispetto all’anno precedente ho avuto un incremento dello 0,6%; se l’indice a base mobile

del 2019 è stato di 101,6 significa che nel 2019 rispetto all’anno precedente abbiamo avuto un aumento dell’1,6%

CAMBIO BASE

I numeri indici con base fissa, ad esempio con base X1, possono essere trasformati in numeri indici con diversa base

fissa (es. con base x2, dividendoli per (^) 1 I (^) 2

ESEMPIO: Si hanno una serie di indici dal 2010 al 2020, tutti con base 2010. Occorre cambiare la base da 2010 a

2015 —> con il cambio base è possibile trasformare gli indici con base 2010 in indici con base 2015—> per farlo si

prendono tutti gli indici a disposizione, in questo caso tutti gli indici su base 2010, e ognuno viene diviso per

l’indice che si trova nell’anno preso come nuova base.

Nella serie originaria il 2010 l’indice è pari a 100 perchè è la mia base, l’indice del 2020 può essere pari a 135 e

quello del 2015 era pari a 120 —> per passare a base 2015 prenderò ogni singolo indice e lo divido con l’indice

assunto come nuova base, in questo caso il 2015 ha un indice di 120. L’indice del 2020 con base 2015 lo calcolo

rapportando 135 a 120 e ottengo l’indice del 2020 con base 2015.

Se voglio tenere l’indice al tempo t con base il tempo 2 partendo dall’indice al tempo t con base il tempo 1 non

faccio altro che dividere l’indice al tempo t con base 1 per l’indice al tempo 2 (che è la nuova base) con base 1.

ESEMPIO NUMERICO:

Devo dividere ogni indice per l’indice che si trova nell’anno preso come nuova base e li moltiplico per 100

Interpretazione: l’indice del 2019 con base 2017 è pari a 107,9—> significa che c’è stato un aumento del 7,9%

dall’anno base, ovvero il 2017, al 2019; c’è stato un aumento del 4,1% dal 2017 al 2018

L’indice del 2016 con base del 2017 è 96,7 indica che nel 2016 si aveva un valore inferiore del 3,3% rispetto al 2017

Dal 2016 al 2020 si verifica un decremento del 3,1 % ; dal 2017 al 2020 si è verificato un decremento del 6,4%

DA BASE FISSA A BASE MOBILE

Per passare da una serie di indici a base fissa alla corrispondente serie di indici a base mobile, è sufficiente dividere

ciascun indice a base fissa per l’indice immediatamente precedente.

Indice al tempo t con base 1 / indice al tempo t-1 con base 1 e ottengo l’indice a base mobile,

ovvero l’indice al tempo t con base t-

DA BASE MOBILE A BASE FISSA

Per passare da una serie di indici a base mobile alla corrispondente serie di indici a base fissa, ad esempio a base

x1, occorre moltiplicare tra loro gli indici a base mobile dal tempo 2 fino al tempo considerato. Devo escludere il

primo anno. Prima di moltiplicarli andranno trasformati su scala 1.

SERIE INDICI CON BASE 16 INDICI CON BASE 2017

Se calcolo l’indice del 2020 con base 2016 ottengo 101,9-> significa che nel 2020 c’è stato un aumento

dell’1,9% rispetto al 2016

I NUMERI INDICI COMPOSTI

I numeri indici composti si utilizzano per sintetizzare, mediante un’unica serie di numeri indici, le variazioni

relative di diverse serie storiche. Nella maggiorparte dei casi, è opportuno assegnare un peso (g) a ciascuna serie,

calcolando quindi una media ponderata

DUE TECNICHE PER CALCOLARE NUMERI INDICI COMPOSTI PONDERATI MEDIANTE I VALORI

1. LASPEYRES: Il sistema di pesi (il paniere) viene mantenuto fisso (solitamente è quello del tempo base) per tutti i

periodi della serie storica: Se stiamo calcolando l’indice composto dei prezzi del 2014 con base 1995, utilizziamo

il paniere del 1995. METODO DEL PANIERE FISSO

2. PAASCHE: il paniere è variabile di anno in anno: Se stiamo calcolando l’indice composto dei prezzi del 2014 con

base 1995, utilizziamo il paniere del 2014. METODO DEL PANIERE VARIABILE

INDICE DI LASPEYRES

indice al tempo t con base il tempo 1 è uguale ad ogni indice semplice (se

ho 3 serie storiche che voglio condensare in un unica serie di indici prenderò ogni indice semplice di un determinato

anno—> in questo caso stiamo considerando il tempo t e come base il tempo 1 —> prenderò l’indice semplice al

tempo T della prima serie, lo moltiplico per il suo peso, faccio la somma di tutti i prodotti che ottengo e la divido

per la somma dei pesi —> stessa formula della media aritmetica ponderata. I pesi presi in considerazione sono quelli

relativi al tempo preso come base

Il problema di questo sistema è che si rischia di avere un sistema di pesi che è antiquato, soprattutto se il periodo

in considerazione è lungo. Andrebbe quindi rimodernato ogni tot tempo

INDICE DI PAASCHE

L’indice al tempo t composto con base il tempo 1 è sempre il prodotto

dell’indice della singola serie moltiplicata per il suo peso, ma non è il

peso che questa serie aveva nel tempo assunto come base, ma nel tempo

sul quale stiamo facendo i nostri casi. Dopo aver fatto la somma la si

divide con la somma dei pesi

In questo caso non c’è più il problema di avere un paniere antiquato, perchè è assolutamente aggiornato. Il

problema sta nel fatto che se voglio valutare veramente le modificazioni avvenute nel fenomeno che sto studiando

se muovo contemporaneamente anche il sistema di pesi poi fatico a capire cosa è attribuibile alle variazioni vere e

proprie del fenomeno e cosa invece è attribuibile alla modificazione del paniere che è avvenuta

contemporaneamente.

INDICI COMPOSTI: UN ESEMPIO

DATI DI BASE

NUMERI INDICI DELLA SALINITÀ IN MARE IN CORRISPONDENZA DELL’IMMISSIONE DEL PO

PORTATA DEL FIUME (MC/SEC)

ANNI GORO ADRIATICO

ANNI GORO ADRIATICO

Se uso il metodo di laspeyers utilizzerò come pesi la portata del fiume che è stata verificata per il 2009, ovvero

l’anno preso come base.

Se invece ritengo opportuno usare la formula del paniere variabile userò i pesi dell’anno preso in considerazione per

il calcolo.

Sul 2011 diventa : 103,5* 261 + 101,2*191 / 261+

CALCOLO CON METODO LASPEYRES

09 I 10 =[ 0,994 * 240 + 1,004 *187 / 248 +187] *

09 I 11 = [ 1,035 * 240 + 1,0=12* 185 / 240 +185 ] *

CALCOLO CON METODO PAASCHE

L’indice del 2011 con base 2009 prende in considerazione gli

indici del 2011 (261+291)

IL CALCOLO DELL’INFLAZIONE

Uno dei casi più significativi di applicazione dei numeri indici composti è il calcolo dell’inflazione. Si utilizza un

campione rappresentativo di prodotti e servizi (paniere), ma non si attribuisce la stessa importanza alla variazione

di prezzo di prodotti/ servizi le cui vendite hanno differente rilevanza. È indispensabile un sistema di ponderazione

relativo alla dimensione delle vendite dei diversi beni. L’inflazione si calcola con un sistema di indici composti: per

ogni prezzo si misura il suo l’andamento nel tempo, poi si effettua una media ponderata degli indici semplici dei

singoli prodotti dove la ponderazione è l’importanza che hanno questi prodotti sulla spesa complessiva dei cittadini.

Ci sono prodotti che incidono molto (es. perchè vengono comprati più spesso o perchè costano di più).

DEFLAZIONAMENTO

Deflazionare significa depurare dall’effetto dell’inflazione (es. posso avere gli indici del fatturato di una

determinata azienda calcolati sul fatturato tale e quale senza aver fatto alcun’operazione preliminare. Il problema

è che se nel frattempo c’è stata un’inflazione molto forte, magari l’aumento del fatturato che ho è dovuto

all’inflazione -> significa che se in un determinato anno ho un fatturato di 100 milioni di euro e nell’anno successivo

il fatturato è i 105 milioni di euro—> dal punto di vista nominale c’è stato un aumento del 5% —> 105/100*100, ma

se nel frattempo l’inflazione è cresciuta del 10% quei 105 milioni di euro che ho riscosso nel secondo anno valgono

meno di quelli che ho riscosso il primo anno—> con i 105 milioni riscossi nel secondo anno avrò una capacità di spesa

più ridotta di quella che era nel primo anno). Per depurare dall’effetto dell’inflazione e trasformare il dato in un

dato reale si dividono i prezzi di un servizio o di un prodotto con gli indici dell’inflazione. Oppure si dividono

gli indici dei prezzi di un servizio o di un prodotto con gli indici dell’inflazione.

ESEMPIO: FATTURATO 2019: 100 Milioni ; FATTURATO 2020: 105 MILIONI

L’indice del 2020 con base 2019 ( 19 I (^) 2020 ): 1,05 —> 105 in scala 100

Inflazione 2019-2020: +10% —> l’indice dell’inflazione del 2020 con base 2019 è pari a 110 —> 19 I (^) 2020 = 110

L’indice del fatturato deflazionato del 2020 con base 2019 è uguale all’indice del fatturato tal quale 2020 con

base 2019 diviso con l’indice dell’inflazione —> 1,05/1,10= 0,955 —> INTERPRETAZIONE: nominalmente il

fatturato dell’azienda è cresciuto del 5%, in realtà considerando anche la perdita di valore dell’euro il fatturato è

diminuito —> dal 2019 al 2020 c’è stata una diminuzione del 4,5% (100 - 95,5) nel fatturato deflazionato/ fatturato

in termini reali. Invece la variazione dell’inflazione è dell’1.10 —> significa che dal 2019 al 2020 l’inflazione è

aumentata del 10%.

- Quando il fatturato è tale e quale, ovvero non considera contemporaneamente l’inflazione, si parla di fatturato o

indice nominale o in euro correnti;

- Quando invece si deflaziona si parla di fatturato o indice in termini/ euro reali o in euro costanti

La covarianza è un primo indicatore in grado di fornire informazioni sull’intensità e sulle caratteristiche delle

relazioni esistenti tra due fenomeni quantitativi. La co-varianza tiene conto di quanto si scostano le singole unità

statistiche dalla media, sia per il primo fenomeno (fenomeno X), sia per il secondo fenomeno (fenomeno Y).

COV (X,Y)

È la media dei prodotti dei rispettivi scostamenti dalla media (x’i * y’i)/n —> prendo il primo fenomeno (fenomeno

x) e calcolo per ogni unità statistica lo scostamento che questa unità statistica ha dalla media, poi prendo il

secondo fenomeno e faccio la stessa procedura. Poi moltiplico tra loro gli scostamenti, faccio la somma di questi

prodotti e divido per il numero di unità statistiche.

IL PROBLEMA DELLA COVARIANZA

Quando la covarianza assume valori positivi, si è in presenza di una relazione diretta. Valori negativi segnalano una

relazione inversa. Valori della covarianza pari a 0 corrispondono all’assenza di una relazione lineare tra i due

fenomeni. Il problema della covarianza è legato al fatto che questo indicatore è espresso in termini del prodotto

delle unità di misura di X e di Y.

IL COEFFICIENTE DI CORRELAZIONE LINEARE

Il coefficiente di correlazione lineare è la covarianza calcolata sugli scostamenti standardizzati

Cosa sono gli scostamenti standardizzati? Sono gli scostamenti dalla media rapportati alla deviazione standard

(es. per X):

Z(x) è uguale al valore di X per quell’unità statistica meno la media di x diviso la

deviazione standard di X

ESEMPIO:

Prezzo medio: 25€ a confezione

Nella città A il prezzo è stato di 30€

DEVIAZIONE STANDARD (SD)= 2,5€

Scostamento standardizzato di A rispetto alla media: (30 - 25) /2,5 —> Z= 2—> lo interpreto dicendo che il

prezzo applicato nella città A è stato superiore al prezzo medio di 2 volte la deviazione standard.

L’INTERPRETAZIONE DEL COEFFICIENTE DI CORRELAZIONE -

Esprime l’addensamento dei punti attorno alla retta; misura l’intensità del legame delle due variabili; è sempre

compreso tra -1 e 1.

Nel grafico a sinistra c’è un certo addensamento di punti rispetto al

grafico a destra. La nuvola dei punti sembra formare la sagoma di una

retta quindi posso aspettarmi un R piuttosto elevato (potrebbe essere

abbastanza vicino a +1). Nel grafico a destra la nuvola dei punti è più

informe, quindi R è sicuramente inferiore rispetto al grafico a sinistra e

probabilmente è vicino a 0.

L’INTERPRETAZIONE DEL COEFFICIENTE DI CORRELAZIONE -

È pari a 1 quando si è in una situazione di perfetta correlazione positiva; È pari a -1 quando si è in una situazione di

perfetta correlazione negativa; Tende invece ad avvicinarsi a zero quando la relazione tra i due fenomeni è

piuttosto debole.

ESEMPIO DI RELAZIONE LINEARE PRECISA

In questo caso mi aspetto un R piuttosto elevato, potrebbe essere

pari a 0,95. Se si traccia una retta che passa vicino la nuvola dei

punti la retta risulta molto vicino a questa nuvola

ESEMPIO DI ASSENZA DI RELAZIONE

In questo caso è possibile dire che R è estremamente basso

R È INVARIANTE PER I CAMBIAMENTI DI SCALA

Non cambia se si aggiunge una costante a tutti i valori di una variabile e non cambia nemmeno se si moltiplicano

tutti i valori di una variabile per una costante positiva

LA REGRESSIONE LINEARE

L’analisi di regressione viene intrapresa quando si ipotizza l’esistenza di una relazione di dipendenza. Se si

considerano in questi casi:

- una variabile dipendente (Y): regredendo

- Una variabile indipendente (X): variabile esplicativa o regressore

Solitamente, X è un antecedente logico o temporale

SCOPI DELL’ANALISI DI REGRESSIONE

- studiare come un fenomeno dipende dall’altro

- Comprendere se si può predire la variabile dipendente (Y) partendo dalla variabile esplicativa (X)

- Ad esempio, l'interesse di un ricercatore può riguardare l’individuazione dell’intensità delle polveri totali sospese

in corrispondenza di diversi gradi di usura del manto stradale (e quindi dei relativi residui)

Quindi con la regressione:

- si cerca di capire quanto aumenta o diminuisce la variabile dipendente

- in corrispondenza di un aumento unitario della variabile indipendente

Per esempio, l’entità delle modificazioni nello strato di ozono rispetto a un incremento unitario di

clorofluorocarburi diffusi nell‘alta atmosfera

L’INTERPOLAZIONE LINEARE

Occorre una funzione interpolante, una funzione analitica che sia il più possibile vicina ai punti (Xi , Yi).

L’interpolazione di una successione di punti consiste in un adattamento ai valori osservati di una opportuna

funzione. Limitando l’analisi all’interpolazione lineare, si hanno funzioni del tipo: Y= a+b*x. A volte, i simboli

utilizzati sono:

Y = ß0 + ß1 • x

I PARAMETRI DELLA FUNZIONE

L’intercetta a (ß0) è il valore teorico della variabile dipendente in corrispondenza di un valore nullo della variabile

esplicativa (in sintesi, è il valore di Y quando X=0); ha la stessa unità di misura di Y.

La pendenza b (ß1) (o coefficiente angolare) è l’entità della variazione teorica della variabile dipendente in

corrispondenza di un incremento di un’unità della variabile esplicativa, è quindi espressa in termini di unità di Y/

unità di X: infatti, è la variazione verticale/ variazione orizzontale. Se aumento X di 1 posso aspettarmi una

variazione in Y pari alla pendenza. quindi la sua unità di misura è il rapporto tra l’unità di misura di X e quella di Y

INTERPOLAZIONE ED ESTRAPOLAZIONE

quello effettivo per un’entità pari al RMSE. Quindi l’RMSE è l’errore medio che si commette nel predire Y aiutandosi

con X, cioè con il modello di regressione.

STUDIO SULLA ASSOCIAZIONE TRA CONSUMO DI GELATO E TEMPERATURA

X: temperatura

Y: consumo gelato (grammi/mese procapite)

X: media 25; SD 4,

X: media 309; SD 48,

R: +0,

Pendenza : 48,67 * 0,975/ 4,87= 9,74 —> la pendenza ha come unità di misura quella di Y/ quella di X —> 9,

grammi mensili procapite su grado centigrado —> all’aumento di X pari a 1 corrisponde un aumento di Y pari a 9,

—> 9,74 è la variazione positiva che posso aspettarmi nel consumo di gelato se la temperatura si alza di un grado

centigrado

Intercetta : 309 - 25 * 9,74= 65,58 —> l’unità di misura è quella di Y—> grammi mensili procapite—> 65,58 grammi

mensili procapite rappresentano il consumo di gelato nel caso in cui la temperatura sia pari a 0 gradi centigradi—>

quando x è pari a 0 possiamo considerare un consumo teorico di gelato pari a 65,58 grammi al mese procapite.

RMSE= 10,83 Significa che il consumo previsto per una determinata temperatura tenderà a scostarsi dal valore

effettivo in media per 10,83 grammi—> quando voglio stimare il consumo di gelato per una determinata

temperatura, questo consumo tenderà a scostarsi dal valore reale per 10,83 grammi in media—> 10,83 grammi

mensili procapite è l’errore che mediamente commetterò quando farò una previsione del consumo di gelato

partendo dall’ipotesi di un determinato livello di temperatura.

L’APPLICAZIONE DELLA REGRESSIONE ALL’ANALISI DEL TREND DELLE SERIE STORICHE

LA STIMA DEL TREND CON IL METODO DELLA REGRESSIONE

Il trend è la tendenza di fondo di una serie. Per mezzo della regressione si vuole stimare la funzione più in grado di

esprimere la relazione tra il fattore tempo e il fenomeno oggetto di studio per poi predire il fenomeno in esame a

partire dalla scansione dei tempi.

IL FATTORE TEMPO COME VARIABILE INDIPENDENTE

C onsideriamo il fattore tempo come la variabile indipendente (x) e il fenomeno in esame (D) come la variabile

dipendente (y). Si può effettuare una n normale analisi di regressione lineare, identificando sia la retta di

regressione, sia il relativo coefficiente di determinazione (R^2)

LA SEMPLIFICAZIONE DELLA SCALA TEMPORALE

Per semplificare i calcoli, gli anni possono essere trasformati in un’unità di misura più semplice. Non tanto

2009,2010,2011, ecc… ma quanto 1,2,3,4, ecc.. L’anno 0 è l’anno immediatamente precedente all’anno in cui si è

partititi nella considerazione dei diversi valori temporali.

LA FUNZIONE Y= a+bx*

Esprime l’ipotesi di variazioni di ammontare costante fra due tempi consecutivi (espresse nella stessa unità di

misura del fenomeno analizzato), uguali alla pendenza. L’intercetta indica il valore assunto teoricamente dal

fenomeno (stimato secondo la retta interpolante) quando x=0, ossia nel tempo immediatamente precedente al

primo dei tempi presi in considerazione

UN ESEMPIO: CASI DI PUBBLICITÀ COMPARATIVA IN UN DETERMINATO SETTORE, TRA IL 2005 E IL 2011

Si semplifica la scala, quindi il primo anno viene chiamato anno 1, ecc. Di fianco c’è la variabile Y, ovvero i valori

della serie storica—>28 casi di pubblicità comparativa nel 2005, 31 nel 2006, ecc.. r=0,98. Quindi vuol dire che

interpolare questa successione di valori nei diversi momenti ha portato ad un modello attendibile. La funzione

interpolante è : Y=26,286 + 2,107x. R^2= 0,9756; RMSE: 0,666. A pendenza è pari a 2.107 quindi significa che

all’aumentare di 1 in x, ovvero i tempi —> nel passare da un anno all’altro ho una variazione del fenomeno

tendenzialmente di 2,107 casi. L’intercetta è pari a 26,286 e corrisponde al valore di Y quando X è pari a 0. X è

pari a 0 in corrispondenza del tempo 0 nella scala semplificata —> visto che la nostra scala partiva dal 2005

significa che per l’anno immediatamente precedente, ovvero il 2004, il numero di casi di pubblicità

comparativa ipotizzabile secondo la funzione interpolante è di 26,286. r2 è pari a 0,9756 e dice che mettendo

in relazione il numero dei casi di pubblicità comparativa con la sequenza dei tempi riesco a spiegare il 97/98%

della variabilità originaria di Y, ovvero casi di pubblicità comparativa. L’RMSE è pari a 0,666, la sua unità di

misura è il numero di casi di pubblicità comparativa, e mi dice che quando farò delle proiezioni in avanti (es.

prevedere il dato per il 2015) la potrò fare con la retta interpolante, ma questa previsione sarà affetta da un

margine d’errore che mediamente è pari a 0,666.

LA PROIEZIONE

Utilizzando la funzione interpolante, è possibile effettuare proiezioni sul futuro del fenomeno considerato.

per esempio, per il 2013 (x = 9), è possibile fare questa proiezione: y = 26,286 + 2,107 • 9 = 45,25 —> il margine

d’errore è pari a 0,666 in media. Nel calcolo di funzioni di regressione delle serie storiche la variabile indipendente

X è sempre data dagli anni.

TREND NON LINEARI

Anche nello studio delle serie storiche, R prossimo a zero non necessariamente significa assenza di relazione

(possiamo essere in presenza di un’associazione non lineare).

Per esempio, la % di tannino estraibile dalla felce aquilina ha questo trend nei

mesi da maggio a ottobre

L’ASSOCIAZIONE FRA FENOMENI QUALITATIVI ORDINALI

I NDICATORI DI ASSOCIAZIONE

Diversi sono gli indicatori utilizzati per misurare il livello di associazione tra fenomeni qualitativi. Una prima fase di

analisi può essere svolta visivamente, considerando i dati in una tabella di contingenza. La tabella sottostante, per

esempio, evidenzia un certo grado di associazione diretta fra i due fenomeni.

FREQUENTATORI DI BIBLIOTECHE INTERESSATI A PROPOSTE DI NUOVI SERVIZI

Da un lato ci sono le tipologie di

frequentatori di biblioteche in base

a l l ’ i n t e n s i t à d i f r e q u e n z a ( d a

estremamente saltuario a quotidiano o

quasi), dall’altro c’è il livello di

interesse per proposte di nuovi servizi

(da nullo a elevato). Inoltre a occhio è

p o s s i b i l e v e d e r e c h e g l i s c a r s i

frequentatori di biblioteche sono

tendenzialmente interessati a nuovi

servizi rispetto invece ai frequentatori

più sistematici. C’è un’associazione di

senso positivo, ovvero all’aumentare dell’intensità di frequentazione della biblioteca corrisponde anche un

aumento nel livello di interesse.

INDICATORI DI ASSOCIAZIONE

Un criterio per misurare la relazione tra due fenomeni ordinali consiste nella sostituzione delle modalità dei due

fenomeni con i rispettivi posti d’ordine, o ranghi, che essi occupano nella graduatoria in senso crescente. Si assegna

cioè rango 1 alla modalità inferiore, rango 2 alla modalità successiva, ecc.., fino a rango N nella modalità più

grande. Dato che si considerano solo i posti d’ordine, questo criterio è valido anche per fenomeni quantitativi, oltre

che per fenomeni qualitativi rilevati su scala ordinale.

LA COGRADUAZIONE: DATI DI PARTENZA

Partendo da questi dati, si ordinano le unità statistiche in maniera

crescente in base alla modalità riportata: Poi, si associa a ogni unità

statistica il rango, ovvero quel numero che indica la posizione

dell’unità all’interno dell’ordinamento per modalità, facendo

attenzione al caso in cui più unità presentino la stessa modalità. In

questo caso, il rango è definito dalla media delle posizioni dei

soggetti con la stessa modalità.

Quindi si ordinano le unità statistiche in base alla modalità

riportata, poi si associa ad ogni unità statistica il rango, ovvero quel