










Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispense Statistica Base
Tipologia: Dispense
1 / 18
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











Gli indici di posizione (medie) non sono sempre in grado di sintetizzare in maniera esaustiva una distribuzione. Come abbiamo visto, la media aritmetica fornisce una sintesi di una distribuzione del carattere in esame; la distribuzione sarà ben rappresentata dalla media quando gran parte delle modalità presentano una modalità vicino alla media.
Distribuzioni molto diverse fra loro possono avere media uguale. Ad una stessa posizione centrale può corrispondere una diversa variabilità. Il solo confronto fra gli indici di posizione non è sufficiente a discriminare situazioni molto diverse fra loro.
Vi sono infinite distribuzioni che possono assumere una stessa media; questo vuol dire che:
UNA MEDIA NUNA MEDIA NUNA MEDIA NUNA MEDIA NON CONTIENE INFORMAZIONI SUFFICIENTI PER CARATTERIZZARE UNA DISTRIBUZIONEON CONTIENE INFORMAZIONI SUFFICIENTI PER CARATTERIZZARE UNA DISTRIBUZIONEON CONTIENE INFORMAZIONI SUFFICIENTI PER CARATTERIZZARE UNA DISTRIBUZIONE.ON CONTIENE INFORMAZIONI SUFFICIENTI PER CARATTERIZZARE UNA DISTRIBUZIONE
ESEMPIO:
2 , 5, 5, 5, 8;
1, 4, 5 ,6, 9;
La media aritmetica in entrambe le successioni è 5, ma nella prima successione le unità presentano modalità molto più vicine alla media aritmetica, cioè molto meno disperse. La media rappresenta più adeguatamente la prima distribuzione che la seconda.
ESEMPIO Abbiamo tre distribuzioni dell’età in anni compiuti di tre gruppi di laureati:
A 22 22 23 23 24 25 26 27 27 28 28
B 22 22 22 22 22 25 28 28 28 28 28
C 25 25 25 25 25 25 25 25 25 25 25
Le tre distribuzioni hanno tutte media pari a 25 anni, ma in A il valore 25 è una sintesi della posizione della distribuzione delle età anche se solo 1 laureato ha 25 anni. In B la media 25 è il valore centrale della distribuzione, ma quest’ultima si bipartisce tra due valori 22 e 28. Infine, in C, tutti i valori sono pari a 25 che risulta essere media, moda, mediana. In quest’ultimo caso, la conoscenza della media riassume l’intera distribuzione.
È necessario, quindi, integrare le informazioni fornite da una media con altre che tengano conto del grado di dispersione delle modalità rispetto alla media e di quanto differiscano fra loro le modalità presenti nella distribuzione.
Conclusione: Il valore di una media se non è accompagnato da una misura di variabilità è poco informativo.
Definzione. La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.
soddisfare i seguenti assiomi:
a) V(c,c,…,c)=
Gli indici di variabilità sono indici che danno una misura della DISPERSIONE dei termini della distribuzione rispetto ad una media oppure ci mostrano quanto differiscono tra loro le modalità presenti nella distribuzione.
Essenzialmente due tipi di indici di variabilità:
Indici che misurano la variabilità attraverso una sintesi delle misure di diversità tra ciascun termine della distribuzione ed una media. Variabilità delle singole modalità rispetto ad un valore di posizione o centro (media, mediana, ecc.) mediante una sintesi degli scarti tra le singole modalità ed il valore di riferimento;
Indici che misurano la variabilità attraverso una sintesi delle misure della diversità di tutti i termini della distribuzione fra loro, cioè della diversità esistente fra le modalità di tutte le possibili coppie di unità della distribuzione. Variabilità reciproca fra tutte le modalità considerate due a due. (differenze medie che non saranno trattate durante questo corso).
Ne possiamo aggiungere una terza:
Variabilità fra due particolari termini della distribuzione o fra due quantili.
È la misura più semplice ed è data dalla differenza tra il valore minimo e quello massimo della distribuzione.
Range(X)= max(X)-min(X)
Risente fortemente dei valori estremi ed eventualmente della presenza dei valori anomali.
Se abbiamo dati raggruppati il campo di variazione si misura tra i valori centrali delle classi estreme.
EsempioEsempioEsempioEsempio:
Per i collettivi A e B, il campo di variazione è uguale, ma la distribuzione delle modalità al loro interno è assai diversa: nel collettivo A i valori si distribuiscono in maniera più omogenea, mentre nel collettivo B si nota un certo addensamento verso gli estremi. Questo differente andamento non viene rilevato dal campo di variazione. Per quanto riguarda i collettivi C e D, si nota che essi differiscono, sensibilmente, solo per l’ultima modalità, ma questo basta per far variare, altrettanto sensibilmente, il campo di variazione. Il valore anomalo ed estremo di 80 potrebbe essere dovuto ad un errore di misurazione, ma questa circostanza viene ignorata dal campo di variazione.
Il campo di variazione, ancorché di facile calcolo, è scarsamente significativo, in quanto:
L’elemento che individua il primo quartile è contenuto nella prima classe, mentre quello che individua il terzo è compreso nella terza.
3
1
La differenza pertanto è di 19 milioni di euro.
Altro esempio del limite della differenza interquartilica cui si è accennato in precedenza.
Calcolare la differenza interquartilica della seguente distribuzione di persone secondo il numero di automobili possedute (la tabella è comprensiva delle frequenze cumulate):
Il primo ed il terzo quartile corrispondono alla modalità 1 auto. Anche in questo caso, la differenza interquartilica è pari a 0, nonostante la distribuzione presenti variabilità.
Per misurare la variabilità di un fenomeno occorre controllare se le singole unità statistiche presentano modalità più o meno stabili rispetto ad un indice di posizione. Si tratta quindi di sintetizzare un’opportuna funzione degli scarti delle singole modalità dall’indice di posizione prescelto.
Si tratta delle misure di variabilità più importanti ed usate che prendono in considerazione tutte le informazioni della distribuzione.
La deviazione standarddeviazione standarddeviazione standarddeviazione standard o scarto quadratico medioscarto quadratico medioscarto quadratico medioscarto quadratico medio è definito come la radice quadrata della media aritmetica
n
i
i
2
1
=
Esempio
xi (xi - media) (xi - media)^2
72 -1 1
81 8 64
86 13 169
69 -4 16
73 0 0
57 -16 256
Media=73 0 506
σ=√506/6 =√84,3=9,
Tanto più i valori sono sparsi su un intervallo molto ampio di valori, tanto più aumenta lo scarto quadratico medio; i casi estremi hanno molto peso perché usiamo i quadrati.
É una misura che dipende dall’ordine di grandezza della variabile che osserviamo.
Si fa la radice quadrata per avere una misura comparabile con la media.
Un’altra misura utilizzata è la varianza che non è altro che il quadrato dello scarto quadratico medio.
La varianza ha il difetto di non possedere la stessa unità di misura dei caratteri della distribuzione. Se stiamo considerando il carattere statura espresso in cm, la varianza risulterà in centimetri elevati al quadrato.
Per calcolare la varianza, e quindi lo scarto quadratico medio, si possono utilizzare formule semplificate che non richiedono di calcolare gli scarti dalla media; infatti:
n^2
i 1
i i
n
i 1
i
2 1
∑ ∑ = =
EsercizioEsercizioEsercizioEsercizio
La media aritmetica è data da:
⋅
n
i
i i
La deviazione standard è data dalla radice quadrata di 2,083 ed è pari a 1,443. La devianza è uguale a 249,
EsercizioEsercizioEsercizioEsercizio
La media è data da 12000/162=74,
1.1.1.1. X = x 1 x 2 …. xn
Y = x 1 +a, x 2 +a….., xn+a
σσσσ^2222 yyyy====σσσσ^2222 xxxx
2.2.2.2. X = x 1 x 2 …. xn
Y = b x 1 , bx 2 ….., bxn
σσσσ^2222 yyyy==b==bbb^2222 σσσσ^2222 xxxx
Quindi se Y = a + bX
Var (Y) = b^2 Var (X)
Questa proprietà si dimostra facilmente ricordando la proprietà della media aritmetica che dice che se
n
i 1
otteniamo:
1
2 2 1
n
i
i
n
i
= (^) ∑ i + − + = ∑ − = = =
EsercizioEsercizioEsercizioEsercizio^1
Siano 10, 12, 15, 18, 20, 30, 35 i redditi espressi in milioni di lire, relativi a 7 soggetti. Si supponga che lo Stato introduca una nuova imposta pari al 2% del reddito e, contemporaneamente ad ogni individuo, un contributo fisso pari a 1,5 milioni.
Dopo avere determinato la relazione esistente fra i redditi prima e dopo la introduzione dell’imposta fiscale, si calcolino la media e lo scarto quadratico medio nelle due situazioni sulla base della relazione precedentemente determinata.
Soluzione
2 2 2 2 2 2 2 2 2
x
x
σ
σ
Il reddito medio e lo scarto quadratico medio dopo l’imposta si determinano come segue:
2 2
y
y
σ
σ
Se il collettivo in esame che ha numerosità pari ad N è suddiviso in k gruppi rispettivamente di numerosità
N 1 + N 2 +…… + Nk
k
r
1
e indichiamo con
μ 1 , μ 2 ..... μk le medie dei singoli gruppi
e
σ^21 , σ^22 , …. σ^2 k,
le k medie aritmetiche e le k varianze relative ai k gruppi considerati, allora
r
k
r
r r r
k
r
∑ ∑ = =
1
2 2 1
σ^2 1 (μ μ)^1 σ
La varianza complessiva può cioè essere scomposta in due quantità: la prima misura la variabilità fra i K gruppi (VARIANZAVARIANZAVARIANZAVARIANZA TRATRATRATRA), mentre la seconda quantità misura la variabilità interna ai gruppi (VARIANZAVARIANZAVARIANZAVARIANZA ENTROENTROENTROENTRO)^2.
EsercizioEsercizioEsercizioEsercizio^3333 Nella seguente tabella sono riportati i risultati relativi ad un esame universitario superato da 100 studenti. Per ogni commissione vengono indicati rispettivamente il numero degli studenti, il voto medio e la varianza del voto.
μ
per cui
b) la media dell’età, per la proprietà associativa della media aritmetica è
La varianza dell’età sarà data da
[( 16 16 , 8 ) 40 ( 17 16 , 8 ) 40 ( 18 16 , 8 ) 20 ] 0 , 56
σ = − + − + − =
oppure utilizzando la formula abbreviata
[ 16 ( 40 ) 17 ( 40 ) 18 ( 20 ] ( 16 , 8 ) 0 , 56
σ = + + − =
In questo caso, infatti, la variabilità entro i gruppi è nulla perché i ragazzi appartenenti ai vari gruppi hanno tutti la stessa età e quindi tutta la variabilità è data dalla variabilità tra i gruppi
σ= 0 , 56 = 0 , 75
c) La varianza delle stature viene, invece, calcolata impiegando la probabilità di scomponibilità della varianza nel modo seguente
[ ( ) ]
[ ]
2
(^222)
σ
σ
Le misure che abbiamo visto in precedenza sono indici di variabilità assoluti, espressi nella stessa unità di misura del carattere. Per effettuare confronti quando
a) i fenomeni posti a confronto sono espressi in unità di misura diverse non riconducibili alla stessa unità di misura.
b) gli ordini di grandezza dei fenomeni posti a confronto sono molto diversi (esempio: peso delle madri al momento del parto e peso dei neonati alla nascita).
Occorre ricorrere ad una misure di variabilità relativa: (^) il coefficiente di variazioneil coefficiente di variazione:il coefficiente di variazioneil coefficiente di variazione
Spesso moltiplicato per 100.
Si tratta di una misura standardizzata, utile per confrontare la variabilità di campioni con medie diverse.
σ
EsempiEsempiEsempiEsempi classiciclassiciclassiciclassici inininin cuicuicuicui vienevienevieneviene usatousatousatousato CVCVCVCV sono:sono:sono:sono: variabilivariabilivariabilivariabilitàtàtàtà delladelladelladella distribuzionedistribuzionedistribuzionedistribuzione perperperper etàetàetàetà tratratratra lelelele varievarievarievarie regioni,regioni,regioni,regioni, distribuzione dei redditi o per nazioni e per anno variabilità del peso rispetto al sesso, la variabilità nei flussidistribuzione dei redditi o per nazioni e per anno variabilità del peso rispetto al sesso, la variabilità nei flussidistribuzione dei redditi o per nazioni e per anno variabilità del peso rispetto al sesso, la variabilità nei flussidistribuzione dei redditi o per nazioni e per anno variabilità del peso rispetto al sesso, la variabilità nei flussi orari di traffico nei vari giorni della settimana (i flussi medi sono molto diversi neorari di traffico nei vari giorni della settimana (i flussi medi sono molto diversi neorari di traffico nei vari giorni della settimana (i flussi medi sono molto diversi neorari di traffico nei vari giorni della settimana (i flussi medi sono molto diversi nei vari giorni della settimana),i vari giorni della settimana),i vari giorni della settimana),i vari giorni della settimana), ecc.ecc.ecc.ecc.
Il coefficiente di variazione presuppone che i dati siano al livello di scala di rapporti e non solo ad intervalli. Un’altra misura di variabilità relativa è rappresentata dal rapporto di concentrazione che verrà presentato nella prossima sezione. Il rapporto di concentrazione (sia nella formula di Gini sia nella formula dei trapezi) è una misura di variabilità relativa costruita secondo modalità diverse rispetto al coefficiente di variazione. Il rapporto infatti viene effettuato fra la misura di variabilità, posta a numeratore, ed il valore massimo cui tale misura può raggiungere.
Parliamo di concentrazione in riferimento a caratteri quantitativi, trasferibiliquantitativi, trasferibiliquantitativi, trasferibiliquantitativi, trasferibili. Un carattere quantitativo è trasferibile quando può essere trasferito tutto o in parte da un’unità wstatistica all’altra. Sono caratteri trasferibili ad esempio:il reddito, la popolazione, gli studenti ecc. Non sono trasferibili il peso, l’altezza, l’età, ecc.
n’è anche solo una che possiede più ricchezza di un’altra, allora la ricchezza non è equidistribuita, ma è
diciamo che il carattere è concentrato.
La concentrazione reale varia tra due estremi teorici. Da un lato, si ha la concentrazione minima (nulla) quando il carattere complessivo è ripartito in misura uguale fra tutte le unità che possiedono il carattere in
possiedono 0. Nei casi intermedi si avranno unità che possiedono il carattere in misura superiore alla media ed altre che lo possiedono in misura inferiore ad essa.
Un indice deve assumere il minimo nel caso di equidistribuzione e crescere fino al massimo che va assunto nel caso in cui una sola unità possegga tutto il carattere.
Facciamo ad esempio riferimento al reddito di un gruppo di individui. Ordiniamo le modalità del carattere in
redditieri.
∑
∑ −
=
−
1
1
1
n
i
i
n
i
i
Si può arrivare poi ad un’ulteriore semplificazione dell’ultima formula appena scritta osservando che
1
∑ =
−
=
n
i
i
Un esempio può aiutarci per verificare la relazione sopra scritta.
Ammettiamo che “n” sia dispari e sia ad esempio uguale a 5. Avremo:
1
∑ = + + + =
−
=
n
i
che ammontano ciascuna a 1 e la cui somma
complessiva è pari a (n-1)/
Se “n” fosse pari a 6. Avremo:
1
∑ = + + + + =
−
=
n
i
che ammontano a 1 ed una frazione pari ad ½, e la
somma totale sarà sempre pari a (n-1)/
Una volta riconosciuta tale relazione, che potrebbe essere dimostrata anche in maniera più formale e rigorosa, proseguiamo nella “semplicazione” della formula di R.
Riprendiamo la formula (*) e in essa andiamo a sostituire a ∑
−
=
1
1
n
i
∑
∑ (^) −
=
−
=
n 1
i 1
i
n 1
11
i
Ricordando poi a cosa corrisponde (^) ∑
−
=
n 1
i 1
n
n
i
n i
i
i
∑ ∑
−
=
−
=
1
1
1
1
n
n
i
∑
−
1
1
1
Vediamo un esempio dell’applicazione delle tre formule attraverso l’esercizio riportato nella prossima pagina
EsercizioEsercizioEsercizioEsercizio Nella seguente tabella si è rilevata la produzione giornaliera di energia elettrica (in migliaia di mw) rilevata in alcune regioni italiane Regioni Prod. Giorn. Piemonte 6400 Emilia R. 6300 Toscana 8500 Lazio 5600 Puglia 9200 Sardegna 7000 Misurare la concentrazione della produzione giornaliera di energia elettrica attraverso il rapporto di concentrazione di Gini.
Costruiamo il seguente prospetto di calcolo dopo avere ordinato in senso crescentedopo avere ordinato in senso crescentedopo avere ordinato in senso crescentedopo avere ordinato in senso crescente le modalità del carattere.
Ni Produzione Prod. cum Pi Qi Pi-Qi 1 5600 5600 0,167 0,130 0, 2 6300 11900 0,333 0,277 0, 3 6400 18300 0,500 0,426 0, 4 7000 25300 0,667 0,588 0, 5 8500 33800 0,833 0,786 0, 6 9200 - - - - 43000 94900 2,500 2,207 0,
Che nell’esercizio in questione è pari a:
Avremmo potuto calcolare il rapporto di concentrazione anche con
11
1
∑
∑ −
=
= n
n
i
i
Oppure ancora come:
∑
∑ −
=
−
=
1
1
1
n
i
i
n
i
i i