


































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
troverete un riassunto della teroria
Tipologia: Schemi e mappe concettuali
1 / 42
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



































Il termine statistica deriva dal latino status che indica l’analisi quantitativa di un fenomeno. Da ciò
deriva la definizione espressa da Leti, che afferma che la statistica è una scienza che analizza in
maniera quantitativa un fenomeno. Ci vengono forniti dei dati che contengono una informazione
potenziale, che con un accurata analisi le diverse informazioni possono essere messe a confronto e
quindi generare una conoscenza; quest’ultima rappresenta la base necessaria ai fini di un indagine
statistica. Tutte le operazioni che vengono utilizzate sono:
Infatti la ricerca statistica parte da un problema che si analizza attraverso due approcci:
Poi si effettua una raccolta dei dati che possono essere analizzati o uno per volta, o più caratteri per
volta (modello multidimensionale); Si analizzano questi dati e si cerca di interpretare i risultati per
saperli leggere; infine, si effettua una conclusione per vedere se è conforme al problema posto:
garage out e garage in: più o meno qualità si inserisce all’interno della ricerca statistica e minore o
maggiore sarà il risultato. La statistica cerca di analizzare un fenomeno formato da diverse unita
statistiche che nel complesso formano una popolazione. Il fenomeno può essere analizzato o
direttamente (evento nella collettività) o indirettamente (la qualità della vita); sostanzialmente, la
statistica si focalizza su un fenomeno collettivo:
Le unità statistiche invece sono delle unità elementari di un fenomeno oggetto di studio e possono
presentare una o più caratteristiche di interesse. La popolazione invece è un insieme di unita
statistiche che presentano almeno una caratteristica omogenea. Può essere suddivisa in una serie di
sotto popolazione (genere maschile e genere femminile> esseri viventi). Se della popolazione si
prende in considerazione un solo gruppo questo ‘prende il nome di campione.
I dati sono l’osservazione delle specifiche caratteristiche di determinate unita statistiche, questi
vanno analizzati e rielaborati o attraverso un analisi totale, dalla quale scaturisce la vera e propria
conoscenza del fenomeno, oppure attraverso un analisi parziale che ci consegna soltanto una stima
del fenomeno. Ciascun fenomeno è formato da diverse caratteristiche che prendono il nome di
carattere e si segnano con la X maiuscola, mentre le singole modalità che ogni carattere presenta si
segnano con la x minuscola.
I caratteri possono essere:
I caratteri qualitativi si distinguono in:
I caratteri quantitativi si distinguono in:
I tipi di operazioni possibili sono:
Per i caratteri qualitativi sconnessi si può dire solo se un carattere è diverso da un altro, se
qualitativi ordinabili se un carattere è minore, maggiore o uguale a un altro carattere, e se sono
quantitativi discreti o continui si utilizzano due tipi di variazioni:
Se, infine, alla variazione relativa si sottrae uno e lo esprimiamo in termini percentuali, questo
prende il nome di tasso di variazione che indica la velocità del cambiamento del fenomeno di
interesse.
Quando si prende in considerazione un dato di questo si tratta o la sintesi dei dati che va appunto a
sintetizzare quanto detto o la formazione dei dati, quest’ultima è data dalla rilevazione per ciascuna
unita statistica delle modalità. Ciò da vita ad una tabella che prende il nome di data set, nella quale
sulle righe troviamo le diverse unità statistiche, mentre sulle colonne i diversi tipi di carattere siano
essi quantitativi o qualitativi. Le modalità invece vengono inserite nelle celle. Si può parlare quindi
di rappresentazione statistica che rappresenta i diversi caratteri quantitativi e qualitativi di un
fenomeno oggetto di studio. A ciò si ricollega la distribuzione statistica che è tutte le manifestazioni
di un fenomeno nel collettivo oggetto di studio. Quest’ultima può essere una distribuzione unitaria
semplice se si riferisce a un solo carattere, o una distribuzione unitaria multipla quando si riferisce a
più caratteri: uni-variata, bi-variata, multi-variata…
Il carattere si presenta con X (maiuscolo), la modalità con x (minuscola), la dimensione del
collettivo si segna con N mentre le singole unita statistiche sono segnate da u (u con N rappresenta
la ennesima unita statistica del collettivo). Per quanto riguarda le unita statistiche se fanno
riferimento a un tempo, prendono il nome di serie storiche altrimenti se fanno riferimento a un area
territoriale prendono il nome di serie territoriale.
Sostanzialmente, tutte le caratteristiche possono essere ordinate in ordine crescente ovvero x
rappresenta la prima modalità statistica inserita nella distribuzione statica mentre x(1) rappresenta
la modalità statistica inferiore a tutte le altre modalità registrate, quindi la più piccola modalità
osservata nel collettivo.
relative che vengono rappresentate o con una differenza o con un rapporto tra i due caratteri. In
questo caso, se si fa riferimento ad un N le variazioni di quest’ultimo saranno N-1 (es. 16 sono gli
anni durante i quali il prezzo del biglietto del cinema è variato, le sue variazione durante tutti
questi anni sono uguali a 15).
Di solito si necessita di una distribuzione più compatta, per tanto si parla di distribuzione di
frequenza che è quante unita statistiche presentano una determinata modalità nel collettivo oppure
quante volte una modalità si presenta in un collettivo. La distribuzione di frequenza si distingue in
frequenza assoluta o frequenza relativa:
si esprimono con “n”;
rispetto ad un collettivo e si esprimono con “f”.
passare alle assolute facciamo che n=f per N.
Le frequenze relative sono sempre comprese tra 0 e 1, quelle percentuali tra 0 e 100.
Si può parlare anche di distribuzioni in classe che vengono utilizzate per la rappresentazione di
caratteri quantitativi discreti e continui di un numero immensamente grande. Le distribuzioni in
classe fa si che le modalità siano organizzate in intervalli di valori che prendono il nome di classi
(K). Per determinare il numero di classi non si utilizza un solo metodo ma bisogna ricordare che
profilo riga andiamo a dividere ogni elemento sulla riga per il totale della riga stessa, diversamente
se vogliamo calcolare il profilo colonna andiamo a dividere ogni elemento sulle colonne per il totale
della colonna stessa.
Solitamente si cerca di studiare la manifestazione del carattere oggetto di studio in ciascuna delle
unità che compongono il collettivo. Pertanto è utile conoscere l’ intensità totale del fenomeno del
collettivo studiato, cioè l’ammontare di carattere posseduto complessivamente da tutte le unità
statistiche: quanto più c’è un’ intensità maggiore, quanto più il carattere è grande.
Può essere calcolata in diversi modi, ovvero si utilizzano diversi operatori matematici tra cui: la
somma, il prodotto e la potenza. La scelta tra quali scegliere più opportunamente viene fatta
tenendo conto di cosa stiamo studiando:
con la sommatoria delle singole unita statistiche. Nel caso in cui si sta studiando dei fenomeni in
cui l’intensità cresce proporzionalmente allora in questo caso si utilizza la Produttoria delle xi;
sommatoria di xi per in ovvero delle modalità osservate per la corrispondente frequenza. Nel caso
in cui si sta studiando un fenomeno in cui l’intensità cresce proporzionalmente, allora utilizziamo
la produttoria di xi elevato a in, ovvero avremo la modalità elevata alla corrispettiva frequenza.
Tuttavia bisogna porre in essere quella che è la sintesi dei dati, sintetizzando in un unico dato
numerico una caratteristica di interesse. Ovvero si cerca di sostituire tutte le modalità del carattere
in esame con un’ unica modalità che le rappresenti: ottenuta l’intensità totale del fenomeno è
necessario procedere ad una redistribuzione dello stesso su tutte le unità statistiche. Quindi si
indicano degli opportuni indici sintetici del fenomeno considerato, dette misure o indici di
centralità. Queste misure di centralità esprimono sinteticamente il centro ideale della distribuzione.
Alcuni indici sono adatti a sintetizzare tutti i tipi di carattere, altri invece riescono a sintetizzare solo
i caratteri quantitativi. Pertanto la scelta di un indice sintetico deve tener conto:
La media da un idea immediata della manifestazione del fenomeno nel collettivo, si distinguono:
algebriche sulle modalità;
operazioni algebriche sulle modalità.
La media (M) di una variabile X secondo Cauchy, è sempre quel valore interno alla
distribuzione :
(es. voti a scuola compresi tra 6 e 8, la media non potrà mai essere del 9). Pertanto si parla di
internalità della media.
Chisini, invece afferma che, la media è quel valore interno che rispetto ad una funzione
sintetica lascia inalterato il valore.
La media aritmetica parte dall’ intensità totale e può essere calcolata sommando tra di loro le
diverse xi dividendole poi per N, quindi sostanzialmente è uguale all’ intensità totale fratto il
numero del collettivo.
- Nel caso di frequenze assolute sarà uguale alla sommatoria delle xi per ni fratto N; ovvero la
sommatoria delle modalità per le corrispondenti frequenze assolute, tutto diviso N;
- Nel caso di frequenze relative invece sarà uguale alla sommatoria delle diverse xi per fi, ovvero
alle modalità per le corrispondenti frequenze relative, e non vado a dividere per N in quanto si
può già dire che esse stesse sono già divise per N perché nelle frequenze relative N=1;
- Nel caso di distribuzioni in classi invece si va a calcolare il valore centrale (estremo superiore
più estremo inferiore di ciascuna classe, diviso due), vado poi a moltiplicare ogni valore centrale
per la frequenza, sommo i prodotti e ottengo l’intensità totale. Divido poi tutto per N, ottenendo
cosi il prezzo medio per ogni unità statistica. In questo caso pero il calcolo della media risulta
soltanto essere un approssimazione della realtà.
Sostanzialmente la media aritmetica ha diverse proprietà:
1. La media è sempre un valore interno alla distribuzione, pertanto si parla di internaléta della
media;
2. La somma di tute le differenze tra i valori della distribuzione e il loro valore medio è sempre
pari a zero;
3. La media è l'unico valore che minimizza la somma degli scarti al quadrato; 4. La media gode della linearità, ovvero è invariante per trasformazioni affini; 5. La media di un carattere osservato su una popolazione divisa in sottogruppi è pari alla media
delle medie di tutti i sottogruppi (associativi della media).
Dato un certo fenomeno, se viene effettuata una traslazione la media si muove lungo questa nuova
distribuzione: ovvero se si aggiunge a tutti in valori una costante A allora la media sarà pari alla
media della distribuzione originaria maggiorata della costante A. Allo stesso modo se
moltiplichiamo tutti i valori per una costante B allora la media della nuova distribuzione sarà
proporzionale a quella della distribuzione originaria di una quantità B:
es. 18-20-22> la media è 20; se aggiungo ad ogni valore 3:
2 0 + 3 = 3 La media sarà uguale a 20+3, quindi 23.
Se suddivido il collettivo in sotto collettivi diversi, questi possono essere trattati come delle sotto
popolazioni più piccole. A partire dalla media della sotto popolazione, calcolo la media totale delle
medie delle medie. Quindi prendo la media di ciascuna sotto popolazione, la moltiplico per quante
unità statistiche appartengono alla sotto popolazione, sommo la media degli altri sotto collettivi e la
divido per N, dopo di che la dimensione del collettivo la ottengo come somma delle dimensioni
delle due sotto popolazioni. Quindi sarà uguale alla sommatoria di ciascuna media del sotto
collettivo per Ni (le unita statistiche che appartengono a quel sotto collettivo) dividendo tutto per
Nel caso di distribuzioni doppie di frequenze, per calcolare la media, si deve tener conto delle
variabili:
marginale di riga, tutto fratto N;
di colonna, tutto fratto N.
Considera la frequenza più alata e la corrispondente modalità. Per determinare la moda si
possono utilizzare si ale frequenze assolute, le frequenze relative o le frequenze percentuali: la
moda è sempre la modalità prevalente.
Nel caso delle distribuzioni in classe individuiamo la classe di modalità più frequenti. Si parla
pertanto di classe modale :
alta;
dell’ampiezza della classe ovvero della densità di frequenza (rapporto tra frequenze assoluta e
ampiezza classe) più alta.
- La moda può ritenersi un buon criterio di sintesi quando si presenta con una frequenza
nettamente maggiore di tutte le altre modalità. In tal caso è ragionevole assumerla come valore
tipico del fenomeno, cioè come quel valore più idoneo si rappresentarlo sinteticamente;
- La moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore si
parla di distribuzione bi-modale ;
- Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso
determinare la moda;
In questo caso abbiamo più di un valore modale: i fenomeni sono complessi e bisogna tener conto di
più caratteristiche, in realtà c’è una seconda caratteristica che divide il collettivo in due sotto
collettivi e quindi bisogna tenerla in considerazione.
La mediana (Me) il centro della distribuzione ordinata di valori nel collettivo; rispetto a coloro che
fanno parte del collettivo avremo che un 50% di unità statistiche presentano un valore uguale o
inferiore al valore mediano e un 50% di unità statistiche che ha un valore uguale o maggiore del
valore mediano. Nelle distribuzioni unitarie i dati non sono organizzati in senso crescente, pertanto
necessita di essere prima ordinati. Può essere determinata per tutti i tipi di carattere quantitativi o
qualitativi, tranne per quelli sconnessi. A seconda della numerosità e di come sono organizzati i
dati, cambia il modo di determinare l’indice: in generale per le distribuzioni unitarie si guarda alla
numerosità, cioè se le unità del collettivo sono pari o dispari, per le distribuzioni di frequenza si
guarda invece alle frequenze cumulate, meglio se relative.
Bisogna innanzitutto ordinare la distribuzione in senso crescente;
È necessario osservare le frequenze cumulate relative , qui le modalità sono già ordinate in senso
crescente e pertanto non necessitano di essere ancora ordinate. Per poter calcolarle, in maniera
semplice, si può guardare alle frequenze cumulate ma in termini relativi e fare quindi N/N. Ora
avremo il 50% di unita statistiche minori della mediana e un 50% di unita statistiche maggiori della
mediana. Consideriamo allora il 50% non in termini percentuali e avremo lo 0,5, a questo punto
guardo la cumulata che è uguale o contiene 0,5, la mediana corrisponde a quel valore.
Esempio:
32=numero pari; Me= {x(32/2)+X[(32/2)+1]}/2= [X(16)+X(17)]/
Andiamo a considerare le frequenze relative cumulate che posseggono lo 0,5: la prima frequenza
relativa cumulata che possiede 0,5 è quella di 0,78 la quale corrisponde a 20. Pertanto la mediana sarà
uguale a 20.
Se il carattere è suddiviso in classi, si può ottenere un valor ben approssimato assumendo
implicitamente l’ipotesi che nella classe mediana le unita siano distribuite uniformemente:
Calcolo le frequenze relative e poi le vado a cumulare per ottenere le frequenze relative cumulate,
poi osservo la frequenza relativa cumulata che contiene 0,5 e individuo così la classe mediana, da
ciò si può ottenere la mediana per approssimazione lineare ipotizzando che le unita statistiche
crescano uniformemente:
Me= xi-1+[(0,5-Fi-1)/(Fi-Fi-1)]*omega (ampiezza classi)
Possiamo immaginare di suddividere il collettivo in 100 parti, ognuna delle quali contenente lo
stesso numero di unità. I valori che suddividono la distribuzione in 100 parti di uguale numerosità
sono detti percentili o quartili.
Si definisce p-mo percentile, corrispondente alla frazione p/100 del collettivo, la modalità xi del
carattere che suddivide il collettivo in due gruppi tali che:
uguale) pari a xi.
(superiore o uguale) pari a xi.
Quindi Pi= [(p/100)*Numerosità collettivo]
Ci interessano anche i quartili che sono p=25 (primo quartale) e p=75(terzo quartile), il secondo
quartine è p=50 quindi la mediana. Per determinare i percentili nelle distribuzioni unitarie e di
frequenza si utilizza lo stesso procedimento utilizzato per la mediana. Ciò vale anche per le
distribuzioni in classi:
Q 1 =xi-1+[(0,25-Fi-1)/(Fi-Fi-1)*omega (ampiezza classi)
Q 3 =xi-1+[(0,75-Fi-1)/(Fi-Fi-1)*omega (ampiezza classi)
X n N F
5 3 3 0,
10 12 15 0,
20 10 25 0,
50 5 30 0,
100 2 32 1
Se andiamo a considerare una distribuzione, di questo si può calcolare la media o la mediana. Molto
spesso accade però che è difficile effettuare un confronto utilizzando i soli indici di posizione e
pertanto si vanno a considerare altre caratteristiche che tengono conto dei fenomeni in maniera
diversa: la variabilità.
Si considerano dei caratteri quantitativi, in quanto per caratteri qualitativi è più opportuno parlare
di mutabilità. La variabilità rappresenta sempre l’attitudine di un fenomeno a manifestarsi in
maniera diversa tra le diverse unità statistiche del collettivo, raccontando meglio ciò che abbiamo
osservato: più il fenomeno è variabile, e più c’è un rumore di fondo che da fastidio, pertanto la
variabilità deve essere tenuta sotto controllo:
manifestazioni di un fenomeno fossero uguali fra loro la rilevazione di una singola modalità
consentirebbe la conoscenza della totalità del fenomeno, quindi non avrebbe più senso uno
studio statistico;
sufficiente a sintetizzare le informazioni rilevate su una popolazione oggetto di studio,
specialmente quando occorre confrontare tra loro popolazioni.
Inoltre la variabilità è anche un modo in cui i dati si organizzano rispetto alla centralità del
fenomeno. Pertanto possiamo parlare di variabilità come di dispersione, quindi vuole dire che le
unità statistiche si trovano più vicine al centro di dispersione e ciò vuol dire minore variabilità della
distribuzione, viceversa le unità statistiche possono essere lontane dal centro, e quindi avere
maggiore dispersione o variabilità. Non si può dire quanto è variabile un fenomeno, mas solo se è
variabile o meno. A secondo degli aspetti della variabilità che si vuole mettere in evidenza, è
necessario calcolare indici di variabilità diversi:
Un’ulteriore distinzione viene effettuata fra:
1. Indici assoluti: sono espressi nella stessa unità di misura con la quale si rilevano le modalità del
carattere;
Le misure di variabilità presentano diverse caratteristiche, definite come principi generali delle
misure di variabilità:
variabilità è maggiore rispetto all’altro.
A prima vista una distribuzione con una elevata variabilità potrebbe sembrare più complessa da
analizzare rispetto ad una distribuzione con una bassa o nulla variabilità; in statistica in realtà la
variabilità può essere vista da diversi punti di vista:
variabilità, ossia una maggior dispersione dei valori della distribuzione intorno al suo centro,
implica una maggior ricchezza di informazione: da questo punto di vista più la distribuzione è
variabile più il fenomeno tende a manifestarsi in modo diverso nel collettivo e quindi abbiamo
maggiori elementi per poterlo studiare;
unità statistiche in gruppi omogenei rispetto ad una o più caratteristiche allora una bassa
variabilità in ciascun gruppo, rispetto ad una elevata variabilità tra i gruppi, consente di separare
le unità statistiche e quindi ottenere una migliore informazione.
media aritmetica, posso calcolare uno scostamento semplice mediano ma devo calcolare la
centralità con la mediana, e viceversa.
Nelle distribuzioni di frequenza si deve pesare ogni scarto in valore assoluto per la corrispondente
frequenza. Posso calcolare uno scostamento semplice medio tenendo conto che al numeratore
abbiamo la somma degli scarti in valore assoluto moltiplicati per le corrispondenti frequenze
assolute, stessa cosa per la mediana. Nel caso di frequenze relative moltiplico ogni scarto in valore
assoluto per la corrispondente fi e non devo dividerE nulla perché ho già diviso ogni quantità ni per
N ottenendo le quantità relative.
Stesso ragionamento delle modalità, sostituiamo i valori centrali delle classi o anche qui posso
ragionare in termini di frequenze assolute o in termini di frequenze relative.
Piuttosto che prendere i valori assoluti degli scarti, possiamo prendere degli scarti al quadrato o
scostamenti quadratici. L’indice più utilizzato è la varianza indicata con la lettera σ^2. Per ricordare
che sono degli scostamenti quadratici. Questi sono solo della media, in quando la mediana non
presenta scostamenti quadratici. Quando tutti i valori nella distribuzioni sono uguali allora la
varianza è nulla: infatti se tutte le unita del collettivo presentano lo stesso valore ciò indica che non
c’è variabilità. La varianza non ha un massimo: più si allontana dallo 0 più il fenomeno è variabile.
La varianza quindi indica la differenza tra xi e il valore medio calcolato come media aritmetica,
eleviamo al quadrato e dividiamo per N.
Stessa cosa vale nelle distribuzioni di frequenza e nelle distribuzioni in classi (bisogna sostituire alle
modalità il valore centrale di ciascuna classe):
robusto;
Es. altezza in cm. —> varianza in cm^2_._
Esiste un modo più semplice per calcolare la varianza, risolvendo il quadrato posso elevare i dati al
quadrato e faccio la media sottraendo il quadrato della media:
media dei dati delle modalità al quadrato ma ciascuna moltiplicata per la corrispondente
frequenza, altrimenti il risultato non è giusto;
accortezza di sostituire alle modalità xi ci ovvero con il valore centrale.
Inizialmente si deve considerare se ha senso calcolare la variabilità per entrambe le variabili X e Y.
Dopo si fa la varianza generale di Y o di X, la formula è uguale:
vado a leggere sulle distribuzioni marginali di rifa, quindi ogni xi viene confrontata con la media
generale, calcolo lo scarto e lo elevo al quadrato e dopo questo si moltiplica per la corrispondente
frequenza marginale di riga ni. , sommo tutti gli scarti pesati e poi divido per il gran totale. Lo
stesso vale per la variabile Y.,
LA MEDIA DI Y|xi sarà la media della variabile Y tra le unita statistiche che hanno presentato xi. La
variabilità del fenomeno non per tutte le unità statistica ma solo di quelle che hanno una particolare
modalità dell’altro carattere che stiamo considerando.
Per calcolare una varianza condizionata devo utilizzare le corrispondenti medie condizionate:
es. studiare la variabilità delle età solo per gli intervistati che hanno indicato la birra bionda come birra
preferita:
Facciamo una sintesi utilizzando i cinque valori rappresentativi:
In questo caso anche la moda e la media aritmetica coincidono con la mediana
min e primo quartile e tra terzo quartile e xmax è diversa;
In generale si distingue tra asimmetria positiva e negativa:
a sinistra la distanza tra xmin e primo quartile è maggiore di quella tra terzo quartile e xmax
quindi di solito avremo che la moda>mediana>media
e primo quartile è minore di quella tra terzo quartile e x max
Possiamo ricorrere ai soli intervalli di variabilità per descrivere graficamente la distribuzione: la
rappresentazione viene detta BOX PLOT (diagramma a scatola a baffi), ed è caratterizzato da tre
elementi:
distribuzione;
estremi della distribuzione.
Generalmente come valore centrale si considera la mediana, come altezza/larghezza la distanza
interqutile e come estremi i segmenti il valore minimo e massimo della distribuzione.
Attraverso il box plot è possibile evidenziare la presenza di eventuali valori anomali. Abbiamo già
detto che un valore anomalo è un valore molto più piccolo o molto più grande rispetto ai valori
della distribuzione: per poter evidenziare tali modalità particolari è necessario calcolare
i cosiddetti valori minimo e massimo “teorici” e confrontarli con quelli effettivamente osservati
E’ possibile considerare come minimo e massimo della distribuzione i valori così ottenuti:
Xmin => valore più grande tra xmin e [Q 1
xmax => valore più piccolo tra xmax e [Q 3
Gli eventuali valori esterni a tali valori sono considerati anomali:
consente di valutare il livello di concentrazione di un carattere trasferibile in un collettivo. Quindi
possiamo dire che:
(es. R=0.36 -> 36% della max concentrazione osservabile, quindi si ha una concentrazione
medio-bassa);
osservabile, quindi si ha una concentrazione medio-alta)
(es. R=0.83 -> 83% della max concentrazione osservabile, quindi si ha una alta
concentrazione).
È possibile realizzare una rappresentazione grafica della concentrazione detta Curva di Lorenz,
come si costruisce?
Dopo aver rappresentato il quadrato traccio la linea della equi distribuzione (bisettrice del piano
cartesiano), l’area compresa tra la linea della equi distribuzione e la spezzata di concentrazione è
chiamata area di concentrazione che è la rappresentazione grafica di ciò che si è calcolato attraverso
il rapporto di concentrazione. Più è piccola, più è basso il livello di concentrazione, più è grande,
più c’è maggiore concentrazione. Se considero il triangolo equilatero di lato 1 come area, significa
che ho osservato la massima concentrazione perché per ogni pi avrà una corrispondente qi pari a 0.
L’unica ordinata diversa da zero sarà quella corrispondente alle n di unita statistiche.
Nella distribuzione di frequenza i dati sono già ordinati in ordine crescente e per calcolare la
concentrazione faremo che:
Quindi è data dalla sommatoria dei prodotti tra modalità e corrispondenti frequenze e la somma di
frequenze per modalità, in rapporto al totale: è la frazione relativa cumulata del carattere possedute
dalle prime h unità statistiche, l’indice R viene sempre calcolato allo stesso modo.
Dobbiamo distinguere due casi diversi:
A. se conosciamo l’ammontare di carattere posseduto e il numero di unità si assume che ci sia
equidistribuzione (ogni unità della classe possiede lo stesso ammontare di carattere);
B. se non conosciamo l’ammontare di carattere posseduto dalle unità della classe allora possiamo
stimarlo moltiplicando il valore centrale per il numero di unità statistiche della classe.
Esiste un metodo alternativo di calcolare la concentrazione chiamato Metodo dei Trapezi:
Immaginiamo di avere delle distribuzioni e calcolare le pi e le qi, costruiamo il grafico e diamo una
prima valutazione. Il triangolo (O,A,B) rappresenta l’area di massima concentrazione, la parte in
grigio è l’area che può essere misurata sottraendo al triangolo l’area di queste figure che si trovano
al di sotto del grafico (sono dei trapezi capovolti), calcolando l’area di queste figure e sapendo l’area
di massima concentrazione ricaviamo l’area di concentrazione:
Calcolo l’area del triangolo equilatero (b*h/2) dopo di che sottraiamo l’area delle figure al di sotto
del grafico. In basso a sinistra abbiamo un trapezio generale.
Si possono fare dei confronti tra collettivi diversi anche in termini grafici: nel grafico A (slide 22) ho
una prima rappresentazione di una spezzata con la linea continua e una seconda rappresentazione
con la tratteggiata. È chiaro che l’area è minore all’interno tra la spezzata e la continua e quindi c’è
una concentrazione minore rispetto alla seconda. Questa è una definizione rischiosa e quindi
l’indice R va sempre calcolato in quanto non si riesce a dire dal grafico o dal suo indice delle
valutazioni corrette.