Scarica Introduzione alla Statistica: Frequenze, Distribuzioni e Rappresentazioni Grafiche e più Appunti in PDF di Statistica Descrittiva solo su Docsity!
1 ) COS’E’ LA STATISTICA?
Il termine statistica deriva dal latino STATUS e indicava la scienza degli avvenimenti notevoli dello Stato l’esigenza di conoscere quantitativamente alcuni fenomeni fu sentita fin dall’antichità perché tale conoscenza serviva a meglio organizzare l’amministrazione della società. ‘’ la statistica è quella scienza che analizza in termini quantitativi i fenomeni collettivi’’. Il dato in sé non possiede valore informativo, o meglio lo possiede solo in forma potenziale. È grazie al processo di analisi, presentazione e diffusione dei risultati che dal DATO si arriva all’informazione, e dal confronto di diverse informazioni, anche provenienti da fonti diverse, si passa poi alla CONOSCENZA, attraverso la quale si può rispondere a domande su come e perché dei fenomeni studiati. La statistica può essere vista come un insieme di tecniche che hanno come scopo la conoscenza QUANTITATIVA di fenomeni di realtà che ci circonda La conoscenza quantitativa dei fenomeni è preliminare e necessaria a qualsiasi processo decisionale. Operazioni tipiche delle analisi statistiche sono:
- Il conteggio (quante famiglie hanno più di 5 componenti)
- La classificazione (suddivise della forza lavoro per qualifica)
- La misurazione (qual è il livello di produttività industriale conseguito in Italia nel 2007)
- la sintesi, tramite modelli esplicativi, dei fenomeni reali (relazione sul risultato economico raggiunto dalla XYZ Spa nel 2007 e previsione per il 2008) è importante definire innanzi tutto quali sono gli obiettivi della ricerca e quindi delineare tutte le fasi da dover seguire per raggiungere tali obiettivi. Si definisce: l’unità statistica l’unità elementare su cui vengono osservati i caratteri oggetto di studio. Collettivo statistico o popolazione un insieme di unità statistiche omogenee rispetto a una o più caratteristiche. I Collettivi possono essere di:
- STATO in quanto sono individuali in maniera esatta solo se si fissa un preciso istante di tempo
- MOVIMENTO individuabili in maniera esatta solo se si fissa un dato periodo di tempo. Un evento, naturale o provocato dall’uomo, può essere osservato direttamente o indirettamente. La statistica si interessa dei fenomeni collettivi. La statistica descrittiva è l’insieme dei metodi utilizzati per rilevare, sintetizzare e interpretare i dati espressione di un certo fenomeno d’interesse in un insieme di entità. Una popolazione statistica, definita anche universo o collettivo statistico è un insieme di unità statistiche che hanno almeno una caratteristica in comune. È possibile che una popolazione omogenea rispetto ad una caratteristica possa poi essere suddivisa sulla base di altre informazioni, ad esempio il sesso, il titolo di studio… Ogni gruppo di unità di popolazione, a sua volta omogeneo rispetto ad un altro aspetto, è detto sotto- popolazione: gli italiani di sesso maschile e gli italiani di sesso femminile sono due sottopopolazioni del collettivo formato da tutti i cittadini italiani.
COME SI RACCOLGONO I DATI
Esiste un’ampia gamma di possibilità tecniche per l’acquisizione dei dati, la cui scelta dipende da numerosi parametri: Estensione degli scopi perseguiti Ampiezza del collettivo di riferimento Costo e budget disponibili per la raccolta dei dati Grado di precisione considerato.
Osservare… è la via diretta e immediata per studiare i comportamenti manifesti Domandare… la via obbligata per esplorare motivazioni, aspettative, credenze, sentimenti, percezioni, atteggiamenti. RILEVAZIONI DEI DATI RILEVAZIONE TOTALE si ottiene la conoscenza esatta del fenomeno analizzato RILEVAZIONE PARZIALE si ottiene la stima del fenomeno analizzato Bisogna considerare: i tempi di rilevazione, i costi di rilevazione, la ricchezza di dettagli della rilevazione, gli errori associati alla rilevazione. PRECISIONE, ACCURATEZZA E ATTENDIBILITA’ La PRECISIONE di una stima è proporzionale alla dimensione del campione: è assoluta nelle indagini censuarie e decresce in funzione della numerosità del campione. L’ACCURATEZZA è legata al passaggio dei dati su un supporto adeguato all’elaborazione: errori di rilevazione e trattamento dei dati sono maggiori in indagini di vaste dimensioni. Il concetto che riassume in sé sia la precisione sia l’accuratezza è rappresentato dalla cosiddetta ATTENDIBILITA’ di un’indagine. I CARATTERI: COME INDENTIFICARE E DESCRIVERE UN FENOMENO Ciascun fenomeno può essere rappresentato per mezzo di una o più caratteristiche che lo indentifichino (es. il reddito di ricchezza). In statistica ogni caratteristica è detta carattere (X) e può assumere modalità (x) differenti in corrispondenza delle diverse unità del collettivo. Caratteri qualitativi: le modalità sono espresse da attributi Caratteri quantitativi: le modalità sono espresse numericamente. ESEMPIO QUALITATIVO (sconnesso: GENERE, NAZIONALITA’. Ordinabile: QUALIFICA, TITOLO DI STUDIO). ESEMPIO QUANTITATIVO (discreto: N. FIGLI, N. DIPENDENTI. Continuo: PESO, STATURA). Un CARATTERE può assumere modalità diverse nelle differenti unità statistiche. Le modalità sono essere esaustive e non sovrapposte. Caratteri qualitativi: MUTABILI: le modalità sono espresse da attributi Caratteri quantitativi: VARIABILI: le modalità sono espressa numericamente. Caratteri qualitativi (MUTABILI ) possono essere: Mutabile sconnessa (non ordinabile) non ammettono nessun ordine logico (es. stato civile, genere. Operazioni = =/=) Mutabile ordinabile (rettilineo o ciclica) hanno un ordine (logico)crescente (es. status economico, titolo di studio. Operazioni ><) Caratteri quantitativi (variabili) possono essere: Scala a intervalli o scala nominale (es. quoziente intellettivo. Operazioni + - ) Scala di rapporti (es. peso, reddito, età. Operazioni * /)
2 La DISTRIBUZIONE DEI CARATTERI
La descrizione statistica di una popolazione passa attraverso due fasi:
- La formazione dei dati
- La sintesi dei dati LA FORMAZIONE DEL DATO STATISTICO PREVEDE:
- L’osservazione del fenomeno oggetto di studio sulle unità del collettivo
- L’annotazione sistematica, unità per unità, della modalità rilevate. Per ogni unità statistica si dispone, in generale, di un’ingente mole di informazioni che occorre organizzare sistematicamente al fine di renderne agevole l’elaborazione. Il processo di raccolta dei dati sulle unità statistiche può essere realizzata ad esempio la compilazione dei questionari. L’insieme dei dati relativi ai caratteri rilevati su una stessa popolazione è detto DATA SET LA SINTESI DEL DATO Avviene attraverso l’uso di strumenti matematico/statistici.
RAPPRESENTAZIONE STATISTICA DEI DATI
Quando parliamo di rappresentazione statistica dei dati stiamo considerando in che modo organizzare i diversi modi di manifestarsi del carattere oggetto di studio nel collettivo. Da un punto di vista formale potremmo usare un foglio di calcolo per rappresentare i diversi dati. La distribuzione statistica descrive il modo in cui uno o più caratteri, rappresentativi di un certo fenomeno, si manifestano (secondo la terminologia comune ‘’si distribuiscono’’) in una popolazione oggetto di studio. L’elenco delle modalità osservate unità per unità costituisce una ‘’DISTRIBUZIONE UNITARIA’’ A seconda di quanti caratteri statistici prendiamo in considerazione: un singolo carattere statistico (quantitativo o qualitativo) ---- distribuzione unitaria semplice più caratteri statistici (quantitativi o qualitativi) ------- distribuzione unitaria multipla A seconda del numero di caratteri studiati dobbiamo utilizzare approcci diversi per analizzare il fenomeno: si parla di statistica uni variata per un solo carattere, di statistica bi variata per due, di statistica multi variata per vari caratteri. POPOLAZIONE DI N ELEMENTI ----------- P= (U 1 , U 2 , …, Ui,…, UN) Ui = i-esima unità statistica (per i= 1,2, …, N) I= può assumere qualsiasi valore intero compreso tra 1 e N N= numerosità (dimensione) della popolazione Per i caratteri utilizzeremo le lettere maiuscole, mentre per le modalità quelle minuscole: Carattere ------- X (qualitativo o quantitativo) Modalità --------- X1, X2, … , Xi, …., XN Una stessa modalità può essere osservata/misurata su più unità contemporaneamente. È possibile considerare un particolare tipo di distribuzione unitaria, comunemente utilizzata per studiare in che modo un certo fenomeno si è evoluto/manifestato in tempi o luoghi differenti.
Se il nostro riferimento è il tempo parliamo di serie storica: rappresenta l’evoluzione temporale di un carattere quantitativo (ad esempio il prezzo di un prodotto rilevato anno per anno in un dato arco di tempo, le quotazioni i un titolo nelle diverse giornate di contrattazione in Borsa, ecc.) Se il nostro riferimento è lo spazio parliamo di serie territoriale: rappresenta la manifestazione di un carattere quantitativo in un dato istante in luoghi differenti (ad es. il numero di turisti in un dato anno rilevati per ogni regione d’Italia, il numero di addetti dei diversi stabilimenti posseduti da una certa industria, ecc.) Per studiare tali distribuzioni esistono degli strumenti specifici, ma in generale per descrivere i dati è possibile utilizzare anche gli strumenti tipici della STATISTICA DESCRITTIVA.
DISTRIBUZIONI DI FREQUENZA
Quando abbiamo una popolazione molto numerosa può non essere conveniente avere una lunga lista con tutte le modalità osservate sulle diverse unità statistiche. Nell’osservare ad es. un collettivo di aziende proviamo a rispondere alle seguenti domande: Qual è l’assetto societario più frequente? Qual è la percentuale di aziende che hanno un n° di addetti inferiori a 15? In tali casi è necessario utilizzare una rappresentazione dei dati più ‘’compatta’’, nota come ‘ ’distribuzione di frequenza’’ : per rappresentare i dati innanzi tutto si deve costruire un elenco di tutte le modalità che sono state osservate nel collettivo, quindi contare su quante unità statistiche abbiamo osservato una ad una le specifiche modalità. Dobbiamo però prendere in considerazione un carattere alla volta: se la nostra distribuzione unitaria multipla e composta da 4 caratteri è necessario costruire per ciascuno una separata distribuzione di frequenza. CLASSIFICAZIONE DELLE DISTRIBUZIONI X = QUALITATIVO E QUANTITATIVO QUALITATIVE= SCONNESSE O NOMINALI / ORDINALI QUANTITATIVE = DISCRETE O CONTINUE Una distribuzione di frequenza per un carattere con k modalità distinte si presenta in forma tabellare come un elenco delle diverse modalità e delle corrispondenti frequenze. Xi è la generica modalità i del carattere X (con i=1, 2, …, k) Ni è la i-esima frequenza, corrispondente alla modalità Xi La frequenza può essere letta indifferentemente come:
- Il numero di volte che la modalità è stata rilevata sul collettivo
- Il numero di unità statistiche che presentano la stessa modalità N= E Ni= n1+n2+ … ni+ … + Nk Si legge “sommatoria per i che va da 1 a k di n con i” In una tabella bisogna tener conto della diversa numerosità del collettivo e siamo portati a credere che l’importanza del genere femminile sia esattamente la stessa quando non è così. Dobbiamo considerare il numero di unità statistiche che presentano una certa modalità in rapporto alla dimensione del collettivo che stiamo esaminando. Il conteggio delle unità statistiche che presentano una certa modalità, che abbiamo indicato come frequenza, e definito più correttamente come frequenza assoluta , per distinguerlo dal conteggio delle unità statistiche che presentano una certa modalità del carattere in relazione alla numerosità del collettivo, detto frequenza relativa.
3GRAFICI
L’utilizzo di tabelle riepilogative è senza dubbio molto utile, sia perché abbiamo immediatamente un quadro generale della manifestazione del fenomeno che ci interessa nel collettivo oggetto di studio sia perché in tal modo possiamo presentare a terzi i risultati della nostra rilevazione con un buon livello informativo (non tutti studiano la Statistica…) Esiste un altro strumento molto importante per la rappresentazione dei dati che presenta talvolta un potere informativo superiore a quello delle distribuzioni: si tratta in sostanza di effettuare una ulteriore trasformazione dei dati e di rappresentarli sotto forma diagrammatica Si soddisfano principalmente tre esigenze:
- dare una visione d’insieme efficace del fenomeno
- rendere possibile il confronto tra fenomeni diversi, al fine di scoprire delle relazioni tra loro
- aumentare la leggibilità dei dati e delle loro elaborazioni facilitandone una lettura di sintesi Le rappresentazioni grafiche Sono strumenti statistici che permettono di:
- interpretare più velocemente le informazioni raccolte sul fenomeno osservato,
- di coglierne immediatamente alcune caratteristiche Ciò non significa che i grafici possano sostituire i numeri presenti nelle tabelle: devono solo fornire un ulteriore ma utile supporto per l’analisi statistica Alcuni vantaggi che i grafici presentano rispetto alle tabelle che corredano sono:
- visualizzazione immediata dell’andamento del fenomeno (es.: è in crescita oppure è in diminuzione?) e della struttura della distribuzione (es.: sono più i maschi o le femmine?), che consente una globale descrizione dei dati
- sintesi e quindi possibilità, in poco spazio, di confrontare più distribuzioni (curve, spezzate, ecc.)
- forma più divulgativa per i dati statistici rispetto a quanto consentito dalla forma tabellare affinché una rappresentazione grafica sia utile ed efficace deve contenere tutte le informazioni necessarie alla comprensione dei dati in essa rappresentati, ovvero: Ad ogni modo è bene ricordare che …
- il titolo, che deve indicare l’oggetto, il luogo e l’epoca a cui i dati si riferiscono
- il carattere con le rispettive modalità (es.: “maschi” e “femmine” per la variabile “sesso”), in funzione delle quali sono classificate le unità statistiche
- l’unità di misura impiegata per graduare gli assi
- la fonte di provenienza dei dati Esistono tantissime rappresentazioni grafiche: alcune sono più idonee a rappresentare i caratteri quantitativi (discreti o continui), altre a rappresentare i caratteri qualitativi (sconnessi o ordinabili) Ovviamente la scelta del tipo di rappresentazione influenza notevolmente la comprensione del fenomeno perché in assenza di una tabella esplicativa in alcuni casi non abbiamo più nessuna idea di come i dati si sono presentati nel collettivo, soprattutto se, come visto, abbiamo delle frequenze relative o percentuali
- Grafici a torta per caratteri qualitativi sconnessi o ordinabili ciclici
- Grafici radar per caratteri ordinabili ciclici
- Grafici a nastri o a barre per caratteri qualitativi e caratteri quantitativi
- Grafici ad aree per caratteri quantitativi continui nel tempo
- Grafici a barre o ortogrammi: - a colonne (verticale) - a nastri (orizzontale) Distribuzioni semplici (serie): caratteri qualitativi; mutabili sconnesse, mutabili rettilinee
- Diagrammi circolari o areogrammi circolari: - a spicchi proporzionali - a spicchi uguali Distribuzioni semplici (serie): caratteri qualitativi; mutabili sconnesse, mutabili rettilinee
- Diagrammi in coordinate polari Distribuzioni semplici (serie): caratteri qualitativi; mutabili cicliche
- Cartogrammi, mappe tematiche Distribuzioni semplici (serie): caratteri qualitativi mutabili sconnesse riferite a luoghi, territori ecc. (serie territoriali e spaziali)
- Istogrammi e poligono di frequenza Distribuzioni semplici (seriazioni): caratteri quantitativi: variabili (continue o semicontinue) divise in classi di valori
- Diagrammi in coordinate cartesiane ortogonali a canne d'organo Distribuzioni (seriazioni): caratteri quantitativi: discrete Distribuzioni semplici: serie temporali riferite a fenomeni discreti
- Diagrammi in coordinate cartesiane ortogonali (poligoni di frequenza e curve di frequenza) Distribuzioni (seriazioni): caratteri quantitativi: continue e semicontinue Distribuzioni semplici: serie temporali riferite a fenomeni continui o semicontinui
- Ideogrammi o pictogrammi o diagrammi a figure simboliche Per distribuzioni semplici e doppie e qualsiasi tipo di carattere. Di carattere divulgativo ma non scientifico Le componenti di un grafico
- I dati: sono rappresentati in barre, linee, aree o punti.
- Le componenti di supporto: consentono la comprensione dei dati: − Il titolo del grafico − I titoli degli assi − Le etichette degli assi − L’unità di misura dei dati − La griglia − La legenda − Le etichette dei dati − Le note − La fonte dei dati.
- Gli elementi decorativi: non sono legati ai dati
NOTAZIONE
In generale una distribuzione in classi per un carattere con K classi distinte si presenta come Xi- 1 è la generica i-esima classe di modalità del carattere Xn 1 è la frequenza corrispondente alla classe Xi- 1 - Xi La frequenza indica in modo equivalente:
- Il numero di volte che la classe di modalità è stata rilevata sul collettivo
- Il numero di unità statistiche che appartengono alla data classe Analogamente a quanto visto è possibile calcolare per ogni classe sia le frequenze relative sia le frequenze percentuali Nb: le classi non devono essere vuote (cioè con 0 unità statistiche) In generale per indicare se una classe è aperta o chiusa a destra o a sinistra si utilizza la seguente notazione: Xi-1| Xi oppure (Xi-1,Xi) la classe è chiusa a destra e aperta a sinistra (le unità che rappresentano Xi- 1 non sono incluse nella classe, quelle che presentano Xi invece lo sono) Xi-1|Xi oppure (Xi-1,Xi) la classe è aperta a destra e chiusa a sinistra (se unità che rappresentano …. Sono incluse nella classe, quelle che presentano Xi invece non lo sono) Xi-1|Xi oppure …. la classe è chiusa a destra e sinistra (sia le unità con Xi-1 che quelle che rappresentano Xi sono incluse nella classe) VALORE CENTRALE In tutti i casi in cui è necessario effettuare delle operazioni sulle distribuzioni in classi risulta difficile ritornare ad una distribuzione di frequenza o unitaria: a tal scopo per convenzione si fa riferimento ad un valore rappresentativo dell’intera classe detto valore centrale calcolato dalla semisomma degli estremi inferiore e superiore di ciascuna classe Estr. inferiore + estr. superiore/2= valore centrale RAPPRESENTAZIONE IN CLASSI E GRAFICI Quando consideriamo una distribuzione di frequenza possiamo rappresentarla graficamente attraverso l’utilizzo di un grafico a torta se ad esempio siamo interessati alla composizione (percentuale) del collettivo in relazione al fenomeno studiato, oppure se il carattere è di tipo quantitativo a mettere a confronto l’intensità dei diversi modi di presentarsi del fenomeno (le modalità) attraverso una rappresentazione a barre Cosa accade nel caso di rappresentazioni statistiche in cui il carattere è sintetizzato mediante l’utilizzo di classi? Possiamo ancora rappresentare graficamente la composizione del collettivo utilizzando un grafico a torta, ma se vogliamo comparare l’intensità delle diverse modalità del carattere nel collettivo allora è necessario prendere in considerazione il fatto che le classi possano avere la stessa ampiezza o essere di ampiezza diversa : in questo secondo caso infatti vogliamo tener conto del fatto che un carattere si sia potuto manifestare in un certo modo in una classe più o meno ampia, perché questo ha di fatto ha diversa interpretazione. L’istogramma Lo strumento grafico utilizzato per visualizzare le distribuzioni di frequenza in classi è l’istogramma: sull’asse orizzontale sono rappresentate le classi, su quello verticale è invece espressa l’intensità del fenomeno (in termini di frequenza assoluta, relativa o %) L’ area di ciascuna barra sarà proporzionale all’intensità: la proporzione ovviamente è la stessa sia che l’intensità è misurata con le frequenze assolute che l’intensità è espressa, ad esempio, in termini percentuali. Le barre non sono tra loro distanziate per dare un’idea di continuità nella rappresentazione del carattere. Nel caso di classi con ampiezza diversa è ancora possibile l’utilizzo dell’istogramma come rappresentazione grafica In questo caso assume però un significato differente il fatto che l’intensità in una specifica classe sia maggiore o minore, perché i possibili valori osservati sulle unità statistiche sono ‘’pochi’’ o ‘’molti’’ a seconda che l’ampiezza della classe sia minore o maggiore.
Per poter allora ottenere delle barre proporzionali all’intensità espressa nella classe, e allo stesso tempo considerare l’ampiezza della stessa, si utilizza come misura dell’intensità non più la frequenza ma la cosiddetta densità di frequenza: AREA = BASE X ALTEZZA area->frequenza base->ampiezza altezza->densità di frequenza LAVORARE CON PIU’ VARIABILI Sono molti i casi in cui è possibile osservare o misurare su ognuna delle unità statistiche di un collettivo più di una variabile contemporaneamente si parla di distribuzioni multiple Quando studiamo congiuntamente due variabili statistiche si parla in generale di variabile doppia e quindi conseguentemente di una distribuzione unitaria doppia La distribuzione unitaria doppia per i caratteri X e Y può essere vista come un insieme di N coppie di modalità osservate congiuntamente sulle unità del collettivo oggetto di studio Poiché i due caratteri sono legati insieme nella distribuzione non è possibile effettuare contemporaneamente un ordinamento di X e Y: qualora ciò sia necessario dovrà essere effettuato una volta per variabile (per non perdere il riferimento all’unità corrispondente) DIAGRAMMA A DISPERSIONE Le variabili doppie quantitative possono essere rappresentate graficamente su un piano cartesiano che prende il nome di diagramma di dispersione o scatterplot TABELLE DOPPIE E RAPPORTI DI COMPOSIZIONE Utilizzando i rapporti di composizione è possibile leggere dalle tabelle doppie altre informazioni: in particolare, possiamo utilizzare i rapporti per esplorare la tabella, calcolando la percentuale di unità statistiche che hanno una o più modalità della variabile in riga tra quelle che ne hanno una o più della variabile in colonna (e viceversa) TRASFORMAZIONE DEI DATI: FREQUENZE CONDIZIONATE Consideriamo una variabile doppia (X,Y) e supponiamo di voler studiare la distribuzione della variabile Y rispetto ad un prefissato valore di X=xi In questo modo otteniamo la cosiddetta distribuzione condizionata di Y rispetto alla modalità X1 di X: questa distribuzione prende il nome di profilo riga; allo stesso modo possiamo ottenere il profilo colonna.
Per quanto ovvio e convincente, tale requisito costituisce in effetti più un aspetto importante da considerare che una soluzione, essendo generalmente infiniti i numeri reali che soddisfano tale criterio, detto di INTERNALITA’ Una media di una variabile X secondo Chisini è invece quel valore (interno) che rispetto ad una funzione sintetica lascia inalterato il valore F(x1,x1,…,xn)= F(M,M,…M) MEDIA ARITMETICA (SOMMA/TOTALE) MEDIA PONDERATA Attraverso la media ponderata è possibile valutare sinteticamente un fenomeno, espresso in termini di carattere quantitativo discreto o continuo, inserendo anche un sistema di pesi che tenga conto dell’importanza che le diverse manifestazioni dello stesso hanno all’interno della popolazione oggetto di studio.
VARIABILI DOPPIE MISTE E QUANTITATIVE.
Consideriamo una variabile doppia (X, Y) e supponiamo che sia stata organizzata in una tabella che contiene sulle righe le r modalità di X e sulle colonne c modalità di Y. Supponiamo che la variabile (X, Y) sia mista o quantitativa (cioè che almeno una delle due variabili in gioco sia quantitativa). Se entrambe le variabili sono quantitative è possibile Calcolarne la media aritmetica. Supponiamo ora che X sia una variabile qualitativa e che Y sia invece una variabile quantitativa: non è più possibile calcolare la media di X mentre invece possiamo calcolare la media di Y. MEDIE CONDIZIONATE Supponiamo di voler studiare la distribuzione condiziona Y|x: siamo interessati a vedere come si distribuisce nel collettivo il carattere misurato dalla variabile Y fissato un certo valore della variabile X. Possiamo allora calcolare anche la media di Y fissato un certo valore della variabile X, ottenendo così una media condizionata : è come se calcolassimo la media della sottopopolazione che presenta x 1
LA MODA
È la modalità più frequente della distribuzione del carattere. Per determinare la moda possiamo utilizzare le frequenze assolute, le frequenze relative o le frequenze percentuali: la moda è sempre la modalità prevalente. CARATTERISTICHE DELLA MODA. La moda di una distribuzione è la modalità a cui è associata la frequenza più elevata, quindi si evince facilmente che la moda è un indice di posizione che può essere determinato per qualsiasi tipo di carattere, quantitativo o qualitativo. È comunque necessario puntualizzare alcuni aspetti fondamentali:
- La moda può ritenersi un buon criterio di sintesi quando si presenta con una frequenza ‘’nettamente maggiore’’ di tutte le altre modalità (almeno il 50% delle osservazioni). In tal caso è ragionevole assumerla come valore tipico del fenomeno, cioè come quel valore più idoneo a rappresentarlo sinteticamente.
- La moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore si parla di distribuzione bimodale (due mode)
- Se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha senso determinare la moda: per alcuni studiosi già non ha senso parlare di moda se nella distribuzione si individuano più di due valori maggiormente ricorrenti.
LA MEDIANA
La mediana è il centro di un insieme di valori ordinati, è cioè il valore che bipartisce il collettivo statistico in due gruppi di uguale numerosità. La determinazione della mediana richiede quindi, come prerequisito, che il carattere in esame sia almeno ordinale. Pertanto potrà essere determinata per tutti i tipi di caratteri quantitativi o qualitativi, tranne quelli sconnessi (es. colore degli occhi NO / reddito, titolo di studio SI). A seconda della numerosità e di come sono organizzati i dati, cambia il modo di determinare l’indice: in generale per le distribuzioni unitarie si guarda alla numerosità, cioè se le unità del collettivo sono pari o dispari; per le distribuzioni di frequenza si guarda invece alle frequenze cumulate, meglio se relative. La mediana (Me) è definita come il valore centrale della successione, cioè come quel valore che è preceduto e seguito dallo stesso numero di dati della distribuzione (50%-50%). Come si calcola la mediana:
- Ordinare le unità in senso crescente
- Individuare la posizione in graduatoria dell’unità centrale: Se n è dispari, la posizione è (n+1) /2 (la mediana è la modalità presentata dall’unità centrale) Se n è pari si hanno due unità centrali con posizione n/2 e n/2+1 ( si hanno due mediane date dalle modalità delle due unità centrali: se il carattere è quantitativo, possiamo considerare come mediana la semisomma dei valori delle due unità centrali).
I PERCENTILI
Come abbiamo visto, la mediana è quel valore che divide il collettivo statistico in due parti uguali ognuna contenente il 50% delle unità. Estendendo il discorso possiamo immaginare di suddividere il collettivo in 100 parti, ognuna delle quali contenente lo stesso numero di unità. I valori che suddividono la distribuzione in 100 parti di uguale numerosità sono detti percentili oppure quantili. Si definiscono p-mo percentili, corrispondente alla frazione p/100 del collettivo, la modalità Xi, del carattere che suddivide il collettivo in due gruppi tali che:
- Il primo gruppo ha numerosità N(p/100) e le sue unità hanno una modalità al più (inferiore o uguale) pari a Xi.
- Il secondo gruppo ha numerosità N(1-p/100) e le sue unità hanno una modalità almeno (superiore o uguale) pari a Xi. In generale il p-esimo percentile è quello che lascia alla sua sinistra il p% della distribuzione ordinata dei valori osservati e alla sua destra il (100-p) %. PERCENTILI DELLE DISTRIBUZIONI UNITARIE In generale il p-esimo percentile è la modalità che (in senso crescente) si trova nella posizione. I= (p/100. Num. Collettivo) Se i è intero si considera la media tra Xi e Xi+1, se invece i non è intero si considera Xi+1. CHE COSA SIGNIFICA ESSERE AL 5° PERCENTILE DI STATURA? Significa che su una popolazione di 100 individui abbiamo 5 soggetti più bassi di noi e 95 più alti. Il 25° e il 75° percentile: i quartili Alcuni percentili in particolare sono di interesse per la descrizione dei fenomeni. I quartili sono dei percentili che consentono di dividere la distribuzione in quattro parti uguali:
- Se p=25 allora abbiamo il 25° percentile (detto primo quartile Q1), cioè la modalità che lascia a sinistra il 25% delle unità
- Un altro elemento da prendere in considerazione è nel caso dei caratteri quantitativi, la presenza o meno dei cosiddetti valori anomali. È infatti dimostrato che ad esempio la media aritmetica è sensibile a valori molto più piccoli o molto più grandi rispetto a quelli presenti nella distribuzione: potrebbe essere comunque conveniente in questi casi usare la mediana.
6INDICI DI VARIABILITA’
CONFRONTARE PIU’ DISTRIBUZIONI
Consideriamo la distribuzione per età di tre diversi collettivi di studenti In che modo possiamo confrontare i 3 gruppi? Se calcoliamo la media aritmetica e la mediana osserviamo per i tre collettivi lo stesso valore: X=25 Me= Ma da una prima analisi dei valori delle diverse distribuzioni si osserva subito che ci sono delle differenze Risulta quindi difficile effettuare un confronto utilizzando i soli indici di posizione. Abbiamo bisogno di un’altra classe di indici che tenga conto della variabilità del fenomeno.
VARIABILITA’ DI UN FENOMENO
Con il termine variabilità si vuole indicare l’attitudine di un carattere quantitativo ad assumere modalità diverse. Lo studio della variabilità è di fondamentale importanza:
- VALORE INTRINSECO: la conoscenza della variabilità è alla base della Statistica: se tutte le manifestazioni di un fenomeno fossero uguali tra loro la rilevazione di una singola modalità consentirebbe la conoscenza della totalità del fenomeno, quindi non avrebbe più senso uno studio statistico.
- ACCURATEZZA DELLA SINTESI DEI DATI: l’impiego delle medie (sia di posizione che analitiche) non è sufficiente a sintetizzare le informazioni rilevate sulla popolazione oggetto di studio, specialmente quando occorre confrontare tra loro popolazioni. DISPERSIONE DEI DATI NELLA DISTRIBUZIONE Le misure di variabilità consentono di valutare il grado di dispersione delle modalità e la bontà della sintesi della distribuzione operate mediante le misure di centralità. Può accadere, come visto, che due o più popolazioni presentino lo stesso centro, ma che il livello di sintesi sia completamente differente. Consideriamo la seguente esemplificazione relativa a due popolazioni: è immediato che la sintesi effettuata tramite l’indice di centralità è più significativa nella popolazione B, perché le osservazioni sono maggiormente addensate intorno al centro. INDICI DI VARIABILITA’ A seconda degli aspetti della variabilità che si vuole mettere in evidenza è necessario calcolare indici di variabilità diversi: A) Indici che si basano sulla differenza tra i valori che occupano determinate posizioni in un dato ordinamento delle unità del collettivo. B) Indici che si basano sugli scostamenti delle osservazioni da un valore medio C) Indici che si basano sulle differenze tra tutte le modalità osservate. Un’altra classificazione che viene spesso adottata è quella fra INDICI ASSOLUTI e INDICI RELATIVI. Gli indici assoluti di variabilità sono espressi nella stessa unità di misura con la quale si rilevano le modalità del carattere. Gli indici relativi di variabilità sono invece adimensionali, cioè sono espressi in nessuna unità di misura. PROPRIETA’ GENERALI DEGLI INDICI DI VARIABILITA’ Affinché un indice V(X1,….Xn) calcolato a partire delle osservazioni (X1,….Xn) di un carattere X su un collettivo di numerosità N sia idoneo a misurare la variabilità occorre che:
- V(X1,….Xn)=0 se e solo se il carattere assume lo stesso valore X1=…=Xn in tutte le unità del collettivo (il fenomeno si manifesta sempre nello stesso modo)
- Se almeno due osservazioni Xi e Xj sono diverse tra loro allora V(X1,….Xn) >0 (la variabilità aumenta all’aumentare della diversità tra modalità)
- L’indice è invariante rispetto a traslazioni, cioè V(X1,….Xn) = V(X1+c,…Xn+c)
- Un carattere X è più variabile di un carattere Y, in uno stesso collettivo, se risulta V(X1,….Xn) > V(Y1,….Yn) NB= per i caratteri qualitativi sarebbe corretto parlare di MUTABILITA’ ETEROGENEITA’ E OMOGENEITA’ A prima vista una distribuzione con una elevate variabilità potrebbe sembrare più complessa da analizzare rispetto ad una distribuzione con una bassa o nulla variabilità In statistica in realtà la variabilità può essere vista da diversi punti di vista, a seconda che si focalizzi l’attenzione sul fenomeno o sulle unità del collettivo. VARIABILITA’ COME RICCHEZZA DI INFORMAZIONE: possiamo considerare del fatto che una elevata variabilità, ossia un maggior dispersione dei valori della distribuzione intorno al suo centro, implica una maggior ricchezza di informazione: da questo punto di vista più la distribuzione è variabile più il fenomeno tende a manifestarsi in modo diverso nel collettivo e quindi abbiamo maggiori elementi per poterlo studiare. VARIABILITA’ COME ELEMENTO DI DISCRIMINAZIONE: se il nostro obiettivo è quello di classificare le unità statistiche in gruppi omogenei rispetto ad una o più caratteristiche allora una bassa variabilità in ciascun gruppo, rispetto ad una elevata variabilità tra i gruppi, consente di separare le unità statistiche e quindi ottenere una migliore informazione.
CAMPO DI VARIAZIONE
Uno degli indici più semplici tra quelli basati sulla differenza tra valori che occupano determinate posizioni è il cosiddetto campo di variazione (o range) della distribuzione È un indice di variabilità di facile interpretazione poiché rappresenta l’ampiezza della distribuzione del carattere nel collettivo. Il suo impiego è comunque limitato solo a poche applicazioni per una serie di inconvenienti:
- Dipende solo da due osservazioni e non tiene conto delle altre
- Essendo espressione dell’osservazione più grande e di quella più piccola è poco stabile, in quanto estremamente sensibile ai valori anomali.
- Presenta difficoltà di calcolo in presenza di classi aperte.
DIFFERENZA INTERQUARTILE
Un altro interessante indice basato sulla differenza tra valori che occupano determinate posizioni è la differenza interquartile: (FORMULA) È calcolato come differenza tra il terzo e il primo quartile della distribuzione e rappresenta l’ampiezza dell’intervallo centrale (quello intorno alla mediana), nel quale si collocano il 50% delle osservazioni. Tanto più piccola è la differenza interquartile tanto più la metà delle osservazioni risulta addensata intorno alla mediana. In tal senso, la distanza interquartile risulta un indice di variabilità interno, nel senso che si riferisce solo al 50% delle unità che presentano valori intorno alla mediana La distanza interquartile presenta alcune peculiarità:
- È un indice più stabile del campo di variazione perché non si basa sulle osservazioni estreme
- Potrebbe essere nulla senza che il carattere risulti degenere. INDICI BASATI SU SCOSTAMENTI DELLE MEDIE Uno dei modi più utilizzati per studiare la variabilità del fenomeno è osservare come si comportano le osservazioni (in termini di carattere osservato) rispetto ad un valore che sia rappresentativo della distribuzione (il suo ‘’centro’’) Consideriamo la distribuzione di un carattere quantitativo X e supponiamo che C sia il centro Ogni differenza (Xi-c) è chiamata scarto può essere utilizzata per costruire un indice che valuti il livello di dispersione del fenomeno nel collettivo oggetto di studio. In generale possiamo considerare scostamenti semplici o scostamenti quadratici. SCOSTAMENTI O SCARTI SEMPLICI Possiamo costruire due indici di variabilità considerando le differenze in valore assoluto delle modalità della distribuzione dalla media o dalla mediana. Una volta sommati tutti gli scarti è necessario dividere per il numero di unità statistiche del collettivo studiato: il principio è sempre quello della sintesi del fenomeno, ma da un diverso punto di vista – di quanto in media (cioè per valori sopra o sotto la media) le osservazioni si discostano dal valore medio scelto
Lo s.q.m. ci dice di quanto in media i valori della distribuzione si discostano dal valore rappresentativo dell’intera distribuzione, cioè la media. Quale il senso di elevare al quadrato tutte gli scostamenti se poi dobbiamo considerare la radice quadrata della varianza? L’elevazione al quadrato delle differenze tra i valori della distribuzione e la media trova di fatto due ragioni: la prima deriva dalle proprietà della media aritmetica, poiché la somma degli scarti dalla media è nullo, quindi è necessario utilizzare i quadrati; la seconda è invece data dal fatto che elevando al quadrato possiamo attenuare l’importanza delle modalità più vicine al valore medio e contemporaneamente dare il giusto peso a quelle più lontane, come se utilizzassimo una lente di ingrandimento. IL PROBLEMA DELL’UNITA’ DI MISURA - 2 La deviazione standard o scarto quadrato medio (s.q.m.) Concettualmente l’indicazione fornita da quest’indice equivale a quella fornita dalla varianza:
- Se tutti i valori osservati sono uguali allora è pari a 0
- Maggiore è la variabilità maggiore è il valore della deviazione standard. La deviazione standard ci dice di quanto in media i valori della distribuzione si discostano dal valore rappresentativo dell’intera distribuzione, cioè la media. POTERE INFORMATIVO DELLA MEDIA Abbiamo visto come la varianza presenti talvolta un problema di lettura: poiché per costruzione tutti i valori sono elevati al quadrato avremo un indice non espresso nella stessa unità di misura dei valori della distribuzione. Per ovviare a questo inconveniente lo scarto quadratico medio, ossia la radice quadrata della varianza, è molto utilizzato: ha di fatto uguale contenuto informativo della varianza ma allo stesso tempo è espressa nell’unità di misura dei dati. Possiamo inoltre interpretarla come lo scostamento (quadratico) medio dal centro della distribuzione, in questo caso rappresentato dalla media. Proprio per tale motivo possiamo valutare attraverso lo s.q.m. il potere informativo della media, cioè quanto è effettivamente un buon indicatore sintetico della distribuzione del carattere nel collettivo: a valori bassi dell’indice corrisponde una media che meglio sintetizza la distribuzione, mentre a valori alti dell’indice corrisponde una media con un minor potere informativo, perché in tal caso i valori della distribuzione si allontanano mediamente di più dal centro della distribuzione. DEVIAZIONE STANDARD, AMPIEZZA E NUMERO DELLE CLASSI È possibile utilizzare l’informazione data dalla deviazione standard anche per determinare l’ampiezza (e quindi il numero) degli intervalli di modalità in una distribuzione in classi: FORMULA DI SCOTT ESEMPIO: se abbiamo un collettivo di 200 famiglie e vogliamo rappresentare in classi il carattere spesa mensile per trasporti, noto che in media la spesa di ciascuna famiglia si discosta dalla spesa media di 23,5€, avremo un’ampiezza di circa 6euro per classe (ovviamente se le classi sono equi ampie) Ovviamente come per la formula di Sturges abbiamo un’indicazione che però spesso non può prescindere o sostituire il buon senso e l’esperienza del ricercatore! INDICI RELATIVI DI VARIABILITA’ Sia la varianza che lo scarto quadratico medio sono indici assoluti di variabilità Questo aspetto fa si che tali indici non possano essere utilizzati per effettuare confronti tra:
- Più collettivi sui quali si manifesta uno stesso fenomeno, con un diverso ordine di grandezza
- Più fenomeni, espressi anche con diversa unità di misura Per poter confrontare la variabilità di fenomeni con differente unità di misura o con un diverso ordine di grandezza si può far ricorso ad indici relativi. Possono essere costruiti in due modi:
- Rapportando l’indice di variabilità assoluto ad una media
- Rapportando l’indice di variabilità assoluto al massimo valore che può assumere. Per costruzione gli indici relativi si presentano come il rapporto tra due quantità espresse nella stessa unità di misura, quindi il valore numerico che ne scaturisce è un numero puro, dal quale è stata cioè eliminata l’influenza esercitata dall’unità di misura e dall’ordine di grandezza. COEFFICIENTE DI VARIAZIONE
Per confrontare la variabilità di due distribuzioni può essere utilizzato il cosiddetto coefficiente di variazione, costruito come rapporto tra lo scarto quadratico medio e la media in valore assoluto. Il CV è generalmente espresso in termini percentuali. Per quanto già evidenziato, il rapporto tra o e x da come risultato un valore che non è espresso in nessuna unità di misura (adimensionale) Il rapportare la deviazione standard alla media consente di eliminare l’influenza esercitata sulla variabilità dalla magnitudine del fenomeno, fornendo la media un’utile indicazione dell’ordine di grandezza del fenomeno. Può essere letto come ‘’mediamente gli scostamenti dal valore medio del carattere sono pari al … % di quest’ultimo’’. CENTRALITA’, VARIABILITA’ E FORMA Una volta studiata la distribuzione attraverso il calcolo delle misure di centralità e variabilità abbiamo delle informazioni sintetiche per poter comprendere il comportamento di un certo fenomeno rispetto al collettivo oggetto di studio. La centralità e la variabilità di una distribuzione non esauriscono le informazioni contenute nei dati, in alcuni casi non sono esaustive per poter interpretare come il carattere si manifesta. Abbiamo bisogno quindi anche di un altro elemento per meglio definire le caratteristiche della distribuzione: due variabili possono avere infatti, ad esempio, la stessa media/mediana e la stessa variabilità ma differire per il peso dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento differenziato delle ‘’corde’’ della distribuzione, cioè delle parti più esterne dell’insieme ordinato dai dati. Tale studio può essere effettuato considerando la cosiddetta forma della distribuzione Tale argomento meriterebbe una trattazione separata, ma per semplicità lo consideriamo nell’ambito della variabilità, essendo ad essa strettamente collegato. GLI INTERVALLI DI VARIABILITA’ Data la distribuzione unitaria di un carattere X, ordinata in senso crescente X(1) < X (2)<…<X(N) È possibile considerare 5 valori rappresentativi: X1= Xmin è il valore più piccolo della distribuzione Q1= primo quartile (25° percentile) Me= mediana (50° percentile) Q3= terzo quartile (75° percentile) X(n)= Xmax è il valore più grande della distribuzione Attraverso tali valori possiamo costruire i cosiddetti intervalli di variabilità della distribuzione CENTRALITA’ E VARIABILITA’ Da Xmin|q1|Me|q3|Xmax| è possibile ottenere due misure di posizione e due variabilità Media Interquartile Q1+Q3/ Differenza Interquartile Q3-Q Le misure forniscono delle indicazioni di massima sulla distribuzione dei dati ma sono influenzate dai valori anomali o considerano solo il 50% dei dati a disposizione: possiamo comunque utilizzare tali quantità per analizzare la forma della distribuzione di X. LA SINTESI A CINQUE Utilizzando i cinque valori rappresentativi Xmin, q1, Me, q3, Xmax è possibile studiare il comportamento di un carattere in un collettivo osservando:
- La distanza tra il primo quartile e la mediana e tra la mediana e il terzo quartile
- La distanza tra Xmin e il primo quartile e tra il terzo quartile Xmax
- La relazione tra la mediana, la media interquartile e il midrange. La distanza si dice simmetrica se:
- La distanza tra primo quartile e la mediana e tra mediana e il terzo quartile è uguale
- La distanza tra Xmin e il primo quartile e tra il terzo quartile Xmax è uguale
- La mediana, la media interquartile e il midrange coincidono.