

















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Argomenti base di statistica (Corso Scienze del turismo, Tor Vergata)
Tipologia: Sintesi del corso
1 / 25
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


















La Statistica , oggi più che mai, è diventata una scienza indispensabile per la lettura e l’interpretazione della realtà. Fornisce la metodologia e gli strumenti per una corretta impostazione di una ricerca o un’indagine, ma anche per leggere criticamente e interpretare correttamente le informazioni fornite da media e pubblicazioni specializzate. È necessario conoscere e comprendere il percorso di una ricerca o di un’indagine per acquisire queste competenze. La statistica è la disciplina che si occupa dei FENOMENI COLLETTIVI , ossia fenomeni che non si manifestano sempre allo stesso modo. Riprendendo uno schema illustrato da Keppel possiamo articolare il processo in 6 passi che si sviluppano, riprendendo un’idea di John Dewey, secondo un modello circolare che parte dalla percezione dell’esistenza di un problema e della scelta di una strategia per affrontarlo fino alla valutazione finale che sarà origine o elemento per eventuali indagini successive.
nascita del bambino, venne misurato il peso di 1236 maschi, nati tra il 1960 e il 1961, e che erano sopravvissuti almeno 28 giorni. Da questa ricerca si sono ottenuti interessanti risultati sugli effetti del fumo, per esempio, confrontando il peso di neonati provenienti da madri fumatrici e non fumatrici. I TERMINI DELLA STATISTICA FENOMENO COLLETTIVO ED UNITA’ STATISTICA -I fenomeni collettivi sono quei fenomeni riferibili ad una moltitudine di oggetti in cui interessi studiare l’insieme degli oggetti nel suo complesso e non i singoli individui. Un esempio può riferirsi alle scienze naturali dove interessi studiare il comportamento di una specie (e non quello di ogni singolo individuo della specie).
Le tecniche di statistica descrittiva trovano applicazione sia nel caso in cui vengano raccolti dati riguardo a tutti gli individui costituenti la popolazione oggetto di studio (come nel censimento), sia nel caso in cui si raccolgano informazioni solo su campione. Nella statistica inferenziale , non è il campione in sé che interessa bensì la sua capacità di fornire informazioni sulla popolazione che rappresenta. In altre parole, la Statistica inferenziale è tendente ad interpretare le osservazioni in termini di modelli teorici che spiegano il meccanismo secondo il quale si producono i dati esaminati. Sono proprio tali modelli che permettono di generalizzare in modo induttivo i risultati, ottenuti da campionamento, dall’insieme dei dati osservati alla popolazione di riferimento. STUDI OSSERVAZIONALI E STUDI SPERIMENTALI I dati raccolti secondo uno schema sperimentale predisposto ad hoc si dicono dati sperimentali ; quelli generati secondo un processo di rilevazione non predisposto dallo sperimentatore sono dati osservazionali. La differenza tra dati osservazionali e sperimentali sta nel fatto che i primi sono prodotti attraverso un processo che non è stato pianificato da chi li utilizza , i secondi sì. ESEMPI: - Rientrano tra gli studi osservazionali quelli epidemiologici , nei quali vengono presi in considerazione dati aggregati (popolazioni, comunità, gruppi) derivati, generalmente, da statistiche correnti con i quali si ricavano informazioni generali sulla diffusione delle malattie e/o dei fattori di rischio in una popolazione. Un'altra tipologia di studi osservazionali sono gli studi caso-controllo, con essi si ottengono in tempi relativamente brevi, informazioni attendibili sui fattori di rischio di una malattia. Il disegno dello studio prevede che si considerino due gruppi di soggetti: uno di malati, i casi, e uno di soggetti aventi le stesse caratteristiche dei primi, dai quali differiscono solo per la malattia ( i controlli ), dal confronto è possibile dedurre informazioni su caratteristiche che possono essere legate alla malattia. -Tra gli studi sperimentali troviamo, per esempio, le sperimentazioni cliniche e gli studi sul campo. Con le prime si valuta, seguendo un protocollo ben preciso e regolamentato da norme, l’efficacia di due o più trattamenti farmacologici o di altro tipo. Negli studi sul campo, invece, si eseguono interventi preventivi su soggetti a rischio di contrarre una determinata malattia e se ne verifica l’effetto. Sono inoltre studi sperimental i tutte le rilevazioni a campione per le indagini di mercato, gli exit poll ecc. LE FASI DI UN’INDAGINE STATISTICA Esse sono: pianificazione; rilevazione; elaborazione; presentazione e interpretazione. LA PIANIFICAZIONE DELLA RICERCA La pianificazione consiste nella definizione del fenomeno e degli obiettivi dell’indagine, nell’individuazione del collettivo e delle unità statistiche, nella scelta dei caratteri del collettivo e nella definizione delle relative modalità (per i caratteri qualitativi) o dei processi di misura (per i caratteri quantitativi). ESEMPIO: Si vuole studiare il fenomeno vendita di televisori nel 2014 per individuare i gusti. Ogni tv è un’unità statistica. L’unità di rilevazione è il rivenditore. I caratteri di interesse sono: marca e tipologia (qual. sconnessi), dimensione (quant. Continuo, espresso in pollici). Occorre pianificare la rilevazione nei minimi dettagli in modo che non vi siano ambiguità. E’ necessario tener conto dei seguenti punti : a) definire con precisione popolazione, unità di rilevazione e unità statistica , ovvero indicare con chiarezza una regola che consenta di stabilire se un’unità è o non è un elemento della popolazione di interesse; b) stabilire i caratteri quantitativi e qualitativi e definire le relative modalità di interesse e scale di misura ; c) indicare i mezzi tecnici per raccogliere le informazioni (schede di rilevazione, questionari, ecc.); d) fissare l’estensione della rilevazione in ordine a tempo, spazio, disponibilità dei mezzi tecnici e finanziari. Per quanto riguarda il punto a) , la popolazione di riferimento viene determinata nella fase di definizione degli obiettivi. L’unità statistica e l’unità di rilevazione possono non coincidere (ciò avviene se l’unità di rilevazione è costituita da più unità elementari, su ciascuna delle quali interessa raccogliere informazioni -
es. nel censimento, l’unità di rilevazione è la famiglia, infatti, in sede di raccolta delle informazioni, ad ogni famiglia viene fornito un modulo in cui si richiedono notizie su ciascun componente/unità statistica). Anche nel caso dell’indagine sui televisori, è verosimile che l’unità di rilevazione sia diversa dall’unità statistica. Dal punto di vista tecnico lo strumento di rilevazione è una scheda (cartacea o elettronica) come questa. LA RILEVAZIONE DEI DATI La rilevazione è il complesso di operazioni attraverso cui si acquisiscono le informazioni sulle caratteristiche (o caratteri) di interesse per ciascuna unità statistica del collettivo considerato. Da questa fase scaturiscono i dati statistici elementari o grezzi, che entrano a far parte della tabella e che costituisce la matrice dei dati. Supponiamo di aver riempito le schede relative ai televisori. La matrice dei dati è una tabella in cui a ogni riga corrisponde un’unità statistica e su ogni colonna è registrata la modalità di uno dei caratteri rilevati. ESEMPIO: Se consideriamo la tabella sui televisori venduti, possiamo porre le seguenti corrispondenze: Marca: Sony 1, Samsung 2 Tipo: CRT 1, LCD 2. In questo modo la tabella contiene solo valori numerici. Anche il rivenditore può essere codificato. L’ELABORAZIONE DEI DATI L’ elaborazione è quel complesso di operazioni attraverso le quali i dati grezzi vengono prima codificati e poi sintetizzati nei dati derivati più facilmente interpretabili. In alcuni casi è indispensabile l’elaborazione dei dati elementari come nelle consultazioni elettorali (il risultato è ottenuto mediante lo spoglio di tutte le schede, cioè attraverso il conteggio dei voti e il successivo calcolo delle percentuali). LA PRESENTAZIONE DEI RISULTATI La presentazione è l’esposizione di grafici, tabelle, ecc., dove sono stati sintetizzati i dati rilevati. L’INTERPRETAZIONE DEI RISULTATI L’ interpretazione è la spiegazione dei risultati, con le osservazioni finali e l’eventuale collegamento con altre indagini. Riprendiamo in esame i dati relativi ad una consultazione elettorale : questi vengono presentati su tabelle e grafici e confrontati con i risultati ottenuti in consultazioni precedenti. Ottenendo, poi, i commenti dei rappresentanti dei Partiti e degli studiosi di politica (politologi), che non sono altro che interpretazioni. PRINCIPALI MODALITA’ DI RILEVAZIONE DEI DATI STATISTICI Le rilevazioni statistiche sono continue quando si svolgono senza interruzioni ( relative alle nascite, ai matrimoni nonché quelle effettuate dai rilevatori sismici, meteorologici ecc.). Sono periodiche se effettuate ad intervalli regolari di tempo , come censimento della popolazione o delle imprese (ogni 10 anni). Sono occasionali le rilevazioni effettuate in circostanze particolari ( sondaggi ). Lo strumento di rilevazione varia a seconda dello scopo della rilevazione e del tipo di caratteri da rilevare: Per agevolare l’archiviazione e le elaborazioni i caratteri qualitativi, vengono generalmente codificati attraverso una relazione biunivoca tra le loro modalità e un opportuno insieme numerico.
Cominciamo con il considerare il carattere “tipo” (4a colonna). Quando si considera l’analisi su una sola colonna della matrice dei dati si dice che stiamo effettuando un’analisi statistica univariata ovvero che analizza una variabile (se bivariata ne analizza due; se multivariata più di due). Ci chiediamo: quanti televisori sono stati venduti nel 2014? Quanti LCD e CTR? Si procederà al calcolo di quante volte si manifesta ciascuna delle modalità delle variabili considerate, ossia al calcolo delle frequenze assolute , contiamo quante volte CTR-1 e LCD-2 appaiono e otteniamo la seguente tabella: La distribuzione di frequenza relativa è spesso fornita in forma percentuale. Tale rappresentazione si ottiene moltiplicando per 100 tutti i valori delle frequenze relative: CRT 20%, LCD 46,67%, PLASMA 33,33%. Riassumendo: ● Si definisce frequenza assoluta il numero di unità statistiche che presenta tale modalità del carattere ● frequenza relativa la proporzione tra il numero di unità statistiche che presenta tale modalità e il tot. delle unità statistiche considerate. ● frequenza percentuale , la proporzione tra il numero di unità statistiche che presenta tale modalità e il tot. delle unità statistiche prese in esame x 100****. Ad esempio, possiamo vedere che nel corso del 2014, sono stati acquistati 14 televisori LCD e solo sei televisori tradizionali. Dividendo ogni frequenza assoluta per il totale delle unità statistiche considerate (nel nostro caso 30) si ottiene la distribuzione di frequenza relativa (si indica con i fi ), che possiamo rappresentare nella tabella di fianco. Nella costruzione di una tabella del tipo mostrato si definisce frequenza assoluta ( ni ) corrispondente ad una certa modalità il numero di unità statistiche che presenta tale modalità. La tabella in cui raccogliamo le frequenze assolute con le corrispondenti modalità viene denominata distribuzione di frequenza ( assoluta ) del carattere considerato, nel nostro esempio, il carattere tipo.
Prendendo in considerazione il carattere marca , otteniamo la seguente tabella. Consideriamo il carattere dimensione espresso in pollici. La tabella associata a tale carattere riportata a fianco, come si può vedere, non è di facile lettura, perché troppo analitica. Per renderla più leggibile è necessario il raggruppamento dei dati in classi. Scegliamo di costruire le classi chiuse sia a sinistra sia a destra , vuol dire che gli estremi della distribuzione sono compresi nella classe. Ad esempio, nella classe 43|__|46 sono state inserite le frequenze relative ai televisori che vanno da 43 pollici a 46 pollici. Tuttavia, si possono costruire classi aperte o chiuse (nel primo caso gli estremi inferiore e superiore sono esclusi dalla classe, nel secondo caso sono compresi). Per indicare se la classe è chiusa si utilizza una barra verticale. Raggruppare i dati provoca una perdita d’informazione perché non risultano più distinti tra loro i valori che cadono all’interno di una stessa classe. La perdita di informazione è maggiore quanto più grande è la classe. La tabella per dati raggruppati, però, è più leggibile ed è più facile darne una descrizione sintetic a. Ci chiediamo ora: quanti televisori sono stati venduti di dimensione minore di 38 pollici, oppure, maggiore di 51? Per rispondere alla prima domanda occorre sommare le frequenze minori di 38 , nella tabella avremo: 5 + 2 + 4 = 11 televisori , nel secondo caso, avremo 4 televisori. Operando sulla tabella otteniamo la nuova tabella delle frequenze assolute, cumulate e percentuali (si indicano, rispettivamente, con Ni e Fi ). Si dice distribuzione di frequenza cumulata di un carattere la distribuzione che associa ad ogni valore la frequenza (assoluta, relativa o percentuale) dei valori osservati minori o uguali. Operativamente, la frequenza cumulata , indicata con Ni , è la somma delle frequenze corrispondenti a tutti i valori minori o uguali del valore considerato. In modo analogo alle frequenze, anche le frequenze cumulate possono essere relative oltre che percentuali, la distribuzione che si ottiene si chiama funzione di ripartizione empirica. RAPPRESENTAZIONI GRAFICHE Una volta effettuata l’analisi di frequenza è necessario rappresentare graficamente i risultati. IL DIAGRAMMA A BARRE Un diagramma a barre (o a colonne) consiste in una successione di colonne, segmenti verticali o rettangoli che indicano le modalità del carattere la cui altezza è uguale o proporzionale alla frequenza (assoluta, Una distribuzione statistica univariata è una coppia di insiemi di cui il primo è l’insieme delle modalità o dei valori assumibili dal carattere considerato, il secondo, in corrispondenza con il primo, è l’insieme costituito dalle frequenze che ogni valore o modalità presenta nella matrice dei dati considerata. La distribuzione statistica fornisce un modello più compatto di rappresentazione dei dati che risultano, pertanto, più organizzati e quindi più leggibili.
ampiezza diversa. La classe 28 e oltre viene riferita all’intervallo 28-30, essendo 30 il massimo voto. Per prima cosa, sarà necessario calcolare l’ampiezza di ciascuna classe per poter individuare la base di ciascun rettangolo. Una volta calcolata l’ampiezza si potrà misurare la densità (altezza) di ciascuna classe, dividendo la frequenza di ogni classe per l’ampiezza della classe stessa. Dal momento che l’occhio percepisce meglio l’andamento di un fenomeno se è rappresentato con una linea , si possono considerare i punti medi della base superiore di ciascun rettangolo e unirli con una spezzata, ottenendo così la spezzata delle frequenze o poligonale di frequenza. IL CARTOGRAMMA I cartogrammi sono utilizzati quando si deve rappresentare un fenomeno secondo una ripartizione territoriale. In questo caso si preferisce utilizzare una carta geografica. L’andamento del fenomeno è evidenziato con diverse colorazioni delle aree secondo una scala di graduazione riportata sul cartogramma. L’IDEOGRAMMA Gli ideogrammi sono rappresentazioni grafiche effettuate con figure reali schematizzate che traducono, in modo visivo, la natura del fenomeno considerato. Sono facili da comprendere ma difettano in precisione. Nel grafico è rappresentata la stima del numero di pc nel 2099 in ciascun continente. STATISTICA AURORA PUGLIA- UNITA’ 2- INDICI DI POSIZIONE VALORI SINTETICI INTRODUZIONE Gli indici statistici descrittivi hanno lo scopo di mettere in luce particolari aspetti di una distribuzione statistica e sono ritenuti utili per la soluzione di determinati problemi. Vengono utilizzati come sintesi dell’informazione fornita dalla distribuzione, di cui sono considerati valori rappresentativi. Un valore rappresentativo di un’intera distribuzione, per esempio un valore attorno a cui i dati si “addensano”, viene denominato indice di posizione. La conoscenza di un indice di posizione non può sostituire, in ogni circostanza, quella dell’intera distribuzione. Poiché distribuzioni diverse possono dare luogo ad uno stesso indice di posizione, è opportuno disporre almeno di un ulteriore indicatore il quale misuri la complessiva distanza dei valori della distribuzione: indice di dispersione. INDICI DI POSIZIONE Gli indici di posizione sono anche detti medie e si distinguono in medie analitiche e di posizione. Le medie analitiche si possono applicare soltanto a caratteri quantitativi e sono calcolate mediante operazioni algebriche a partire dalle misure osservate. Le medie di posizione richiedono operazioni quali l’ordinamento ed il confronto dei dati ed esse possono essere applicate sia a caratteri qualitativi ordinati che a caratteri quantitativi. La moda è l’unico indice che può essere utilizzato anche per caratteri qualitativi Osserviamo i due diagrammi a barre riportati in alto, entrambe le distribuzioni rappresentate hanno media uguale a 6 , ma dispersione diversa: la prima a sinistra risulta meno dispersa rispetto alla seconda.
sconnessi. Sono medie analitiche : media aritmetica , armonica e geometrica. Sono medie di posizione: mediana , quartili e moda. LE MEDIE ANALITICHE ۞۞MEDIA ARITMETICA La media aritmetica , o media , fornisce una misura dell’intensità complessiva del fenomeno ripartita in maniera esatta fra tutte le osservazioni. La media aritmetica di n misure (valori x 1 , x 2 , x 3 , …, xk) è il numero reale M che si ottiene dividendo la loro somma per il numero n dei dati stessi. È il più famoso valore di sintesi della tendenza centrale di una distribuzione. Ognuno di noi ha già incontrato il concetto di media aritmetica nella vita (es. per dividersi con i fratelli le caramelle ricevute in regalo). Si può anche scrivere : Esempio: La media aritmetica dei seguenti valori: 7, 13, 21, 40, 100 è data dalla somma di detti termini
Più in generale, se in una distribuzione il valore xi compare con la frequenza ni ( i= 1,2, …, k ) dove k rappresenta il numero delle modalità del carattere, in modo che risulti n1 + n2 + n3 +... + nk = n , si può applicare la seguente formula della MEDIA PONDERATA : ۞۞MEDIA ARITMETICA PONDERATA La media aritmetica calcolata utilizzando le frequenze si chiama media aritmetica ponderata dei k valori x 1 , x 2 , x 3 ,……, xk di pesi rispettivi n 1 , n 2 , n 3 ,……., nk. Se i dati sono organizzati in classi, per calcolare la media è necessario cercare il valore centrale di ciascuna classe , operando prima la semisomma dei due estremi e poi procedendo come nel caso della distribuzione di frequenza. Il ricorso al valore centrale della classe equivale ad ipotizzare che la frequenza del carattere sia concentrata su tale valore. Ad esempio, se 1.500 individui appartengono alla classe di età 0- 14 , ai fini del calcolo della media significa che si attribuisce agli individui un’età pari a 7 (semisomma delle età 0 e 14). ESEMPIO: Riprendiamo la nostra indagine sui televisori venduti e calcoliamo la media aritmetica della variabile “dimensione del televisore” a partire dalla distribuzione per classi. o dove il simbolo ∑ (detto sommatoria) indica la somma dei termini xi, attribuendo ad i, successivamente, tutti i valori compresi tra 1 ed n. o, in formula più compatta M= (7X5) +(13X5) +(21X5) +(40X5) +(100X5) :25 =36,
Data la distribuzione di n valori x 1 , x 2 , x 3 , ……, xk non nulli , di un carattere quantitativo, si dice media armonica di tali valori , quel valore che se sostituito ai valori originari x, lascia invariata la somma dei reciproci. ESEMPIO: Reciproco di x= 1/x; Reciproco di 2= 1/2 = 0, La media armonica viene utilizzata quando i termini di un fenomeno sono il reciproco di un altro di cui si conoscono già i dati. Un esempio tipico è il potere d’acquisto della moneta che è uguale al reciproco del prezzo della merce , quindi, per trovare il potere d’acquisto medio si calcola la media armonica dei prezzi. ESEMPI: ●Un bene ha, su vari mercati, i seguenti prezzi: 9,5 10 12 13,5 15. Calcoliamo il potere d’acquisto medio rispetto a 1 euro. I relativi poteri d’acquisto riferiti a 1 euro sono: 0,105 (1/9,5) 0,100 (1/10) 0, 0,074 0,067 e la loro media aritmetica semplice è: il cui reciproco è 1,16 che ci fornisce il prezzo medio nei 5 mercati , applicando direttamente la media armonica: ●Caso Ponderato: Carattere Xi 1,2,3/ Frequenza Ni 7,5,3/ Totale N= 15 Ma =
●Un altro caso in cui viene utilizzata la media armonica è la velocità media che si calcola come media armonica delle velocità registrate , in quanto il reciproco della velocità è uguale al tempo occorso per un’unità di spazio. Dobbiamo determinare la velocità media impiegata per percorrere la distanza di km 500 da tre auto, conoscendo i tempi impiegati da ciascun veicolo: Prima auto (5h 20m 10’), seconda (5h 00m 5’) e terza (4h 58m 30’). Calcoliamo la media armonica dei tempi impiegati, ottenendo il tempo medio. Dalla formula della velocità ۞۞MEDIA GEOMETRICA Dati n valori positivi x 1 , x 2 , x 3 , ……, xk che rappresentano le misure di un carattere quantitativo, si dice media geometrica semplice la radice n-esima (n e il totale dei numeri presenti) del loro prodotto dei valori considerati: Quindi, dati n numeri positivi x 1 .., xk la definizione di media geometrica stabilisce che tale tipo di media si ottiene estraendo la radice n-esima del loro prodotto. I numeri devono essere positivi altrimenti il loro prodotto sarebbe nullo perché uguale a zero. Come considerato per la media aritmetica, nel caso in cui le misure siano fornite mediante distribuzione di frequenza in cui il valore xi compare con la frequenza ni (i =1, 2, ..., k), avremo che : se x1è presente n volte, dovendo eseguire un prodotto , si dovrà moltiplicare x1 n1 volte , questo coincide con l’elevare alla n1 il valore 1x, questa proprietà vale per tutti i termini. L’impiego della media geometrica dipende dalla natura del problema , essa è più adatta quando si richiede un indice che consenta una equiripartizione del prodotto dei termini. In generale la usiamo nel caso in cui i dati rappresentano un fenomeno che abbia una tendenza ad aumentare o diminuire in progressione geometrica. La media geometrica dei reciproci è uguale al reciproco della media geometrica.
Esempio: Si sono rilevati i prezzi al consumo delle mele verdi in quattro città. Calcolare il prezzo medio tramite la media geometrica LE MEDIE DI POSIZIONE ۞۞MODA Nel modo comune di dire ‘’quest’anno va di moda” significa indicare qual è la tendenza comune alla maggioranza degli individui. Può essere calcolata per qualsiasi tipo di variabile, sia per dati qualitativi che quantitativi****. In statistica la moda di una serie di n dati è il valore/classe che presenta la maggior frequenza. Può accadere che nessuna classe o nessun valore sia più frequente di altri, come pure che due classi abbiano frequenza più elevata (comportamento bimodale). Esempio: Riprendiamo l’indagine sui televisori e calcoliamo la moda della distribuzione “tipo”. Il valore di massima frequenza appartiene alla modalità LCD con 14 televisori venduti. ۞۞MEDIANA La mediana , detta anche valore centrale o mediano , di una serie di n dati ordinati è rappresentata dal valore centrale (se n è dispari) o dalla media aritmetica dei due valori centrali (se n è pari). La mediana ha il compito di separare le osservazioni in due parti esattamente uguali (un 50% di valore inferiore e un 50% di valore superiore alla mediana stessa). Se la distribuzione è semplice basta disporre i termini in ordine crescente o decrescente e individuare: ●se n è dispari il valore centrale: 20, 25, 32 , 33, 50 ( 32 è la mediana ) ●se n è pari 15, 21, 25, 32 , 33, 40, non abbiamo un termine centrale, bensì due: 25 e 32 , la mediana si ottiene calcolando la media aritmetica dei due termini 25+32/2=28, In generale ●se n è dispari la mediana è rappresentata dal termine che occupa il posto; ●se n è pari la mediana è rappresentata dalla media aritmetica dei termini che si trovano a Nel caso di distribuzione di frequenza è opportuno ricorrere alle frequenze cumulate- ESEMPIO: Calcolare la mediana dei voti all’esame di statistica di 25 studenti riportati nella seguente tabella. Qualora nel caso N fosse pari e le due modalità in posizione centrale fossero uguali ad uno stesso valore, la mediana sarebbe unica e corrisponderebbe a tale valore. ●Il calcolo della mediana è agevole nel caso venga effettuato sulla distribuzione di frequenza che contenga le percentuali cumulate. La mediana coinciderà con la modalità in corrispondenza della quale la percentuale cumulata per la prima volta sia maggiore o uguale al 50% ●Nelle variabili qualitative ordinate si ha una particolare situazione quando N è pari e le due modalità centrali sono diverse ESEMPIO: Titolo di studio osservato su un gruppo di N=6 studenti. Le modalità osservate sono: Elementare, Elementare, Media, Diploma , Diploma, Laurea. Le due mediane saranno: Essendo n = 25, la mediana si troverà a = 13° posto, dall’esame delle frequenze cumulate si può osservare che il tredicesimo studente si trova tra quelli che hanno preso 20. Quindi il valore mediano è pari a 20.
ALTRO ESEMPIO : Data la seguente distribuzione di 5 termini 1, 1, 2, 3, 4 , determina i quartili : Per poter determinare i quartili occorre portare la distribuzione ad un numero di termini divisibile per 4 , moltiplicando ciascun termine per 4 si ottengono 20 termini (5x4) perché 5 non è divisibile per 4: ▪Il 1° quartile, essendo n pari, sarà la semisomma tra cioè 5° e 6° termine (20/4 e 20/4+1). ▪Il 2° quartile, essendo n pari, sarà la semisomma tra: cioè il 10° e 11° termine (20/2 e 20/2+1). ▪Il 3° quartile, essendo n pari, sarà la semisomma tra: , cioè tra il 15° e 16° termine (3/4x20 e 3/4x20+1). INIDICI DI DISPERSIONE È opportuno completare la descrizione del collettivo, utilizzando indici che permettano di valutare la variabilità delle osservazioni. I principali indici di dispersione (o di variabilità ) sono: campo di variazione, varianza, deviazione standard, scarto semplice medio e coefficiente di variazione. Tali indici sono utilizzati per sintetizzare di quanto la distribuzione statistica sia addensata attorno ad una misura di localizzazione. IL CAMPO DI VARIAZIONE Il campo di variazione-CV ( range-R ) è dato dalla differenza tra il valore più grande e quello più piccolo del campione. ESEMPIO: Due aziende (A e B) producono succhi di frutta in bottiglie della capacità di 1 litro. Si prendono a caso in esame 5 bottiglie dei succhi A e B e si rileva, il contenuto di ciascuna bottiglia: CAMPIONE A: 0,97/1,00/0.94/1,03/1,06=MEDIA 1,00 ||| CAMPIONE B: 1,06/1,01/0,88/0,91/1,14=MEDIA 1, Come si vede, la media dei due campioni è del tutto identica e vale esattamente 1 litro. Il calcolo del campo di variazione [ CV(A) =1.06 − 0.94 = 0.12 CV(B) =1.14 − 0.88 = 0.26 ] permette di dire che , in base ai campioni, il contenuto effettivo delle bottiglie del campione B presenta maggiore variabilità di quello di A. ALTRO ESEMPIO: ● Abbiamo rilevato i seguenti voti di laurea di due gruppi di N=5 laureati. Primo gruppo 97 99 99 99 101. Secondo gruppo 88 90 99 108 110. È evidente che nel primo gruppo la variabilità dei voti è minore che nel secondo gruppo ( 3 voti su 5 coincidono ). Osserviamo inoltre che in entrambi i gruppi il voto di laurea medio è 99. Se applichiamo la formula: CV (o R) = valore max–valore min. otteniamo nel primo gruppo un CV di 4 mentre nel secondo gruppo un CV di 22. Poiché R è maggiore nel secondo gruppo questo costituisce un primo indizio di una maggiore tendenza a variare della variabile nel secondo gruppo. ●Una limitazione che caratterizza R è che dipende soltanto da due valori , e non tiene conto della variabilità interna all’intervallo Il problema si porrebbe ad esempio qualora volessimo confrontare i due gruppi di voti di laurea seguenti: Primo gruppo 88 99 99 99 110 Secondo gruppo 88 90 99 108 110. In entrambi i casi è R=22 , pur essendo evidente che anche in questo esempio il secondo gruppo di voti è più variabile del primo. Per ovviare al problema , ci si potrebbe restringere ad analizzare la variabilità delle modalità osservate che occupano la posizione centrale della distribuzione. Ad esempio, si potrebbe calcolare la lunghezza dell’intervallo tra il 1o quartile Q1 e il 3o quartile Q3 ( Differenza o Scarto interquartile: SQ= Q3 - Q1 ). LO SCARTO INTERQUARTILE
Lo scarto interquartile è dato dal valore assoluto della differenza tra il 3° e il 1° quartile :. Esso delimita la zona centrale della distribuzione che contiene il 50% delle osservazioni. Anche noto come campo di variazione interquartile è un’altra misura di variabilità non influenzata dai valori estremi - Nel primo gruppo 99(Q3)-99(Q1)= 0 ; Nel secondo gruppo 108(Q3)-90(Q1)= Sono inoltre, riportati: il valore minimo della distribuzione (1o segmento verticale) e il valore massimo (ultimo segmento verticale). La dimensione dell’altezza (base se messo verticale) del rettangolo e la posizione non rappresentano alcuna informazione. Anche se il campo di variazione è un indice di variabilità piuttosto elementare , in molti processi produttivi è l’unico indice utilizzato come elemento di controllo del processo stesso. Indipendentemente dalla variabilità che caratterizza le unità prodotte, il processo produttivo sarà ritenuto soddisfacente solo se le misure ricadranno all’interno del range prefissato. Se, però, si vuole tenere conto anche dei valori intermedi occorre utilizzare qualche altro strumento. La prima cosa che viene in mente è di “misurare” quanto i singoli valori differiscano dalla media della distribuzione. Supponiamo che la media in questione sia la media aritmetica (ma può essere un altro valor medio qualsiasi). Possiamo calcolare gli scarti dalla media cioè le differenze fra ciascun valore osservato e la media aritmetica. Poiché la media è compresa fra il valore più piccolo e quello più grande, alcuni scarti sono positivi e altri negativi. Esempio: ● Calcoliamo gli scarti dalla media aritmetica per i dati delle due aziende produttrici di succhi di frutta. Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il valore della media. Il grafico di fianco, il Box-plot , rappresenta in modo compatto la distribuzione statistica attraverso alcuni indici sintetici : ● Indici di posizione (misurati con la mediana ed i quartili): rappresentati nel grafico con una linea all’interno del box (mediana ) ed i due estremi del box stesso (primo e terzo quartile). ● Indice di variabilità (misurato con la differenza interquartile): rappresentato dalla base del rettangolo (box). ES.: Supponiamo di voler confrontare il peso alla nascita (in once) di neonati da madri fumatrici e non. La variabilità dei pesi, misurata con lo scarto interquartile risulta Il box-plot è un ottimo strumento per visualizzare le diff. tra i due gruppi. Nella tabella sono riportati i pesi relativi ai neonati provenienti da madri fumatrici e non; i neonati di madri fumatrici hanno mediamente un peso alla nascita inferiore rispetto a quello delle madri non fumatrici. Tutti e tre gli indici di posizione (Q1, Q e Q3) sono minori nel gruppo dei neonati provenienti da madri fumatrici. Range: MAX-MIN Range Interquartile: Q3-Q ↓↓↓↓↓↓
●Ma anche nell’esempio dei voti di laurea: (-11)2 =121 (0)2 = 0 (0)2 = 0 (0)2 = 0 (11)2 =121. Calcoleremo quindi la media aritmetica dei quadrati degli scarti appena calcolati: 121+121:5=48, DEVIAZIONE STANDARD Per misurare il grado di variabilità di una distribuzione, è preferibile, calcolare la radice quadrata (positiva) della varianza. Infatti, lo scarto quadratico medio , o deviazione standard o scarto standard si ottiene dal calcolo della radice quadrata della varianza :. Come per la varianza, maggiore è la variabilità dei valori di un insieme di dati e maggiore è la deviazione standard, la quale assume valore nullo solo nel caso in cui tutti i valori siano uguali. La deviazione standard è l’indice di variabilità più utilizzato nelle applicazioni, poiché ci consente di capire quanto la media (es. punteggio medio della classe, voto medio all’esame, reddito medio delle famiglie) sia rappresentativa dell'intera distribuzione. Esempio: ● Calcoliamo lo scarto quadratico medio o deviazione standard dei due campioni A e B.
●Anche nell’esempio dei voti di laurea la media degli scarti (48,4) non è ancora confrontabile con i voti di laurea dei cinque studenti, essendo basata sui quadrati degli scarti. Per consentire tale confronto procederemo ad effettuare sulla media ottenuta l’operazione inversa del quadrato, ossia la radice quadrata
media, ci dice che mediamente i voti di laurea dei 5 studenti del primo gruppo si discostano dal voto 99 di circa 7 punti (se facciamo i calcoli anche per il secondo gruppo la deviazione standard è di 8,89 e, quindi, deduciamo che nel secondo gruppo mediamente i voti di laurea si discostano di circa 9 punti dal voto medio 99. Abbiamo quindi verificato che nel 2o gruppo esiste una maggiore variabilità rispetto al primo. GLI SCOSTAMENTI SEMPLICI MEDI Altre misure di variabilità sono gli scarti semplici medi che si ottengono come media aritmetica delle differenze , in valore assoluto , tra i valori osservati x 1 , x 2 , x 3 , ……, xn di una variabile x e un indice di posizione. A seconda della media scelta si può ottenere uno specifico scarto semplice medio : -Se come media scegliamo la media aritmetica M , si ha lo scarto semplice medio dalla media aritmetica -Come la deviazione standard, anche questo indice di dispersione è omogeneo e si annulla solo quando tutte le unità presentano la stessa modalità. Se invece consideriamo le differenze dalla mediana otteniamo lo scarto semplice medio dalla mediana Questo è ancora un indice omogeneo e, inoltre, gode di una proprietà di minimo analoga a quella di cui gode σ rispetto alla media. Proprietà: la somma degli scarti in valore assoluto dalla mediana è un minimo IL COEFFICIENTE DI VARIAZIONE
Tutti gli indici presentati, non consentono di effettuare confronti essendo legati all’unità di misura attraverso la quale è espresso il fenomeno. Chiaramente la variabilità delle misure non dipende dall’unità di misura utilizzata, così per rendere più facilmente confrontabili le misure della dispersione si costruisce il coefficiente di variazione. Il coefficiente di variazione - CV , è il rapporto tra il valore della deviazione standard e il valore della media. L’indice ottenuto è un numero puro indipendente dall’unità di misura utilizzata perché dividendolo per la media relativizziamo il valore della deviazione standard in proporzione a quello della media. Il valore di può essere moltiplicato per cento per avere una misura dell’incidenza percentuale della deviazione standard sulla media. ATTENZIONE: non deve essere confuso con il campo di variazione R introdotto in precedenza, quest’ultimo è basato soltanto su due valori (massimo e minimo) della distribuzione. Esempio- In un collettivo in cui sono state rilevate le stature e i pesi, risulta : Come si può notare, c’è una maggiore variabilità per la variabile peso rispetto all’altezza (quasi il triplo). LA FORMA DI UNA DISTRIBUZIONE Gli indici di posizione e di variabilità di una distribuzione di frequenza non esauriscono le informazioni contenute nei dat i. Un altro aspetto da prendere in considerazione è la forma. Quando si parla di forma ci si riferisce , in particolare a due aspetti : ▪ La simmetria o meno di una distribuzione rispetto al centro di gravità o media aritmetica ; ▪ Il grado di appiattimento della distribuzione rispetto ad una distribuzione particolare che viene chiamata distribuzione. Quale delle due distribuzioni è più dispersa? Risulta più variabile il peso o la statura? Calcoliamo il coefficiente di variazione nei due gruppi: Cvx100= 11,2% e 4,5%