Scarica Introduzione Distribuzioni Statistiche: Unità, Caratteri, Distribuzioni e più Dispense in PDF di Statistica solo su Docsity!
ASPETTI INTRODUTTIVI SULLA METODOLOGIA STATISTICA: LEZIONE 1
La statistica ha come oggetto di studio i dati, i quali sono numeri inseriti in un contesto che rende il numero informativo. La statistica utilizza i dati per comprendere meglio la realtà e trarre conclusioni. I suoi strumenti – sia grafici che numerici – devono essere, però, utilizzati e interpretati con una certa attenzione e seguendo ragionamenti opportuni. La statistica è una disciplina che studia e appronta una serie di metodi e di strumenti adatti all’analisi quantitativa dei dati su cui agiscono molte cause al fine di individuare i tratti essenziali dei fenomeni osservati, o le regole che presiedono alla manifestazione di certi risultati. Il metodo statistico si interessa dei fenomeni collettivi, cioè di quei fenomeni che si manifestano solo su di una massa di osservazioni (cioè di fatti riferiti a insiemi di unità e non a singoli casi). L’indagine statistica: Ogni studio o indagine statistica comporta lo svolgimento di diverse operazioni che variano da ricerca a ricerca: dal momento della definizione del problema da analizzare, alla raccolta dei dati, alla elaborazione degli stessi, ai risultati. Diagramma dell’analisi statistica: In ogni analisi statistica, il primo passo da compiere consiste nel “FAR PARLARE IN MODO CHIARO I DATI” e ascoltare quello che essi dicono. Soltanto organizzando attentamente i dati, costruendo grafici e tabelle e ponendo domande specifiche è possibile far parlare in modo chiaro i numeri. Le fasi di un’indagine statistica:
- Piano della rilevazione: Riguarda la definizione del problema da analizzare in tutti i suoi aspetti (scientifici, statistici, organizzativi, economici, etc). Definizione della: scelta del campo di indagine, scelta del metodo di rilevazione (diretto, indiretto o sperimentale – definire il piano (protocollo) degli esperimenti), scelta dell’epoca di rilevazione, scelta degli strumenti necessari alla rilevazione (questionari, apparecchi per analisi cliniche), tempi e costi e la diffusione dei risultati.
- Raccolta dei dati: consiste nella costituzione della documentazione statistica di partenza, ossia nella rilevazione materiale dei dati secondo le modalità definite nella fase preparatoria: sarà costituita da tutti i questionari compilati, da tabulati. Sebbene si tratti di materiale grezzo esso costituirà la base di partenza per la formazione dei dati statistici necessari alle successive analisi.
- Classificazione e lo spoglio dei dati: La classificazione dei dati riguarda la sistemazione dei dati grezzi in forma statisticamente trattabile. L’operazione di Classificazione (mediante lo spoglio dei dati contenuti nella documentazione statistica di partenza) si identifica con l’individuazione di una procedura che permette di assegnare ogni oggetto ad una ben definita classe, oppure nel determinare ed assegnare un codice, una etichetta, ad ogni oggetto.
- Elaborazione dei dati: Tale fase riguarda tutte le possibili elaborazioni dalle più elementari alle più complesse, che possono essere effettuate, secondo gli scopi della ricerca, a partire dal data file creato nella fase precedente in cui si trasformano i microdati in macrodati tramite opportune aggregazioni; ad esempio: formazione di tabelle semplici o multiple, calcolo di indici, medie, correlazioni, rappresentazioni grafiche. In questa fase si applicano i procedimenti propri della metodologia statistica.
- Interpretazione dei risultati: Questa fase riguarda l’analisi dei risultati ottenuti e l’isolamento di risultati significativi emersi dalle analisi effettuate. Questo è il momento più complesso e delicato dell’intera indagine statistica, ma anche quello più creativo. Bisogna stare molto attenti, per non correre il rischio di false interpretazioni del fenomeno. Nomenclatura statistica: Unità statistiche, Popolazione (o collettivo statistico), Caratteri statistici, Distribuzioni statistiche.
- Unità statistiche: Si definiscono unità statistiche le unità elementari, su cui vengono osservati i caratteri oggetto di studio. Ad esempio: se vogliamo analizzare l’attività turistica di una regione le unità statistiche sono le aziende turistiche, se vogliamo analizzare la forza lavoro le unità statistiche sono i singoli addetti. Distinguiamo: unità statistiche semplici (sono quelle che rappresentano un solo elemento) e unità statistiche composte (sono quelle che rappresentano più elementi). Le unità statistiche possono essere rappresentate da: persone o essere viventi, oggetti (merci, abitazioni), territori (Regioni, Province), tempi (anni di calendario, mesi, entità (imprese, istituzioni scolastiche o sanitarie).
- Popolazione (o collettivo statistico): L’insieme di più unità statistiche omogenee rispetto ad una o più caratteristiche costituisce un collettivo statistico o una popolazione. Il numero delle unità statistiche di un collettivo costituisce la numerosità del collettivo che indichiamo con N. Abbiamo visto come il collettivo statistico è l’insieme delle unità statistiche a cui lo studioso è interessato - Finito od infinito? - Empirico o teorico? Esempio: le lampadine prodotte da un’industria costituiscono un collettivo empirico e finito, I sieropositivi possono essere un collettivo teorico infinito. Collettivo di stato: insieme di unità statistiche individuabili in maniera esatta solo in un preciso istante di tempo (esempio: gli esercizi commerciali di Termoli il 20 agosto 2018) Collettivo di movimento: insieme di unità statistiche individuabili in maniera esatta solo in un preciso periodo di tempo (reddito speso dai turisti nel comune di Termoli fra il 10 ed il 20 agosto 2018).
- Caratteri statistici: si definiscono caratteri le caratteristiche del collettivo statistico. Esempi: la temperatura, la superficie destinata alla produzione agricola di una azienda, il sesso, le caratteristiche chimiche di un prodotto, la professione, il titolo di studio, il reddito. Le caratteristiche assunte da ogni singola unità statistica del collettivo si chiamano modalità del carattere. Esempio: Unità statistiche: (particella 1,2,3,4) Popolazione (collettivo): {Particella 1, Particella 2, Particella 3, Particella 4} Caratteri: (Superficie, Zona altimetrica, Tipo di coltura); Modalità: (12000 m2, …4000 m2, Montagna, Collina, Pianura, Bosco, Granturco, Grano, Farro). Ad esempio, il carattere Zona altimetrica assume la modalità Pianura in corrispondenza dell’unità statistica rappresentata dalla Particella 3. Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità del carattere devono essere: esaustive, ossia devono rappresentare tutti i possibili modi di essere del carattere (maschio e femmina), non sovrapposte, ossia ad ogni unità statistica si può associare una sola modalità del carattere (o è maschio o è femmina). Distinguiamo inoltre: Caratteri quantitativi (variabili statistiche): le modalità sono espresse numericamente (età in anni compiuti o in classi di età, numero dei componenti la famiglia, la temperatura in gradi centigradi, etc.); Caratteri qualitativi (mutabili statistiche): se le modalità del carattere sono qualitative, ossia espresse da numeri convenzionali (il sesso in uomini (1) e donne (2); le professioni in libero professionista (1), dirigente (2), impiegato (3), i giorni della settimana, etc.;) Caratteri discreti: quando l’insieme delle modalità può essere messo in corrispondenza biunivoca con l’insieme dei numeri naturali {1, 2, 3, ...} o un suo sottoinsieme (numero di clienti in fila ad uno sportello, il numero dei componenti di una famiglia, il voto all’esame di Statistica, numero di visitatori che visita un museo, il numero di turisti per regione, il numero di confezioni vendute di un dato prodotto, etc.).
massimi e dalla numerosità dei valori intermedi, - la temperatura (scala Celsius – centigrada – e scala Fahrenheit). d. Scala di rapporti: I caratteri con scala di rapporto (= caratteri proporzionali) sono variabili per le quali è intrinseca ed univoca la definizione dello zero assoluto: essi sono idonei per rappresentare la gran parte dei fenomeni fisici, temporali, spaziali, economici, etc. Esempi: è evidente il significato del valore zero per il peso di un oggetto, così come per la durata in secondi tra due spari (la durata è zero se e solo se gli spari sono contemporanei), o per il guadagno di un imprenditore (i costi e i ricavi si equivalgono nell’unità di tempo presa a riferimento), etc. Per tali variabili sono lecite tutte le operazioni aritmetiche. Tipologia e rappresentazione delle rilevazioni statistiche: L’esame di una popolazione consistente di unità statistiche, rispetto ad uno o più caratteri, NON può consistere nella pura elencazione del collettivo rispetto alle misure, alle risposte o alle opinioni registrate sulle differenti unità. Necessità di operazioni, di complessità crescente, che formano oggetto dell’analisi statistica. Un momento iniziale è il conteggio delle unità statistiche e delle sue modalità a fini di sintesi preliminare. Successivamente, occorre procedere alla organizzazione dei dati mediante la classificazione dei fenomeni (osservati o rilevati) in funzione delle loro manifestazioni (modalità). In una fase finale si può passare alla modellistica, operazione statistica mediante la quale si esplicitano legami tra i fenomeni e si modificano o si rifiutano teorie scientifiche precedenti. Rispetto alla pedante elencazione dei risultati di un’indagine, è preferibile presentare i dati statistici in una forma organizzata per semplificare confronti e analisi successive. È opportuno organizzare i risultati di un’indagine statistica enumerando e classificando modalità coincidenti in modo da fornire sintesi di migliore leggibilità per l’interpretazione dei risultati, anche a fini comparativi. In generale, i dati statistici si possono presentare in forma:
- Enumerativa: a seconda che essi siano disponibili secondo una successione di informazioni sulle singole unità statistiche.
- Tabellare: a seconda che essi siano disponibili secondo un raggruppamento di casi evidenziato in tabelle, semplici o complesse.
- Grafica: a seconda che essi siano disponibili secondo una rappresentazione grafica che evidenzi aspetti particolari nei dati. Tra le rappresentazioni più comuni abbiamo: le distribuzioni di frequenza, le serie territoriali, le serie storiche e le matrici di dati. a. Le serie storiche (o serie temporali): Esprimono la dinamica di un certo fenomeno registrato istantaneamente (variabile di flusso) o conteggiato nel periodo definito (variabile di stato). Le modalità del carattere considerato sono ordinate secondo il tempo (anni, mesi, etc.).
b. Le serie territoriali (o serie spaziali): Esprimono la distribuzione di un fenomeno in rapporto al territorio, ossia le modalità del carattere considerato sono ordinate secondo luoghi, paesi, territori. Questi studi sono oggi importanti, per esempio, nelle analisi dei sistemi ecologici e per la valutazione dell’impatto ambientale di qualsiasi innovazione sul territorio. Le analisi territoriali ultimamente si sono notevolmente sviluppate grazie alla disponibilità di software, come il GIS (Geographic Information System) che consentono di riprodurre sulle mappe del territorio le informazioni statistiche in modo da creare una immediata corrispondenza tra studio dei dati e loro rappresentazione geografica. c. Le matrici di dati: Particolari rappresentazioni tabellari mediante le quali si schematizzano le informazioni (misure, registrazioni, risposte) raccolte su ciascuna unità statistica in rapporto ad una molteplicità di fenomeni. Ogni colonna della matrice esprimerà una variabile o mutabile rilevata sulle diverse unità statistiche. Dualmente, ogni riga della matrice esprimerà ordinatamente le misurazioni ottenute sulla singola unità statistica. Lo studio delle matrici di dati è un settore delle analisi statistiche multivariate. In ogni riga, relativa all’unità statistica corrispondente, si trovano i valori delle k variabili designati con Xij per i = 1, 2, 3, …, N e j = 1, 2, 3, …, k. Nella prima colonna delle variabili si leggono le N determinazioni della variabile X1 pertinenti a ciascuna delle N unità statistiche DISTRIBUZIONI STATISTICHE LEZIONE 2 La formazione di una distribuzione statistica deriva dall’operazione di classificazione di tutte le N unità statistiche di un dato collettivo secondo la modalità del carattere posseduta da ciascuna unità. Queste possono essere: Semplici (classificazione delle N unità secondo le modalità di un solo carattere), Doppie (classificazione delle N unità secondo la combinazione delle modalità di due caratteri) e Multiple (classificazione delle N unità secondo la combinazione delle modalità di più di due caratteri).
- Distribuzioni statistiche doppie: Tabelle doppie derivate: i due caratteri considerati non sono rilevati sulle stesse unità statistiche, ossia i collettivi ai quali si riferiscono i caratteri sono diversi; tali tabelle sono costituite da più distribuzioni semplici.
Esempio: distribuzione di frequenza semplice secondo il sesso di N = 50 individui. Frequenze assolute, relative, percentuali. Richiami su alcuni operatori matematici:
- Sommatoria: La sommatoria di ai per i che va da 1 a N è così definita Può anche essere rappresentata con: Le sue proprietà sono: La sommatoria doppia di aij per i che va da 1 a N e j che va da 1 a M viene indicata con:
- Produttoria: La produttoria di ai per i che va da 1 a N è così definita: Può anche essere rappresentata con: Funzione di ripartizione empirica: Siano x1, x2, ……, xk le modalità assunte da un carattere qualitativo ordinato o quantitativo sulle N unità della popolazione. È possibile definire, per questa distribuzione, oltre alle frequenze assolute e relative, le frequenze cumulate assolute (Ni) e le frequenze cumulate relative (Fi), in questo modo: Esempio: Distribuzione delle famiglie rispetto alla variabile “n° di componenti”. Frequenze assolute, relative, percentuali, cumulate. Perché usiamo le frequenze relative? Utili per confrontare diversi collettivi (esempio donne e uomini e voto di maturità) Le frequenze assolute dipendono dalla numerosità del collettivo, mentre quelle relative e percentuali si riferiscono ad un collettivo formato da 1 o 100 unità.
Esempio: Pregi e difetti: Una tabella di frequenze - sintetizza l’informazione raccolta - Ci fa perdere l’informazione su CHI ha risposto in un certo modo al quesito - Talvolta l’informazione su chi ha risposto alla domanda deve essere oscurata per la privacy RAPPRESENTAZIONI GRAFICHE La scelta fra una tabella ed un grafico si basa su alcuni principi: Tipo di “pubblico” (figure per pubblicazioni di tipo divulgativo, tabelle per quelle più scientifiche), Se si vuole descrivere un trend o una differenza è meglio un grafico, Se si vuole dare un’informazione puntuale allora è meglio una tabella. ✓ Rappresentazioni grafiche delle distribuzioni statistiche: Hanno lo scopo di illustrare mediante figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali una distribuzione di frequenza o di quantità in funzione delle modalità, qualitative o quantitative, di uno o più caratteri. Vantaggi rispetto alla rappresentazione in forma tabellare di una distribuzione di frequenza o di quantità? Consente una visualizzazione immediata del fenomeno e della struttura della distribuzione - Consente, con notevole sintesi e in poco spazio, il confronto tra più distribuzioni - Ha potenzialità investigative (mette in rilievo casi “anomali” che possono essere dovuti a errori o a casi “anomali” che suggeriscono ulteriori approfondimenti). Esistono moltissimi tipi di rappresentazioni grafiche, rese possibili anche dall’attuale sviluppo di software (Excel, Corel, Paint, etc.). Anche nei vari packages statistici (R, SAS, SPSS, SPAD, etc.) sono previsti appositi programmi che consentono la rappresentazione grafica delle distribuzioni statistiche. Per ogni distribuzione statistica semplice, doppia o multipla esiste il tipo di rappresentazione grafica adatta. Inoltre, una stessa distribuzione può essere rappresenta con più tipi di grafici. In genere esistono dei vincoli tra tipo di rappresentazione grafica e livello di misurazione dei caratteri da rappresentare che vanno rispettati affinché questa sia corretta e non dia una visione distorta del fenomeno. Nella scelta di una rappresentazione grafica il criterio dovrebbe essere quello della rappresentazione adatta alla natura dei dati, semplice e autoesplicativa. Una rappresentazione grafica è utile ed efficace se contiene con immediatezza e chiarezza tutte le informazioni necessarie alla comprensione dei dati in essa contenuti. In un grafico devono figurare: Titolo (deve indicare chiaramente l’oggetto, il luogo, l’epoca cui i dati si riferiscono), Carattere con le rispettive modalità in funzione delle quali sono classificate le unità statistiche, Chiara indicazione dell’unità di misura impiegata per graduare gli assi e Fonte di provenienza dei dati
LEZIONE 3
- Cartogrammi, mappe sociali: Sono indicati a rappresentare graficamente serie territoriali. Per costruire un cartogramma occorre predisporre di una carta geografica o topografica in cui siano chiaramente delimitate le diverse zone, regioni, circoscrizioni (geografiche, politiche, amministrative) rispetto alle quali viene analizzata l’intensità o la frequenza di uno o più caratteri (nati, morti, reddito pro-capite secondo le Regioni, Province, Comuni). ✓ Rappresentazioni grafiche di caratteri quantitativi: Distribuzione di frequenza di un carattere X suddiviso in k classi si rappresenta con un istogramma di frequenza Esempio: distribuzione di frequenza semplice secondo la statura espressa in classi di valori (in cm) di N = 50 individui. Frequenze assolute, relative, percentuali. …costruire piramidi di età… (vedi slide lezione 3 numero 29) Indicatori sintetici delle distribuzioni di frequenza: La sintesi di una distribuzione di frequenza va ricercata in funzione dell’obiettivo da raggiungere, ad esempio: esprimere il divario di affluenza dei turisti tra due regioni, fornire una valutazione media, valutarne la rappresentatività, etc. È necessario esplicitare quali aspetti di una distribuzione di frequenza si intendono esaminare e poi individuare le misure più adatte. Gli aspetti più importanti di una distribuzione di frequenza riguardano:
- La posizione: La misura della sua centralità complessiva rispetto alle modalità e alle rispettive frequenze. La sintesi dovrà essere: un valore rappresentativo della variabile nella sua globalità, espresso nella stessa unità di misura del fenomeno e capace di sostituire in qualche modo tutte le osservazioni.
- La variabilità: La mutevolezza dei dati nella popolazione, o come si suol dire l’attitudine della variabile ad assumere diverse modalità. La sintesi dovrà essere capace di graduare più fenomeni in termini di: - dispersione, variabilità, cambiamenti, - accentramenti rispetto alle osservazioni, - stabilità, affidabilità. La variabilità include al suo interno numerosi aspetti che richiedono misure differenti.
- La forma: L’aspetto complessivo della distribuzione di frequenza rispetto a configurazioni standard. La sintesi dovrà misurare: - la simmetria della distribuzione (rispetto ad un punto notevole, come ad esempio una misura di posizione), - l’accentuazione o l’appiattimento delle modalità più frequenti, - il peso relativo degli estremi rispetto ai valori centrali della distribuzione.
Poiché ogni sintesi comporta una perdita di informazione dei dati elementari, essa va ricercata in modo da minimizzare tale perdita facendo riferimento esplicito agli obiettivi dell’indagine statistica. Misure di sintesi: ✓ Indici statistici di posizione: Obiettivo di una misura di posizione è quello di sintetizzare in un singolo valore numerico l’intera distribuzione di frequenza per effettuare confronti nel tempo, nello spazio o tra circostanze differenti. Sono stati proposti numerosi indici di posizione per una distribuzione di frequenza. Fra questi il concetto e la misura di “media” hanno assunto un ruolo centrale. Tuttavia, è guardata con sospetto quando si pretende di sintetizzare le informazioni di una realtà complessa e articolata mediante un unico valore. Quindi, ad esempio, la sola media aritmetica non è, di per sé, sufficiente per la sintesi di un fenomeno reale. ✓ Medie analitiche e medie di posizione: Le medie analitiche si considerano opportune operazioni matematiche in cui si tiene conto di tutti i valori delle modalità; le medie analitiche sono calcolate attraverso operazioni algebriche sui valori del carattere, che dovrà essere quindi di tipo quantitativo. Distinguiamo: Media aritmetica, Media geometrica, Media armonica e Media di potenza. ✓ Medie lasche (o di posizione): Medie che utilizzano, alcuni valori specifici della distribuzione di frequenze, individuati sulla base della loro collocazione relativa rispetto a tutti gli altri, ma senza coinvolgere nel calcolo tutte le modalità del carattere. In tale tipo di medie non si utilizzano operazioni algebriche. Tali medie possono quindi essere determinate anche su caratteri di tipo qualitativo. Distinguiamo: Valore centrale, Mediana, Quantili (quartili, centili, etc.), Moda. Il concetto di media: Esistono diversi criteri per definire il concetto di media Una media secondo Cauchy di una variabile X è qualunque valore reale M intermedio tra il minimo x1 ed il massimo xN di una distribuzione di frequenza: Tuttavia, tale requisito costituisce più un controllo delle definizioni di media, che una soluzione operativa, essendo generalmente infiniti i numeri reali che soddisfano tale criterio detto criterio di internalità. Sia data: Una media secondo Chisini di una variabile X è quel valore M, intermedio tra il minimo x1 ed il massimo xN di una distribuzione di frequenze, che, rispetto ad una funzione sintetica delle osservazioni, lascia inalterato il valore: Media aritmetica: se consideriamo e supponiamo che la funzione f(.) sia additiva, ossia in base al criterio del Chisini si ha che la media in questione sarà la media aritmetica. Nel caso di serie di osservazioni x1, …, xi, …, xN, si ha quindi:
La trimmed mean: La media aritmetica può essere influenzata da valori estremi dovuti all’inclusione nel campione di casi “anomali” o ad errori di misurazione. La trimmed mean è la media aritmetica calcolata su una fissata percentuale di valori centrali di un insieme di dati. Ad esempio, nella trimmed mean al 50% si escludono il 25% dei valori più piccoli e il 25% dei valori più grandi. Esempio: Valori del carattere (3, 5, 5, 6, 8, 8, 9, 150) La media aritmetica sarebbe = 24.25. Questo valore non è rappresentativo della distribuzione visto che 7 valori su 8 sono molto più piccoli della media la trimmed mean al 50% sarà ottenuta escludendo i due valori più piccoli e i due più grandi- Trimmed mean=6,75 Si può calcolare al 90% eliminando il 5% dei valori più piccoli ed il 5% dei valori più grandi. Moda (o norma): “Usanza più o meno mutevole secondo il gusto prevalente, che si impone nelle abitudini, nel modo di vivere e specialmente nelle forme del vestire”. Esempio: “Per i giovani era di moda qualche anno fa portare i capelli lunghi” significa che la maggioranza dei giovani portava i capelli lunghi. Ossia, nella distribuzione di frequenza dei giovani secondo la lunghezza dei capelli, alla modalità “lunghi” corrispondeva la massima frequenza. Potremmo affermare che la “moda” della distribuzione era la modalità “lunghi”. La moda di un collettivo, distribuito secondo un carattere, è infatti la modalità prevalente del carattere, ossia quella a cui è associata la massima frequenza. La moda M0 di una distribuzione di frequenza è la modalità cui corrisponde la massima frequenza, assoluta o relativa. Si tratta di assumere come valore “più rappresentativo” della distribuzione quello che si è verificato più spesso degli altri. Sinonimo di moda è “norma”. Oss.: In popolazioni di ammontare limitato può verificarsi che 2 (o più) modalità presentino la stessa frequenza massima. Allora, la distribuzione si dirà bimodale (o multimodale).
Moda- Carattere quantitativo:
- Moda- Carattere qualitativo:
- Moda- Carattere suddiviso in classi: Mediana: La mediana Me di una distribuzione è quel valore della variabile che bipartisce la distribuzione ordinata delle modalità x1 ≤ … ≤xi ≤ …≤xN, cioè tale che metà (50%) delle osservazioni sia inferiore alla mediana e metà (50%) sia superiore ad essa. In altri termini, la mediana è la modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata delle osservazioni.
in cui si assume implicitamente l’ipotesi che nella classe mediana le unità siano distribuite uniformemente Dove: Im estremo inferiore della Classe Mediana, Fm-1 frequenza cumulata fino alla classe precedente quella mediana, Fm frequenza cumulata fino alla classe mediana, Δm ampiezza della classe mediana.
- Proprietà della mediana: La mediana Me è quel valore che minimizza la somma degli scarti assoluti: Oss.: Un aspetto importante della mediana Me è la sua capacità di essere rappresentativa della posizione della distribuzione anche in presenza di valori all’estremo della distribuzione, ossia di valori notevolmente diversi da tutti gli altri. Quantili (percentili, quartili, etc…): Spesso è utile conoscere quale valore lascia una determinata percentuale di osservazioni al di sotto o al di sopra del valore stesso. Tale misura è chiamata percentile dei dati! Definiamo percentili quei valori che dividono la distribuzione in cento parti di uguale numerosità Il p-simo percentile di un insieme di dati è il valore per cui una percentuale pari a p delle osservazioni è inferiore o uguale ad esso Frequentemente sono usati il 25° e 75° percentile di un insieme di dati: - nel 1° caso è il valore per cui una percentuale pari a 25 delle osservazioni è inferiore o uguale ad esso (detto primo quartile); - nel 2° caso è il valore per cui una percentuale pari a 75 delle osservazioni è inferiore o uguale ad esso (detto terzo quartile); Possiamo quindi…… definire i quartili. Il primo quartile Q1 è un valore tale che il 25% delle osservazioni è inferiore o uguale a esso; Il secondo quartile Q2 è un valore tale che il 50% delle osservazioni è inferiore o uguale a esso (coincide con la mediana); Il terzo quartile Q3 è un valore tale che il 75% delle osservazioni è inferiore o uguale a esso. Il calcolo dei quartili può essere laborioso! Ne usiamo uno + semplice, anche se non propriamente corretto ma che dà valori molto vicini a quelli dei metodi più rigorosi!!! I quartili dividono l’insieme dei dati in quattro parti uguali. La mediana divide i dati a metà e se si prende la metà di una metà si ottiene un quarto! Vediamo le varie fasi: Fase 1: Ordinate i dati e trovate la mediana; Fase 2: Considerate la metà inferiore dei dati (tutti i valori che sono al di sotto della mediana) e trovatene la mediana. Il valore che si ottiene è il primo quartile Q1; Fase 3: Considerate la metà superiore dei dati (tutti i valori che sono al di sopra della mediana) e trovatene la mediana. Il valore che si ottiene è il terzo quartile Q3.
- Percentili- caratteri suddivisi in classi: Per caratteri le cui modalità sono distribuite in classi oltre alle mediane, si possono calcolare anche i percentili: … INDICATORI STATISTICI DI VARIABILITÀ LEZIONE 5 La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità. Questa si misura attraverso gli indici di variabilità. Un indice di variabilità deve soddisfare queste proprietà: Deve essere nullo quando tutti i termini della distribuzione sono uguali tra loro, cioè se non c’è dispersione; Non si deve modificare se tutte le frequenze sono moltiplicate per una costante positiva; Crescere all’aumentare della disuguaglianza tra i termini. Le misure di variabilità si possono distinguere in due categorie:
- Variabilità delle singole modalità x1≤ … ≤xi≤ …≤xN rispetto ad un valore caratteristico (ad esempio, la media aritmetica, la mediana, etc.) mediante una sintesi degli scarti tra le singole modalità e il valore caratteristico di riferimento. In tal caso la variabilità è intesa come dispersione e parleremo di misure di dispersione.
- Variabilità reciproca (mutua) tra tutte le modalità considerate a 2 a 2. In tal caso la variabilità è intesa come disuguaglianza e parleremo di misure di disuguaglianza. Un semplice indice di variabilità è dato dal Campo di variazione, definito come la differenza tra il valore massimo e il valore minimo delle modalità di X: Range (X) = max (X)- min(X) Limite: tale misura è influenzata da valori atipici (perché molto alto o molto basso rispetto a tutti gli altri valori), i cosiddetti outliers. Misure di dispersione: Data la successione di valori reali x1≤ … ≤xi≤ …≤xN e calcolato un valor medio, ad esempio la media aritmetica , possiamo considerare le seguenti differenze: x1 - , x2 - , x3 - , …, xi - , …, xN - Oss.: Se non esistesse variabilità o diversità tra le xi queste N differenze sarebbero tutte nulle. Il grado di questa variabilità può essere stimato in diversi modi. e calcolato un valor medio, ad esempio la
variazione dato dal rapporto tra lo scarto quadratico medio e la media aritmetica (spesso espresso in termini percentuali): Questo indice misura la variazione media del fenomeno in rapporto alla sua media aritmetica.
- Limitazione: Non è definito per caratteri tali che ≤ 0 (cioè quando la variabile X può assumere valori anche negativi come nel caso della temperatura, etc.) perché allora non è possibile interpretare una variabilità negativa. Se è molto piccola allora, per motivi aritmetici il coefficiente tende ad esplodere, perdendo il significato comparativo. FORMA DI DISTRIBUZIONE Forma di una distribuzione di frequenza: La misura della asimmetria può fornire un’altra indicazione di sintesi di una distribuzione. Una distribuzione si dice simmetrica se il diagramma o l’istogramma in coordinate cartesiane si presentano in forma simmetrica, cioè il ramo a destra della mediana (che, per definizione divide la distribuzione in 2 parti ugualmente numerose) si può sovrapporre al ramo a sinistra mediante rigido ribaltamento intorno alla ordinata condotta per il punto mediano.
- Indice di asimmetria di Pearson (Skewness)Sk: Pearson ha proposto il confronto tra la media e la moda di una distribuzione rispetto a , pertanto l’indice è dato da: Oss.: Nel caso di asimmetria positiva, la media aritmetica sarà maggiore della moda e viceversa nel caso di asimmetria negativa.
Limite: Tale indice non è adatto a misurare l’asimmetria nel caso di distribuzioni plurimodali.
- Coefficiente di asimmetria di Fisher 1 : Un altro indice proposto è quello di Fisher, maggiormente utilizzato, è quello che fa ricorso al terzo momento della media ed è dato da: BOXPLOT Grafici a scatola (Boxplot): Un modo per rappresentare graficamente la variabilità di una distribuzione è dato dal box- plot. Il box-plot è un grafico caratterizzato da tre elementi:
- Una linea o punto, che indicano la posizione da una media della distribuzione (anche mediana);
- Un rettangolo (box) la cui altezza indica la variabilità dei valori “prossimi” alla media (percentili);
- Due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della distribuzione (campo di variazione). Ad esempio, come media si può prendere la mediana, come altezza del box la distanza interquartile e come estremi dei segmenti il valore minimo e massimo osservati: Una scatola centrale che si estende tra i quartili Q1 e Q3, Una linea nella scatola che riporta la Mediana (Me), Due linee verticali che escono dalla scatola fino alle osservazioni più piccole e più grandi.