Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. De Battist, Appunti di Statistica

Un'introduzione completa ai concetti fondamentali della statistica, esplorando metodi di analisi dei dati e tecniche di rappresentazione grafica. Il documento copre argomenti come la definizione di unità statistica, caratteri qualitativi e quantitativi, frequenze, distribuzioni di frequenza, misure di tendenza centrale (media, mediana, moda) e misure di variabilità (scarto quadratico medio, differenza interquartile). Inoltre, vengono presentati esempi pratici e grafici per illustrare i concetti chiave.

Tipologia: Appunti

2023/2024

Caricato il 24/01/2025

utente42
utente42 🇮🇹

4.5

(21)

14 documenti

1 / 48

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
2024/
2025
Statistica
SCIENZE POLITICHE
ROSAMARIA FERRARO
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. De Battist e più Appunti in PDF di Statistica solo su Docsity!

Statistica

SCIENZE POLITICHE

ROSAMARIA FERRARO

  • Su Mylab ci sono gli esercizi, bisogno accedere con credenziali uni.
  • Esame: tre domande di teoria che valgono 2 ciascuna, e due esercizi che valgono 10.

Lezione 1 e 2 – 18/09/

Statistica Definizione : scienza che ha per oggetto lo studio dei fenomeni collettivi suscettibili di misurazione e di descrizione quantitativa. Ci sono dei fenomeni descrivibili quantitativamente e la scienza che, appunto, si occupa di scriverli con i numeri è la statistica. Basandosi sulla raccolta di un grande numero di dati inerenti ai fenomeni in esame, partendo da ipotesi più o meno direttamente suggerite dall’esperienza o da analogie con altri fenomeni già noti, mediante l’applicazione di metodi matematici fondati sul calcolo delle probabilità, si perviene alla formulazione di leggi di media che governano tali fenomeni, dette leggi statistiche Oggetto : studio dei fenomeni attraverso caratteri (o variabili) osservati su un aggregato di elementi → ciascuno degli elementi dell’aggregato si chiama unità statistica o soggetto di studio. Ad esempio, se vogliamo misurare la nostra altezza, l’unità statistica siamo noi stessi. Rilevazione : abbiamo individuato le unità statistiche e i caratteri che ci interessa rilevare, e andiamo effettivamente a fare la rilevazione, che può essere:

  1. Censuaria → riguarda tutta la popolazione di riferimento. Si va ad intervistare e a raccogliere informazioni su tutti
  2. Campionaria → riguarda uno specifico gruppo, un sottoinsieme di unità statistiche, dunque un campione: non vado a intervistare tutta la popolazione di riferimento, di cui ho una lista, ma vado a estrarre casualmente e opportunamente delle persone che verranno sottoposte a interviste e questionari, con l’obiettivo di estendere poi le informazioni raccolte sul campione all’intera popolazione, mediante le tecniche di Statistica Inferenziale È importante fare questa distinzione perché nel secondo caso (rilevazione campionaria) ci interessa indagare i gusti di tutti, per poi fare inferenza, quindi estendere i dati rilevati da quei duecento (campione) a tutta la popolazione di riferimento.
  3. Statistica descrittiva : ci aiuta a descrivere il fenomeno. Studia i criteri di rilevazione, classificazione, sintesi e rappresentazione dei dati appresi dallo studio di una popolazione o di un campione. I risultati ottenuti nell’ambito della Statistica Descrittiva si possono definire certi, a meno di errori di misurazione.

Variabili e la loro classificazione Variabile : caratteristica o fenomeno che varia da unità statistica a un’altra. Per esempio, se tra di noi, avessimo tutti un diploma superiore, non sarebbe una variabile perché dovrebbe acquisire peculiarità diverse per ogni unità. Può essere:

  • Quantitativa o numerica : raccoglie ed esprime informazioni numeriche; modalità valore
  • Qualitativa o categoriale : esprime informazioni non numeriche; modalità attributo Modalità : modo (valore o attributo) attraverso cui un carattere variabile si manifesta. Il modo in cui si manifesta è generale, sarà espressa mediante dei numeri nel caso di variabili quantitative o numeriche e mediante parole od espressioni verbali nel caso di variabili qualitative o categoriali. La lista delle modalità che una variabile può assumere deve essere esaustiva e le modalità elencate devono essere fra loro incompatibili. Esaustiva significa che tutte le possibili manifestazioni del fenomeno devono essere contemplate nella lista delle modalità (spesso viene introdotta la modalità ‘‘Altro’’ per raccogliere eventuali modalità non espressamente inserite nell’elenco). Non deve poi esistere ambiguità nell’attribuzione di una modalità ad una unità statistica: se venissero considerate per il colore dei capelli le modalità ‘‘biondo’’ e ‘‘chiaro’’, non sapremmo dove classificare con certezza un individuo con i capelli biondo chiaro: in tal senso le modalità devono essere fra loro incompatibili. Intensità : ci si riferisce alla modalità dei caratteri quantitativi. Scala di misurazione delle modalità : La scala di misurazione delle modalità permette di introdurre un’ulteriore classificazione delle variabili.
  1. Considerando le variabili qualitative o categoriali , osserviamo che a volte le loro modalità non sono suscettibili di alcun tipo di ordinamento (si pensi ad esempio al carattere Genere): in

tal caso per la misurazione delle modalità verrà utilizzata una scala nominale , in cui l’unica operazione possibile è l’identificazione di due modalità come uguali o diverse. Sempre considerando variabili categoriali, a volte esiste un ordine naturale fra le modalità. In tal caso per la misurazione delle modalità verrà utilizzata una scala ordinale, con la quale è possibile non solo valutare se due modalità sono fra loro uguali o diverse ma anche stabilire se una modalità è ‘‘maggiore’’ o ‘‘minore’’ rispetto ad un’altra.  Quando si utilizza una scala nominale si parla anche di carattere sconnesso  Quando invece si fa ricorso ad una scala ordinale si utilizza il termine carattere ordinabile

  1. Per i caratteri quantitativi abbiamo gli intervalli (con la quale si può valutare se due modalità sono uguali o diverse, se una è maggiore o minore rispetto ad un’altra e soprattutto si può calcolare la differenza tra due intensità)e rapporti (mediante la quale si può valutare anche il rapporto esistente fra due modalità: in tal caso quindi si può verificare se due modalità sono uguali o diverse, se una e` maggiore o minore rispetto ad un’altra, e si possono calcolare la differenza e il rapporto fra due intensità). Nelle scale ad intervalli, lo zero è convenzionale e posso fare le differenze, non il rapporto perché questo implica uno zero assoluto vero. La maggior parte dei caratteri che utilizzeremo hanno lo zero assoluto quindi potremo fare i rapporti. Sono solo dei casi in cui lo zero è arbitrario e si può fare solo la differenza. Caratteri quantitativi possono essere:
  • Discreti che assumono un numero finito di valori (o infinità numerabile), prevede conteggio. Le modalità possono assumere solo un numero finito (o un’infinità numerabile) di valori e sono ottenute mediante un’operazione di conteggio: si tratta di caratteri le cui modalità possono essere messe in corrispondenza biunivoca con l’insieme dei numeri naturali e in tal caso si parla di caratteri numerabili.
  • Continui che assumono tutti i valori compresi in un intervallo, prevede misurazione. Le sue modalità sono ottenute mediante un’operazione di misurazione : si tratta di caratteri le cui modalità possono essere messe in corrispondenza biunivoca con l’insieme dei numeri reali e in tal caso si parla di caratteri misurabili. Matrice di dati – simbologia Quando il numero di unità statistiche sulle quali viene effettuata la rilevazione eelevato, la rappresentazione dei dati mediante la matrice dati non e efficace nell’ottica di fare sintesi e illustrare i risultati. Si dovrà pertanto ricorrere alla rappresentazione mediante le distribuzioni di frequenze. È necessaria un po’ di simbologia. n = n° unità statistiche rilevate X = carattere k = n° modalità xi = modalità ( i= 1, …, k). Il pedice varia da uno a k. ni = frequenze assolute. La frequenza assoluta è n° unità statistiche che presentano la modalità i_esima oppure n° di volte in cui la modalità i_esima si manifesta. È la stessa cosa detta in modo diverso. Esempi : Genere ni X 1 = M n 2 = devo contare quante volte questa modalità (maschio) si ripete nell’elenco

→ Quantitativo, continuo, scala di rapporti → Per comprendere gli estremi dovremo scrivere 60 – I 70. → Quando abbiamo quantitativo continuo di solito rappresentano in classi, bisogna calcolare l’ampiezza della classe calcolando la differenza tra l’estremo superiore e quello inferiore Densità di frequenza : date dal rapporto fra le frequenze relative e l’ampiezza delle classi, che corrispondono alle frequenze (o frazioni di frequenza) relative associate ad un intervallo unitario. Uguale a quindi a: ni ai

Lezione 3 – 19/09/

Carattere peso X (in kg) Classi peso ni Ni ai di 48 - 55 21 21 7 3 55 - 60 25 46 5 5 60 - 70 14 60 10 1. 70 - 90 40 100 20 2 = 100 Distribuzione frequenze : due colonne, una modalità l’altra della frequenza Genere ni Fi M 11 0. F 9/20 0. Grafico a torta ➔ Per quanto riguarda i caratteri qualitativi (siano essi sconnessi o ordinabili), una tipologia molto diffusa di rappresentazione grafica è data dai grafici ‘‘a torta’’ (o grafici a settori circolari). In tale tipo di grafico ad ogni modalità del carattere corrisponde una fetta della torta (o settore circolare appunto), la cui area dipende dalla frequenza relativa associata alla modalità stessa. In questo modo vengono dunque rappresentate le frequenze relative o percentuali. Grafico a barre ni

M F x Ascisse : le modalità dei caratteri Ordinate : le frequenze ➔ Un grafico utile per la rappresentazione dei caratteri qualitativi e di più semplice realizzazione (perché non richiede il calcolo degli angoli per definire le ampiezze delle fette, come accade nel caso precedente) è il grafico a barre. Tale grafico viene realizzato riportando le modalità assunte dal carattere su un asse orizzontale e le frequenze assolute (o all’occorrenza, le frequenze relative) su un asse verticale. Verranno quindi disegnate delle barre (dei rettangoli), tutte con base di uguale dimensione e la cui altezza sarà pari alla frequenza assoluta (o relativa) corrispondente. Nel caso di caratteri qualitativi ordinabili, le modalità saranno poste sull’asse seguendo il loro ordine naturale. Esempio X ni ai di 48 - 55 21 7 3 55 - 60 25 5 5 60 - 70 14 10 1. 70 - 90 40 20 2 ni 5 3 2

n° figli 48 55 60 70 90

  • Verde chiaro = 21
  • Verde scuro = 40
  • Viola = 24
  • Arancione = 14 A = b x h = ai x di = ai x ni : ai = ni Rappresentazione per caratteri continui , infatti nella tabella possiamo osservare le classi. Possiamo anche calcolare le frequenze cumulate. Dal grafico posso andare a calcolare, ad esempio, quante persone pesano al massimo 55 kg, lo abbiamo lì e possiamo osservare: 21 (valore dentro un rettangolo. X ni fi ai dinel = densità relativa 48 - 55 21 0.21 7 0. 55 - 60 25 0.25 5 0. 60 - 70 14 0.14 10 0. 70 - 90 40 0.40 20 0. = 100 dinel 0.0 5

Sempre sbagliato 629 0.555 * Quasi sempre sbagliato 55 0. Totalmente sbagliata 74 0. Assolutamente non sbagliata 375 0. = 1133 = 1

  • Due decimali di solito vanno bene, in questo caso per far sommare uno, la prof si è tenuta il terzo decimale. Posso costruire tutto ciò concentrandomi su un elemento, si chiamano distribuzioni condizionate. Prendo, ad esempio, solo i fondamentalisti e dunque considero solo la prima riga, per capire come si distinguono relativamente al loro atteggiamento religioso e all’opinione sugli omossessuali. ➔ Distribuzioni condizionate relative delle opinioni su relazioni omosessuali dato l’atteggiamento religioso Fond. 0.76 0.05 0.03 0.15 1 Liberale 0.36 0.05 0.09 0.5 1 Se convertiamo in percentuali, notiamo che una determinata percentuale, ad esempio il 5% dei fondamentalisti, hanno una specifica opinione. È importante sottolineare che qui si tratta di univariate, le due righe vanno considerate singolarmente, non centrano l’una con l’altra.

Lezione 4 e 5 – 25/09/

Da una tabella a doppia entrata possiamo tirare fuori informazioni univariate. La parte centrale sono le frequenze congiunte e le informazioni bivariate. Possiamo fare un grafico, bisogna recuperare informazioni sull’atteggiamento religioso e poi costruire la distribuzione della frequenza univariata. Frequenze condizionate delle opinioni dato l’atteggiamento, quindi quando dico “dato l’atteggiamento”, sto bloccando quest’ultimo. Questa è una univariata perché non c’è più la variabile atteggiamento e mi concentro o solo sui fondamentalisti o solo sui liberali. Distribuzioni condizionate relative di atteggiamento data opinione → fisso l’opinione, avrò sempre opinioni sbagliate.

Sempre sbagl. QSS TS ANS 416 629

26 55

213 629 =^

  1. 34 1 29 55 =^
  2. 53 1 0.7^ 0. Precisazione del capitolo 2 Generalmente usiamo la lettera maiuscola quando ci riferiamo ad una variabile, e una minuscola quando ci riferiamo alle singole modalità. Precisazione capitolo 10 L’altezza della barra indica la frequenza relativa ma per noi può essere anche la frequenza assoluta. Per i caratteri quantitativi discreti utilizziamo il grafico a bastoncini con in ordinata le frequenze assolute e relative. Per i caratteri quantitativi continui utilizziamo gli istogrammi ma con una modalità di costruzione diversa rispetto aa quella del libro, che tiene conto del fatto che le classi in cui vengono presentate le modalità possono avere ampiezze diverse. A tale scopo verranno introdotti i concetti di ampiezza della classe e di densità di frequenza, grandezza che andrà posta in ordinata nella costruzione degli istogrammi. Serie storica
  • Tempo : ascissa
  • Valori del fenomeno osservato : ordinata Esempio Prezzi medi mensili del latte Crudo alla stalla - Lombardia (euro x100 litri) 2024 Ge 50 prezzo Fe 50 Ma 50. Ap 51. Ma 51. Gi 52. Lu 53. Ag 54 G F M A M G L A mesi ‘ Descrivere il “centro” dei dati Indici che permettono di sintetizzare in un unico dato (numerico) la distribuzione di 1 variabile. Potrebbe essere un unico numero quando è un carattere quantitativo discreto o continuo. Moda mediana e media aritmetica Moda = è la modalità, assunta dalla variabile, che presenta maggior frequenza , cioè quella che si è manifestata più volte in sede di rilevazione. Può essere un attributo o un valore numerico, a seconda del tipo di variabile (qualitativa o quantitativa). Se tale modalità è unica, si parla di carattere

Diploma 4 8 → posizione 5 e 8 Laurea 12 20 → posizione 9 e 20 (posizione centrale considerando il totale) = 20 Moda : laurea Mediana : P1 = 20/2 = 10 ; 20/2 + 1 = 11 = laurea. Il titolo di studio laurea spezza a metà. Nel caso del qualitativo è giusto ma in maniera approssimativa. Media aritmetica La media aritmetica è la misura di sintesi più nota e più impiegata fra quelle che rilevano la tendenza centrale. Rappresenta l’intensità che spetterebbe a ciascuna unità se tutte avessero la medesima quantità, mantenendo costante il totale delle intensità: in questa accezione il suo utilizzo ha senso in modo particolare quando si ha a che fare con caratteri trasferibili, ovvero con caratteri per i quali si può pensare di trasferire un certo ammontare da una unità statistica ad un’altra.

  • Media aritmetica semplice = se si considerano n valori distinti, la media aritmetica è data dalla seguente formula:
  • Media aritmetica ponderata (o pesata) = se si considera una distribuzione di frequenze, la media aritmetica è data dalla seguente formula: Esempio n figli ni Ni xini 0 4 → posizione 1 e 4 4 0 (devo moltiplicare il numero dei figli per ni) 1 7 → posizione 5 e 11 11 7 2 6 17 12 3 2 19 6 4 1 20 4 = 20 Moda : 1 figlio Mediana P 1 = 10 e P 2 = 11 = 1 figlio → Quando abbiamo delle distribuzioni simmetriche, faccio il grafico e vedo che c’è una simmetria in quel caso moda media e mediana coincidono. Può anche capitare che i tre valori coincidono ma non ci sia simmetria. La media aritmetica gode di alcune importanti proprietà :
  1. Proprietà di internalità : la media aritmetica è sempre compresa fra il valore minimo e il valore massimo assunti della variabile; quindi, indicando tali valori con xmin e xmax, vale che:
  2. La somma algebrica degli scarti : dei valori xi dalla loro media aritmetica è uguale a zero. Se si considerano n valori distinti, ciò significa che:

mentre se si considera una distribuzione di frequenze, allora l’espressione precedente diventa: xi ni xi – x con trattino sopra (xi – x con trattino) x ni 0 4 - 1.45 - 5. 1 7 - 0.45 - 3. 2 6 0.55 3. 3 2 1.55 3. 4 1 2.55 2. x medio = 1. Foto tel per somma algebrica Carattere quantitativo continuo Peso X ni ai di Ni 48 - 55 21 7 3 21 da posizione 1 a 21 55 - 60 35 5 7 56 da posizione 22 a 56 (abbiamo trovato dove cade la mediana) 60 - 70 14 10 1.4 70 70 - 90 30 20 1.5 100 Moda = la classe 55-60, si definisce classe modale. Quando ho un carattere quantitativo guardo le densità di frequenza. La densità più alta è quella a cui corrisponde la moda. Graficamente è la barra che va più in su. Mediana = calcolo sempre la posizione centrale n + 1 2 Me = hi + ( n 2 −^ Ni^ −^1 )^ ×^ ai ni =^55 +^ ( 100 2 −^21 )^ ×^ 5 35

Lezione 6 - 26/09/

Altezza (in cm) ni Ni 150 - 160 22 22 160 – 170 28 50 → posizione 23 e 50 170 - 180 32 82 → posizione 51 e 82 180 – 200 18/100 100

  1. Pos (ne) = n+ 1 2

101 2

  1. Calcolo Ni
  2. Mediana = 170 cm Me = limite inferiore della classe quindi 170 + ( 100 2 –^ la cumulata della classe precedente che è 50) x ampiezza 10 32 = 170 cm Continuiamo con le proprietà:

Z = reddito completo Z medio = (x+y) medio = 1940+650 = 2590 euro Qui sono presenti valori abbastanza grandi; in generale la media aritmetica è più sensibile alla presenza di eventuali outlier, o valori anomali. Outlier = outlier si intende un valore osservato particolarmente grande o particolarmente piccolo rispetto agli altri. Si fa presente che talvolta un outlier può essere il risultato di un errore nella rilevazione e pertanto un’accurata analisi di tali valori è da considerarsi un’importante operazione preliminare da effettuare in ogni applicazione. Box-plot Rappresentazione grafica di 5 indici di posizione. Min Q1 Me Q3 max Sintetizza sia il centro sia la variabilità di una distribuzione. Il box (scatola) contiene il 50% centrale della distribuzione, dal primo al terzo quartile. La mediana è rappresentata da una linea che attraversa il box. Le linee che si estendono a partire dalla scatola sono chiamate whiskers1 ; esse si estendono fino al massimo e fino al minimo a meno che nella distribuzione siano presenti osservazioni outlier rappresentate in maniera differente nel grafico. Esempio box plot riferito alla distribuzione dei tassi criminalità e ottenuto attraverso il software SPSS: ➔ Il whisker superiore e la metà superiore del box sono più lunghi di quelli della metà inferiore indicando, in questo modo, che la coda destra della distribuzione è più lunga di quella sinistra. Il diagramma, quindi, riflette l’asimmetria positiva della distribuzione dei tassi di criminalità Differenza interquartile e outlier Q3 - Q1 = la differenza tra i due numeri, il terzo e il primo quartile, si chiama differenza in interquartile Un’osservazione viene definita outlier se ricade a più di 1:5 x (IQR - Inter Quartile Range ) al di sopra del terzo quartile oppure a più di 1:5_(IQR) al di sotto del primo quartile: Q3 + 1.5 (IQR) Q1 – 1 - 5 (IQR) Esercizio Altezza (in cm) ni ai di Ni 130 – 140 6 10 0.6 6

Moda = classe 160 - 170 (classe con densità più alta) Mediana = classe 140 - 160.

  1. Pos(Me) = 𝑛 + 1 2

1 2

  1. Ni
  2. Me = 140 + ( 24 2 –^6 )^ ×^ ( 20 10 )^ =^140 +^ (^6 )^ ××^ (^2 )^ =^140 +^12 =^152 di

130 140 152 160 170 xi La mediana è proprio quel valore che divide a metà: primo e secondo blocco = 6, il terzo = 4 e il quarto = 8. 6+6 = 12 e 4+8 = 12 (divisione perfettamente a metà). Quartili Q1 → P(Q1) = n+1/4 = 6. Q1 = 140 cm - graficamente il primo quartile lascia a sinistra il 25% Q3 → P(Q3) = n+1/4 (3) = 18.

Q3 = 160 + (

n 4

× ( 3 ) − 16 ) (

10 8

) = 160 + 2 × 1 , 25 = 162 , 5 cm

Media aritmetica xi ni xini 135 6 810 150 10 1500 65 8 13200 = 3630 x medio = 3630 24 = 151.25 cm se y = 3 + 8 𝑥 ➔ y medio =? y medio = 3 + 8 × ( 151. 25 ) = 1213 cm Box plot Q3 – Q1 = 162.5 – 140 = 22. 1.5(Q3-Q1) = 33. Q3 + 33.75 = 196. Q1 – 33.75 = 106.

➔ Ci piace costruire indici normalizzati , cioè, un indice compreso tra 0 e 1 perché, se sto misurando un qualcosa e so che esso è compreso tra 0 e 1, posso trarre rapidamente determinate conclusioni: più sono vicina a 0 so che c’è minima eterogeneità, più vicina all’1 so che c’è massima eterogeneità. 0 < o uguale E 1 * < o uguale 1

  • assenza eterogeneità E 1 = E 1 / k – 1 = 0
  • massima eterogeneità E 1 = (k/1 / k) / (k-1/k) = 1 Titolo di studio ni fi fi Licenza elementare 4 0.2 0. Diploma 4 0.2 0. Laurea 12 0.6 0. = 20 = 0. E 1 * =(1-0.44) (3/2) = (0.56) (1.5) = 0.84 → Più vicino al valore 1, quindi più eterogeneità. Variabilità La variabilità è l’attitudine dei fenomeni quantitativi ad assumere valori diversi. Per comprendere meglio il concetto, si supponga di avere rilevato l’altezza (in cm) di 10 individui, divisi in due gruppi composti ciascuno da 5 unita`. Si supponga che le altezze osservate siano:
  • primo gruppo: 170, 170, 170, 170, 170.
  • secondo gruppo: 150, 160, 170, 180, 190. L’altezza media per entrambi i gruppi è pari a 170 cm. Le distribuzioni delle altezze nei due gruppi sono però evidentemente diverse: nel primo caso si osserva che c’è assenza di variabilità perchétutti i valori sono uguali; nel secondo caso invece i singoli valori si discostano in modo più o meno intenso dal valor medio, evidenziando una **certa variabilità**. Gli indici di variabilità sono sempre non negativi. In particolare, sono uguali a zero quando tutte le unità osservate assumono la stessa modalita: in tal caso la variabile si dice degenere. Poiché` per gli indici di variabilità non è affatto immediata la determinazione del valore massimo, in questa sede non sarà presentata la loro normalizzazione. Esistono diverse misure di variabilità, classificate in base alla logica con la quale vengono costruite. Nel seguito ci si limiterà a introdurre due classi di indici, gli indici di variabilità globale e gli indici di dispersione , presentando solo quelli più noti nelle due classi.

Indici di variabilità globale

Gli indici di variabilità globale si basano sulla differenza fra valori che occupano particolari posizioni nell’ordinamento. Un esempio è dato dal campo di variazione, definito come: È un indice molto grezzo , che si limita a identificare l’ampiezza dell’intervallo in cui sono compresi i valori osservati. Nell’esempio precedente, relativo alle altezze dei 10 individui, il campo di variazione per il primo gruppo è 0, mentre corrisponde a 190 - 150 = 40cm per il secondo gruppo. La differenza interquartile D.I. invece si ottiene come differenza fra i valori del terzo e del primo quartile: Tale indice fornisce l’ampiezza dell’intervallo in cui è contenuto il 50% delle osservazioni ‘‘centrali’’. Nel caso in cui si presentino dei valori anomali ( outliers ) è preferibile l’utilizzo della differenza interquartile rispetto al campo di variazione, poiché` tale indice non viene influenzato dalle osservazioni ‘‘estreme’’ (particolarmente grandi o particolarmente piccole).

Indici di dispersione

All’interno della classe degli indici di dispersione, l’indice più noto è lo scarto quadratico medio σ (o deviazione standard), che si basa sui quadrati delle differenze tra i valori delle modalità e la loro media aritmetica. Come facciamo a vedere quando questi valori sono diversi, è ragionevole prendere il valor medio e vedere quanto tutti gli altri siano diversi rispetto al valor medio. ➔ elevare al quadrato significa rendere quegli scarti tutti positivi; con quel quadrato tolgo i segni + e – , e in più la proprietà mi assicura che sia minimo Quanto mediamente le x differiscono rispetto la loro media, calcolo per ogni x la differenza dalla loro media, e ne faccio una media. Tale formula, in presenza di una distribuzione di frequenze (xj, ni) con = 1, …k, diventa: Esistono delle formule alternative, che costituiscono un procedimento operativo spesso utile per rendere più agevoli i calcoli: Un indice molto importante legato allo scarto quadratico medio è la varianza. Essa è il suo quadrato , pertanto è definita come: