Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Calcoli statistici: medie, varianza, scostamento, mediana, densità, devianza, tabella, Appunti di Statistica

I concetti di media aritmetica, media armonica, media quadratica, varianza, scostamento semplice medio, mediana, densità di frequenza, devianza e tabella di contingenza in statistica. Vengono descritte le formule per calcolare queste grandezze statistiche e vengono fornite esempi per illustrare le applicazioni pratiche.

Tipologia: Appunti

2019/2020

Caricato il 26/11/2021

jomae-magsino-coling
jomae-magsino-coling 🇮🇹

4.3

(4)

8 documenti

1 / 64

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lezione 1
Introduzione: Il termine Statistica” deriva da Stato”: all’inizio la Statistica riguardava la raccolta di dati relativi
allo Stato (numerosità della popolazione, numero di cannoni, quantità di raccolta di grano ecc.). Esistono molte
definizioni formali di statistica ma gli ingredienti essenziali sono i dati e l’uso di strumenti di analisi di tipo
quantitativo. La statistica è la disciplina che si occupa di fenomeni, riferibili ad individui (unità, elementi) in
quanto appartenenti a fissate popolazioni (insiemi, aggregati, ecc.) che possono manifestarsi con modalità diverse
da individuo a individuo e che sono collegati (o possono essere collegati) a fenomeni oggetti di specifiche ricerche.
Essa è la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dei
dati, alla rappresentazione sintetica e alla interpretazione dei dati stessi e, laddove ve ne siano condizioni, alla
generalizzazione delle evidenze osservate. La ragione della Statistica risiede nella variabilità dei dati: ogni
carattere assume valori diversi nelle unità statistiche. Se il mondo fosse perfettamente prevedibile e non ci fosse
variabilità, non ci sarebbe bisogno della Statistica.
Cenni storici sullo sviluppo della statistica: La formalizzazione matematica della Statistica è relativamente
giovane: il suo sviluppo è avvenuto in gran parte nei secoli XIX e XX; le sue origini come disciplina autonoma
risalgono al XVII secolo, quando in Inghilterra si sviluppò, a opera di John Graunt (1620- 1674) e William Petty
(1623- 1687), un indirizzo di ricerca che prese il nome di Political Arithmetic, caratterizzato dall’uso del metodo
empirico induttivo, proprio delle scienze naturali, nell’investigazione dei fenomeni demografici e sociali. Nel XVIII
e XIX nasce il calcolo delle probabilità. Il suo sviluppo va ascritto a grandi matematici, tra i quali: Pascal, Laplace,
Bernoulli, Gauss. Del calcolo delle probabilità ce ne serviamo per quanto riguardo l’utilizzo dell’inferenza
statistica cioè trarre una conclusione con una determinata probabilità. Essa è arrivata nel 1900, ma si è sviluppata
soprattutto alla fine degli anni 70 con l’utilizzo del computer. Nella prima metà del XX secolo si scoprirono: la
inferenza statistica, il disegno degli esperimenti e il campionamento.
Cosa sono le Statistiche? I dati statistici o, in breve, le Statistiche (percentuali, medie, frequenze di accadimento di
eventi in un intervallo di tempo ecc.) sono le informazioni espresse numericamente e riferite ad un insieme di
unità omogenee detto Insieme di riferimento (persone, oggetti, aziende, situazioni).
Tradizionalmente, si usa suddividere il campo della statistica metodologica in due settori:
Statistica descrittiva: i principi e i metodi della statistica descrittiva riguardano: l’organizzazione,
all’analisi tabellare e grafica, al calcolo di grandezze sintetiche di ciò che si è rinvenuto nella rilevazione.
Essa è anche nota come Analisi esplorativa (Exploratory Data Analysis) proposta soprattutto da J. W.
Tukey nel 1977. Si configura come una trattazione preliminare indispensabile per affrontare uno studio
complesso. Utilizza tecniche elementari, soprattutto grafiche, di grande efficacia nell’aiutare a
comprendere l’esito della rilevazione.
Statistica inferenziale: è l’insieme dei metodi che ci permettono di generalizzare i risultati basati su
un’osservazione parziale del fenomeno d’interesse, come nel caso delle indagini campionarie, dove viene
analizzato un campione casuale estratto da una popolazione reale, o come nel caso degli esperimenti o
degli studi di osservazione, dove il campione casuale è generato dalla ripetizione dell’esperimento o
dell’osservazione sul campo nelle stesse condizioni.
Tipologia di popolazione: La popolazione può essere:
Finita/Reale: se include oggetti che possono essere contati ed il conteggio, ad un certo punto si
interrompe.
Enumerabile: le unità sono contabili, ma il conteggio non si interrompe mai.
Infinita: ogni sottoinsieme di popolazione contiene lo stesso numero di entità contenute nella popolazione.
Indeterminata: l’insieme dei soggetti è finito, in quanto esiste un limite fisico non valicabile alla sua
crescita, ma le unità sono sparse o rare al punto da rendere impossibile il loro materiale censimento.
Unità statistiche: Possono essere: semplice, una persona, un albero, un’automobile, un soldato, e composta, una
famiglia, una foresta, una concessionaria, un reggimento…
A volte la corretta definizione di unità statistica richiede una definizione convenzionale molto dettagliata. Per
famiglia si intende un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da
altri vincoli affettivi, coabitanti e aventi dimora abituale nello stesso comune. Una famiglia può essere costituita
anche da una sola persona.
Interessi maturati su di un conto corrente. (Il
conto corrente).
Tipo di riscaldamento di un appartamento.
(L’appartamento).
Numero di testi consigliati in un corso. (Il
corso).
Emissione di gas tossici da un’automobile.
(L’automobile).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40

Anteprima parziale del testo

Scarica Calcoli statistici: medie, varianza, scostamento, mediana, densità, devianza, tabella e più Appunti in PDF di Statistica solo su Docsity!

Lezione 1

Introduzione: Il termine “ Statistica ” deriva da “ Stato ”: all’inizio la Statistica riguardava la raccolta di dati relativi

allo Stato (numerosità della popolazione, numero di cannoni, quantità di raccolta di grano ecc.). Esistono molte

definizioni formali di statistica ma gli ingredienti essenziali sono i dati e l’uso di strumenti di analisi di tipo

quantitativo. La statistica è la disciplina che si occupa di fenomeni, riferibili ad individui (unità, elementi) in

quanto appartenenti a fissate popolazioni (insiemi, aggregati, ecc.) che possono manifestarsi con modalità diverse

da individuo a individuo e che sono collegati (o possono essere collegati) a fenomeni oggetti di specifiche ricerche.

Essa è la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dei

dati, alla rappresentazione sintetica e alla interpretazione dei dati stessi e, laddove ve ne siano condizioni, alla

generalizzazione delle evidenze osservate. La ragione della Statistica risiede nella variabilità dei dati: ogni

carattere assume valori diversi nelle unità statistiche. Se il mondo fosse perfettamente prevedibile e non ci fosse

variabilità, non ci sarebbe bisogno della Statistica.

Cenni storici sullo sviluppo della statistica: La formalizzazione matematica della Statistica è relativamente

giovane: il suo sviluppo è avvenuto in gran parte nei secoli XIX e XX; le sue origini come disciplina autonoma

risalgono al XVII secolo, quando in Inghilterra si sviluppò, a opera di John Graunt (1620- 1674) e William Petty

(1623- 1687), un indirizzo di ricerca che prese il nome di Political Arithmetic , caratterizzato dall’uso del metodo

empirico induttivo, proprio delle scienze naturali, nell’investigazione dei fenomeni demografici e sociali. Nel XVIII

e XIX nasce il calcolo delle probabilità. Il suo sviluppo va ascritto a grandi matematici, tra i quali: Pascal , Laplace ,

Bernoulli , Gauss. Del calcolo delle probabilità ce ne serviamo per quanto riguardo l’utilizzo dell’ inferenza

statistica cioè trarre una conclusione con una determinata probabilità. Essa è arrivata nel 1900, ma si è sviluppata

soprattutto alla fine degli anni 70 con l’utilizzo del computer. Nella prima metà del XX secolo si scoprirono: la

inferenza statistica , il disegno degli esperimenti e il campionamento.

Cosa sono le Statistiche? I dati statistici o, in breve, le Statistiche (percentuali, medie, frequenze di accadimento di

eventi in un intervallo di tempo ecc.) sono le informazioni espresse numericamente e riferite ad un insieme di

unità omogenee detto Insieme di riferimento (persone, oggetti, aziende, situazioni).

Tradizionalmente, si usa suddividere il campo della statistica metodologica in due settori:

Statistica descrittiva: i principi e i metodi della statistica descrittiva riguardano: l’organizzazione,

all’analisi tabellare e grafica, al calcolo di grandezze sintetiche di ciò che si è rinvenuto nella rilevazione.

Essa è anche nota come Analisi esplorativa ( Exploratory Data Analysis ) proposta soprattutto da J. W.

Tukey nel 1977. Si configura come una trattazione preliminare indispensabile per affrontare uno studio

complesso. Utilizza tecniche elementari, soprattutto grafiche, di grande efficacia nell’aiutare a

comprendere l’esito della rilevazione.

Statistica inferenziale: è l’insieme dei metodi che ci permettono di generalizzare i risultati basati su

un’osservazione parziale del fenomeno d’interesse, come nel caso delle indagini campionarie, dove viene

analizzato un campione casuale estratto da una popolazione reale, o come nel caso degli esperimenti o

degli studi di osservazione, dove il campione casuale è generato dalla ripetizione dell’esperimento o

dell’osservazione sul campo nelle stesse condizioni.

Tipologia di popolazione: La popolazione può essere:

Finita/Reale: se include oggetti che possono essere contati ed il conteggio, ad un certo punto si

interrompe.

Enumerabile: le unità sono contabili, ma il conteggio non si interrompe mai.

Infinita: ogni sottoinsieme di popolazione contiene lo stesso numero di entità contenute nella popolazione.

Indeterminata: l’insieme dei soggetti è finito, in quanto esiste un limite fisico non valicabile alla sua

crescita, ma le unità sono sparse o rare al punto da rendere impossibile il loro materiale censimento.

Unità statistiche: Possono essere: semplice , una persona, un albero, un’automobile, un soldato, e composta , una

famiglia, una foresta, una concessionaria, un reggimento…

A volte la corretta definizione di unità statistica richiede una definizione convenzionale molto dettagliata. Per

famiglia si intende un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da

altri vincoli affettivi, coabitanti e aventi dimora abituale nello stesso comune. Una famiglia può essere costituita

anche da una sola persona.

 Interessi maturati su di un conto corrente. (Il

conto corrente).

 Tipo di riscaldamento di un appartamento.

(L’appartamento).

 Numero di testi consigliati in un corso. (Il

corso).

 Emissione di gas tossici da un’automobile.

(L’automobile).

Le fonti dei dati possono essere:

Primarie: quando chi raccoglie i dati e chi effettua l’analisi sono la stessa persona.

Secondarie: quando chi effettua l’analisi dei dati è una persona diversa da chi li ha raccolti.

Le fonti dei dati possono essere classificate nelle seguenti categorie:

 Dati forniti da un’organizzazione o soggetto

privato;

 Dati provenienti da un disegno sperimentale;

 Dati provenienti da un’indagine;

 Dati provenienti da uno studio

osservazionale;

 Dati provenienti da attività di business

continuative.

Varie sono le fonti statistiche nazionali e internazionali che forniscono dati statistici di diversa natura sui

molteplici aspetti della vita a livello di singolo Paese o a livello internazionale.

Fonti di dati statistici nazionali: In Italia, alla produzione e diffusione delle statistiche relative a tutti gli aspetti

della vita del paese è preposto l’ ISTAT , l’Istituto Nazionale di Statistica, un ente di ricerca pubblico con

ordinamento autonomo, sottoposto alla vigilanza della Presidenza del Consiglio dei ministri. Dal 1989 l’ISTAT

svolge un ruolo di indirizzo, coordinamento, assistenza tecnica e formazione all’interno del Sistema statistico

nazionale ( SISTAN ) che è la rete degli Uffici statistici di tutte le amministrazioni pubbliche centrali e territoriali e

degli enti di rilevanza nazionale, rete che ha come obiettivo principale la razionalizzazione della produzione e

diffusione delle informazioni e l’ottimizzazione delle risorse destinate alle statistiche ufficiali, ossia le statistiche

prodotte dall’ISTAT e dai sistemi pubblici a esso collegati. Fanno parte anche gli Uffici di Statistica centrali e

periferici dell’amministrazione dello Stato. Quelle regionali delle Provincie e dei Comuni, delle Unità sanitarie

locali, della Camera di commercio e tutti gli Uffici di Statistica comunque denominati, di enti e amministrazioni

pubbliche. Vari enti, pubblici o privati, producono e rendono disponibili statistiche settoriali: la Banca d’Italia, le

Camere di commercio, l’ ACI , l’ INPS , l’ INAIL.

Fonti dei dati statistici internazionali: L’ EUROSTAT è l’Ufficio statistico dell’Unione europea. È una Direzione

generale della Commissione europea che raccoglie ed elabora i dati provenienti dagli Istituti di Statistica dagli Stati

membri dell’Unione europea, promuovendo il processo di armonizzazione delle metodologie statistiche adottate

dagli Istituti di statistica degli Stati membri al fine di produrre, a beneficio dell’UE, dati statistici di qualità

comparabili tra Paesi e regioni. Tra le sue attività principali vi è la definizione di dati macroeconomici a supporto

delle decisioni della Banca centrale europea relative alla definizione delle politiche monetarie per l’euro. Oltre

all’ISTAT e ai differenti enti che fanno parte del SISTAN, vari altri enti, pubblici e privati producono e rendono

disponibili statistiche settoriali, tra cui a livello internazionale: la Banca centrale europea , la Commissione

statistica delle Nazioni Unite , il Fondo monetario internazionale , la Banca mondiale , l’ Organizzazione per la

cooperazione e lo sviluppo economico , l’ Organizzazione mondiale delle sanità , l’ Organizzazione delle Nazioni

Unite per l’alimentazione e l’agricoltura.

Terminologia essenziale: Si chiama collettivo statistico la molteplicità, l’insieme di casi individuali, in cui si

manifesta il fenomeno oggetto di studio. L’espressione collettivo statistico è appropriata sia per designare la

“totalità dei casi” individuali in cui il fenomeno studiato si manifesta ( popolazione ), sia per indicare la “parte della

totalità dei casi” che viene sottoposta a osservazione ( campione ). Si chiama unità statistica , il caso individuale

componente del collettivo statistico oggetto di studio. Si chiama carattere , ogni aspetto elementare, ogni

caratteristica oggetto di rilevazione nelle unità statistiche del collettivo. Si chiama modalità , del carattere i diversi

modi con cui questo si manifesta nelle unità statistiche del collettivo.

Il carattere statistico può essere una distanza, una numerosità, una forma, un grado, una composizione di

caratteristiche da trattare in modo aggregato. Dal punto di vista della definizione statistica qualunque carattere si

“articola” in modalità ossia modi di essere. Le modalità devono essere almeno:

Esaustive (devono rappresentare tutti i possibili modi di manifestarsi del carattere);

Non sovrapposte (ad ogni unità si può associare una sola modalità);

Soggette a variazione ossia presentarsi con almeno due valori o categorie distinte in corrispondenza delle

diverse unità statistiche del collettivo.

Genesi dei dati statistici: I dati statistici traggono origine da un’attività intenzionale rivolta all’acquisizione di

informazioni sul fenomeno o sui fenomeni di interesse. I diversi processi che danno origine ai dati statistici sono:

Indagine statistica: i dati che si vogliono acquisire si riferiscono a un collettivo statistico reale, detto

popolazione finita , le cui unità sono entità (persone, imprese, abitazioni ecc.) esistenti, individuabili e

osservabili.

Esperimento: quando persone, animali o oggetti vengono sottoposti a un “trattamento” per osservare su di

essi la risposta, ossia la reazione al trattamento.

Studio di osservazione o sul campo: in cui non esiste una popolazione finita da indagare, né vi sono unità

statistiche che il ricercatore decide di assegnare ai diversi trattamenti.

Si parla di indagine statistica quando lo studio statistico riguarda un collettivo statistico, le cui unità sono entità

(persone, imprese, abitazioni ecc.) individuabili e osservabili, che viene chiamato popolazione reale o finita. Le

indagini statistiche su popolazione finite possono essere:

Censuaria: quando lo studio statistico è condotto con l’osservazione della totalità delle unità del collettivo

di riferimento.

Campionaria: quando l’osservazione è limitata su di un sottoinsieme del collettivo di riferimento, ossia a

un campione.

L’acquisizione di nuovi dati è dovuta al fatto che la base informativa di un problema non è soddisfacente. È utile e

praticabile realizzarne una nuova o integrare quella esistente. Le fasi di un’indagine statistica sono: piano di

rilevazione, raccolta dei dati, classificazione e lo spoglio dei dati, elaborazione dei dati e interpretazione dei

risultati.

Piano di rilevazione: specifica tutti gli aspetti dello studio. Dopo aver definito il fenomeno oggetto di

studio, bisogna definire:

- Scelta del campo d’indagine: la scelta e la definizione statistica sia delle unità dei caratteri. - Scelta del metodo di rilevazione: può essere:

  • Direttamente: tramite questionario o da modello da sottoporre alla collettività. La rilevazione

può essere totale ( coinvolgono tutti gli elementi di una popolazione) o parziale (la rilevazione

è estesa solo ad una parte, comunque scelta, di popolazione).

  • Indirettamente: tramite raccolta di dati statistici prodotti da enti.

  • Attraverso osservazioni di tipo sperimentale.

- Scelta del periodo di rilevazione: quando effettuare la raccolta.

  • Il personale e l’organizzazione necessaria.

  • Strumenti necessari alla rilevazione ed elaborazione dei dati.

  • Tempi e costi sia di rilevazione sia di elaborazioni.

  • Diffusione dei risultati (pubblicazioni, convegni, ecc.)

Le rilevazioni totali o censimenti sono quelle in cui sono enumerate o misurate tutte ed indistintamente le unità

della popolazione. Le rilevazioni totali possono essere: generali , riguardano la rilevazione di tutte le unità rispetto

alle variabili di interesse ( popolazione ) e speciali , riguardano la rilevazione delle sole unità rispondenti a certe

specifiche ( sottopopolazione ).

Le rilevazioni parziali sono limitate da una parte delle unità della popolazione o sottopopolazione scelta in base ad

opportuni criteri. La parte esaminata si chiama campione. La riduzione delle unità propria del metodo

campionario è valida solo se permette il raggiungimento di risultati molto prossimi di quelli ottenibili con la

totale. Le esperienze consolidate dimostrano che si può dare pieno affidamento ai campioni purché scelti con

accuratezza.

Perché il campione? Esso ha un costo eccessivo o richiede grandi organizzazioni, richiede troppo tempo ed è

teorica cioè parte delle sue unità non esiste ancora o non esiste più. È superflua, rischiosa, distruttiva, non è veloce.

Campionamento casuale o probabilistico: Metodologia che fornisce le regole per la formazione del campione

assegnando alle unità della popolazione probabilità non nulle di far parte del campione. I suoi vantaggi sono:

oggettività nella selezione delle unità statistica, possibilità di utilizzare le apposite tecniche statistiche per il

cosiddetto riporto all’universo ossia per l’estensione all’intera popolazione delle elaborazioni effettuate (secondo

certi procedimenti) sui dati osservati nel campione. Le modalità per formare un campione casuale sono molteplici:

Campione casuale semplice (C.C.S.): Le unità sono selezionate con un meccanismo aleatorio in modo tale che

tutte le unità della popolazione hanno la stessa probabilità di essere inserite nel campione. Se indichiamo con N il

numero delle unità della popolazione e con n la numerosità del campione. Se si numerano tutte le unità statistiche

nella lista da 1 a N , la probabilità che un singolo elemento venga selezionato è pari a 1 / N. Le unità statistiche

possono essere selezionate con o senza ripetizione. In un campionamento con ripetizione (o remissione), dopo

aver estratto e osservato una unità, la si reinserisce nella popolazione, così che avrà nuovamente le stesse

probabilità di essere estratta, pari a 1 / N. Con questo tipo di campionamento si rischia di avere un’unità estratta

più volte, per evitare questo rischio è possibile adottare uno schema senza ripetizione in cui, una volta estratto, un

soggetto non può più far parte del campione. In questo modo le unità statistiche alla prima estrazione avranno

probabilità di essere estratte pari a 1 / N , alla seconda 1 /( n − 1 ) , ....

Campionamento sistematico: Nel campionamento si assume che la numerosità N della popolazione sia un

multiplo della dimensione del campione n e che le unità siano elencate in una lista. Si dice passo di

campionamento il rapporto k =N/n. Nel caso in cui N non è un multiplo di n il passo di campionamento è ottenuto

per arrotondamento. In modo casuale si seleziona un numero r ≤ k. Si definisce campione sistematico l’insieme di

unità contraddistinte dai numeri [ r ,r + k ; r + 2 k ;r + 3 k ; ... ; ( n − 1 ) k ]. ▪ Per procedere ad un campionamento

sistematico è necessario selezionare a caso un soggetto tra i primi k nella popolazione, per poi selezionare i

restanti n − 1 soggetti prendendo un soggetto ogni k.

Campionamento stratificato: Nel campionamento stratificato la popolazione di N soggetti, in presenza di

informazioni aggiuntive, è suddivisa in varie sottopopolazioni dette strati , omogenee al loro interno. In altre

parole, uno strato è una sottopopolazione che viene definita sulla base di qualche caratteristica comune (detta

variabile di stratificazione ) quale per esempio il sesso o l’anno d’iscrizione a scuola. Successivamente da ogni

strato si estrae un campione casuale semplice, per poi combinare i sotto campioni in un unico campione. Il

campionamento stratificato è molto più efficiente sia del campionamento casuale semplice che del campionamento

sistematico poiché garantisce che le varie sottopopolazioni siano adeguatamente rappresentate nel campione.

Campionamento causale a grappolo: Nel campionamento casuale a grappoli le N unità statistiche della

popolazione sono divisi in gruppi o grappoli, in cui ciascun gruppo è rappresentativo di per sé dell’intera

popolazione. I gruppi solitamente sono insiti nel fenomeno oggetto di studio: ad esempio, i comuni, le famiglie, i

punti vendita, i distretti elettorali, ecc.. In questo schema di campionamento si seleziona un campione di uno o più

gruppi e si analizzano tutte le unità statistiche contenute nel gruppo come se fosse un grappolo. Il campionamento

a grappolo è generalmente più economico del campionamento casuale semplice, in particolare se la popolazione è

sparpagliata su un ampio territorio. Tuttavia, tale tipo di campionamento ha bisogno di numerosità campionarie

più ampie rispetto al campionamento casuale semplice e stratificato per produrre stime altrettanto precise.

Altri piani di campionamento:

- Campionamento per quote: La popolazione viene divisa in quote ( strati ) in base ad alcune sue

caratteristiche strutturali. Si definiscono le quote, ossia il numero di persone da intervistare in ogni quota

ma è lasciata all’intervistatore la scelta delle persone da intervistare;

- Campionamento a valanga: Si individua un gruppo di persone, in possesso di determinate caratteristiche,

da intervistare. Successivamente, queste stesse persone saranno chiamate a individuare altri soggetti con

le stesse caratteristiche. È molto utilizzato per lo studio di fenomeni non istituzionalizzati o di natura

clandestina ed è particolarmente utile nei casi in cui non si conosca a priori né l’entità del fenomeno né la

lista dei soggetti su cui effettuare la rilevazione;

- Campionamento per testimoni privilegiati: Si tratta di identificare ed intervistare persone esperte del

fenomeno oggetto di studio;

- Campionamento accidentale: Es.: mi metto all’angolo di una strada e scelgo il primo caso che capita,

senza criteri definiti, ma solo in ragione di praticità e velocità.

Lezione 2

Distribuzioni e sintesi dei dati: I dati sono un lungo elenco di valori ed è difficile trovare una regolarità. Come fa

uno studente a confrontare la sua altezza con quella dei suoi compagni? Meglio usare una sintesi dei valori. La

metà delle altezze è superiore a 1.75 cm e l’altra metà è inferiore a questo valore, il 50% centrale dei valori è

compreso tra 1.68 e 1.80 cm. Questa sintesi fornisce due informazioni: il valore centrale è 1.75 cm e le altezze si

distribuiscono intorno a questo valore, variando tra 1.68 e 1.80 cm nella parte centrale (50% delle altezze) della

distribuzione; se uno studente è alto 1.78 cm, in base a questa sintesi sa subito che la sua altezza si trova nella

parte centrale della distribuzione, vicino al valore centrale. Spesso questo tipo di sintesi fornisce tutte le

informazioni necessarie per capire l’andamento del fenomeno, soprattutto quando la forma della distribuzione è

una di quelle tipiche.

Matrice dei dati: L’organizzazione più naturale, legata all’operazione di registrazione dei dati su supporto

magnetico, consiste nel disporre i dati statistici secondo lo schema di una matrice, denominata matrice dei dati. I

dati sono di solito raccolti in forma rettangolare : matrice righe ∗ colonne. Ogni riga della matrice corrisponde ad

una unità di osservazione. Ogni colonna della matrice corrisponde ad una variabile. Si definisce distribuzione

unitaria di una data variabile l’elenco di tutti i valori osservati unità per unità.

Distribuzioni di frequenza: Per poter procedere nell’analisi di un fenomeno nei suoi vari aspetti rilevanti, è

necessario sintetizzare le distribuzioni unitarie delle variabili. Una prima forma di sintesi è data dal calcolo delle

distribuzioni di frequenza. Essa descrive il modo in cui una o più variabili (caratteristiche) si manifestano

( distribuiscono ) in un dato collettivo (campione o popolazione).

 Una singola variabile: distribuzioni semplici. È un’organizzazione dei dati in forma tabellare tale che ad

ogni modalità di una certa variabili (qualitativa o quantitativa) si fa corrispondere la frequenza assoluta

ovvero il numero di volte che la modalità si presenta nel collettivo in esame.

 Due variabili: distribuzioni doppie. Esse sono il risultato dello spoglio dei dati basato su una preliminare

definizione delle modalità e delle eventuali classi. Considerando congiuntamente due colonne della matrice

dei dati, l’insieme delle coppie di modalità dei due caratteri che si osservano costituisce una distribuzione

doppia disaggregata.

 Più di due variabili: distribuzioni multiple. Si ha distribuzione tripla se si considerano congiuntamente

tre caratteri (tre colonne della matrice dei dati); distribuzione quadrupla se si considerano

congiuntamente quattro caratteri, e così via. Anche in questo caso, le distribuzioni si distinguono in

disaggregate e di frequenze, a seconda che i dati si considerino allo stato grezzo o che sia proceduto allo

spoglio.

Nella creazione delle classi è necessario prestare attenzione a scegliere un numero adeguato di classi ,

determinando un’opportuna ampiezza definendo gli estremi di ogni classe facendo attenzione ad includere tutti i

valori osservati e a non creare sovrapposizioni. La scelta dell’ampiezza e del numero delle classi dipende da: la

dispersione dei valori osservati ( variabilità ), la numerosità totale dell’insieme delle osservazioni e le finalità

conoscitive. In generale si preferiscono: intervallo di uguale ampiezza quando l’attenzione è orientata allo studio

della distribuzione della variabile, intervalli di ampiezza variabile quando ogni classe identifica e qualifica una

tipologia ”. Una diversa definizione del numero e/o degli estremi e/o dell’ampiezza delle classi genera una

differente espressione della frequenza, che può essere anche sensibile se la numerosità dei dati è ridotta.

Raggruppamento in classi: Quando il carattere è quantitativo e il numero di osservazione è elevato la

presentazione dei dati richiede necessariamente che le modalità contigue siano aggregate tramite la formazione di

classi cioè di intervalli numerici (tra loro disgiunti) comprendenti più modalità. Alle classi reali si giunge

sottraendo all’estremo sinistro e aggiungendo all’estremo destro di ciascun intervallo una stessa quantità. Pari a

0,5 se le osservazioni sono espresse da numeri interi; pari a 0,05 se le osservazioni sono espresse da numeri con

una cifra decimale; pari a 0,005 se le osservazioni sono espresse da numeri con due cifre decimali, e così via. In tal

modo non sussiste la possibilità che un dato coincida con un estremo di classe. Quando gli estremi di classe sono

numeri che presentano la stessa precisione (cioè lo stesso numero di cifre decimali) delle osservazioni da

classificare, è necessario stabilire la cosiddetta chiusura delle classi. In termini generali, una classe è “chiusa a

destra” se include le unità che presentano modalità esattamente uguali all’estremo destro della classe; mentre è

“chiusa a sinistra” se include le unità che presentano modalità esattamente uguali all’estremo sinistro.

Classe chiusa a sinistra: [a, b); Classe chiusa a destra: (a, b]; Classe chiusa a destra e a sinistra: [a, b].

Per classi di uguale ampiezza , ci si può orientare nella definizione della lunghezza di ogni intervallo, dividendo il

range dei valori osservati (cioè l’intervallo definito dal più piccolo e dal più grande valore osservato) per il

numero delle classi considerato.

Frequenze relative: Le frequenze relative indicano il peso , il contributo relativo di ogni modalità al totale. Sono

ottenute dividendo le frequenze assolute corrispondenti ad ogni modalità o ad ogni classe di valori, per il totale

delle unità osservate:

f

i

N

Frequenze relative perché? Facilita la percezione del peso delle modalità e facilita confronti tra popolazioni. Ma

attenzione l’attendibilità delle frequenze relative dipende dalla numerosità della popolazione.

Frequenze percentuali: Spesso alle frequenze relative semplici sono preferibili quelle percentuali , ottenute

moltiplicando le prime per 100:

f

%

N

∗ 100 = f i ∗ 100

Nella distribuzione di frequenza possiamo associare ad ogni modalità di una certa variabile (qualitativa o

quantitativa) anche la frequenza relativa e quella relativa percentuale. Quando la variabile è quantitativa

continua bisogna classificare le modalità in intervalli di valori ( classi ) e calcolare le frequenze delle unità

statistiche che presentano valori compresi in tali intervalli. È bene ricorrere al raggruppamento in classi anche per

le variabili quantitative discrete che assumono molti valori.

Frequenze cumulate: La frequenza cumulata assoluta (relativa) associata ad una modalità della variabile indica il

numero (la proporzione) di osservazioni che presentano un valore minore o uguale rispetto a quello della

modalità.

N

i

= n

1

+n

2

+…+n

i

i= 1, 2,…, k

Si può utilizzare solo se il carattere è misurato almeno su scala ordinale. La distribuzione di frequenze cumulate e

retro cumulate consistono nel sommare via via tutte le osservazioni che presentano il valore inferiore (cumulate) o

quello superiore (retro cumulate) ad una data modalità.

Frequenze cumulate: hanno senso? Le frequenze cumulate possono sempre essere calcolate, ma hanno senso

solo se le modalità sono ordinabili cioè per tutte le variabili numeriche e per le variabili categoriche solo se

ordinali.

Densità di frequenza: Per distribuzioni di frequenza di variabili quantitative ( discrete o continue ) classificate in

classi di diverse ampiezze, è utile calcolare per ogni classe la densità di frequenza , ottenuta rapportando la

frequenza di ciascuna classe alla propria ampiezza. Sia ( c i- , c i ) la generica classe di una distribuzione di frequenze

con modalità raggruppate in classi. Si chiama densità di frequenza della classe il rapporto:

h

i

frequenza della classe

ampiezza della classe

di

Lezione 3

Rappresentazioni grafiche: Esse hanno lo scopo di visualizzare la composizione di un insieme di dati cioè della

variabile statistica. I vantaggi delle rappresentazioni grafiche sono fornire una visione sintetica ed essere

facilmente interpretabili, l’inconveniente è di mancare di precisione e soprattutto d’essere soggettive cioè di

permettere letture diverse degli stessi dati. Il giudizio su una rappresentazione grafica si può basare su cinque

aspetti:

Accuratezza: precisione nei dettagli;

Semplicità: uso di soli elementi grafici;

Distribuzioni di frequenze per caratteri quantitativi: La rappresentazione grafica più idonea per una

distribuzione di frequenza secondo un carattere discreto è quella cartesiana. La rappresentazione grafica si

effettua ponendo sull’asse delle ascisse le modalità x 1 , x 2 , …, x k e sull’asse delle ordinate le frequenze

corrispondenti n 1 , n 2 , …, n k

. La rappresentazione grafica va denominato diagramma ad aste.

Funzione di ripartizione: Considerano il sottoinsieme così definito:

C

x

={ u : X ( u ) ≤ x } ,

costituito dalle unità del

collettivo in cui il carattere assume un valore minore o uguale a un livello assegnato x. Si chiama funzione di

ripartizione , F(x), il rapporto tra la numerosità di C x e il totale delle unità N. Si tratta della frequenza relativa

delle unità del collettivo nelle quali il carattere assume un valore non superiore alla quantità x.

Proprietà della funzione di ripartizione: È definita per qualsiasi valore

di x; Assume il valore di 0 quando x è minore di x 1 (perché nel collettivo

non vi sono unità con modalità più piccole di x 1 ); Assume il valore 1

quando x è maggiore o uguale a x k (perché nel collettivo non vi sono unità

con modalità maggiori di x maggiori di x k ); È pari a F i- quando

x

i

− 1 x < x

i

E non è decrescente.

Grafici a barre: Nei diagrammi a barre e a nastri ( orto grammi ) ogni frequenza o intensità della distribuzione

viene rappresentata da una barra o da un nastro in modo da ottenere una successione di rettangolo con la stessa

base (o altezza) e le altezze (o le basi) proporzionali alle frequenze o quantità. Quando il carattere è qualitativo

ordinato o quantitativo, è preferibile utilizzare il grafico a barre poiché le barre poste sull’asse orizzontale

permettono di cogliere meglio l’ordinamento delle modalità.

Diagrammi a barre per variabili qualitative: Barre verticali, categorie lungo l’asse orizzontale; Altezze

proporzionali alle frequenze (assolute o relative); In alternativa: barre orizzontali (preferibile se le modalità sono

molte).

Ordine delle barre:

Variabili sconnesse: nel diagramma per il mezzo di trasporto o in quello dell’arrivo a scuola in orario

l’ordine delle barre è completamente arbitrario.

Variabili ordinali: nel diagramma dell’ora in cui ci si alza le categorie sono ordinate e quindi devono

essere rappresentate nell’ordine giusto per vedere l’andamento delle frequenze.

7:30 e oltre

7:00- 7:

6:30- 6:

6:00-6:

Prima delle

6:

0 5 10 15 20 25 30 35 40 45

Ora sveglia

Ora sveglia

SI NO

0

10

20

30

40

50

60

70

Arrivo a lezione in orario

Arrivo a lezione in orario

Diagramma a barre accostate: Valutazione della risposta all’applicazione di due farmaci antipiretici a cento

pazienti. Confrontando le barre adiacenti possiamo vedere che prevale il farmaco A solo per il miglioramento

confrontando le barre a punti, possiamo vedere che per il farmaco B prevale la guarigione. Le barre del diagramma

rappresentano le frequenze congiunte.

Confrontando le barre adiacenti possiamo vedere che sia tra i maschi

che tra le femmine prevalgono i non fumatori. Confrontandolo le due

barre blu, possiamo vedere che tra i fumatori ci sono più maschi che

femmine.

Diagramma a barre in pila:

Per capire qual è la

proporzione di fumatori tra i maschi e le femmine, conviene impilare

le barre.

Diagramma a barre in pila 100%: Per confrontare le proporzioni di

fumatori tra i maschi e le femmine, conviene impilare le barre usando le

percentuali di colonna anziché le frequenze.

Diagramma a torta: Si usano in presenza di distribuzioni delle frequenze relative percentuali di una variabile

suddivisa in classi. Evidenziano come sono distribuite le singole parti, rispetto all’intero: la torta (cerchio)

rappresenta l’intero fenomeno ed i componenti (fette, spicchi) sono rappresentati dai settori. Gli angoli ( α )

devono essere proporzionali alle percentuali x% che vogliono rappresentare, in accordo con la relazione:

α : 360 = x %: 100.

Barre o torta? Con il diagramma a barre si ha una migliore percezione delle differenze, mentre con il diagramma a

torta si ha una migliore percezione della composizione.

Classificazione

Farmaco

A

Farmaco

B

Peggioramento 3 5

Nessuna

variazione

Lieve

miglioramento

Miglioramento 52 29

Guarigione 26 43

Totale 100 100

Femmina Maschio

Fumo

no

Fumo

Femmina Maschio

Fumo

no

Fumo

Femmina Maschio

Fumo

no

Fumo

Femmina Maschio

Fumo

no

Fumo

Peggioramento Nessuna

variazione

Lieve

miglioramento

Miglioramento Guarigione

0

10

20

30

40

50

60

Farmaco A Farmaco B

Mascio

Femmina

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Fumo sì Fumo no

Maschio

Femmina

0 5 10 15 20 25 30 35 40

Fumo sì Fumo no

Maschio

Femmina

0 5 10 15 20 25 30

Fumo no Fumo sì

ordinate le intensità associate: i conseguenti punti del piano cartesiano vengono poi uniti con segmenti di retta

per facilitare la percezione visiva dell’andamento del fenomeno. Quando la serie storica riguarda un fenomeno di

movimento, una rappresentazione grafica appropriata è quella a nastri. I periodi vengono indicati lunga una linea

orizzontale, mentre su un asse verticale viene riportata la scala; sulla base di questa, si tracciano dei rettangoli, con

la stessa base e altezze pari alle intensità da rappresentare.

Grafico più appropriato:

fenomeno movimento

Grafico più efficace

mostra l’andamento del

fenomeno

Lezione 4

Indici statistici descrittivi: Per trarre delle indicazioni adeguate su un dato fenomeno di interesse non è

sufficiente rappresentare i dati mediante tabelle e grafici di frequenza. Una buona analisi dei dati richiede anche le

caratteristiche principali delle osservazioni ( variabili ) siano sintetizzate con opportune misure e che tali misure

siano adeguatamente analizzate e interpretate. Tipi di misure statistiche di sintesi sono:

 Misure di Posizione o di Tendenza centrale e non centrale ( valori medi ); Misure di Variabilità; Misure di

Forma.

Queste misure costituiscono un sistema di indicatori che descrivono l’insieme dei dati fornendo informazioni sul

problema di interesse.

Breve richiamo alle sommatorie: Una simbologia molto utile e pratica, che permette di scrivere in modo

piuttosto conciso le somme è l’ espressione di sommatoria.

i = 1

n

xi = x 1 + x 2 + … + xn

Proprietà delle sommatorie:

  1. La sommatoria di una somma è pari alla somma delle sommatorie: ∑

i = 1

n

( Xi + Yi )=

i = 1

n

Xi +

i = 1

n

Yi

  1. La sommatoria del prodotto di una costante per una variabile è uguale al prodotto della costante per la

somma della variabile: ∑

i = 1

n

aXi = a

i = 1

n

Xi

  1. Sommare n volte una costante equivale a moltiplicare per n la costante. ∑

i = 1

n

a = na

. Da cui si ricava:

i = 1

n

( a + Xi )= na + ¿

i = 1

n

Xi ¿

Valori medi: Nella maggior parte degli insiemi di dati, le osservazioni mostrano una tendenza a raggrupparsi

attorno a un valore centrale. Risulta in genere quindi possibile selezionare un valore tipico per descrivere ,

rappresentare e sintetizzare un intero insieme di dati. Tale valore descrittivo è detto valore medio (misura di

posizione o di tendenza centrale). In alcune situazioni vengono identificati più valori medi (misure di tendenza

non centrale).

Medie analitiche: Sono quelle che si ottengono dall’applicazione di opportune operazioni matematiche a tutti i

valori del carattere che formano la distribuzione statistica considerata.

Media aritmetica: La media aritmetica è lo strumento statistico più largamente utilizzato e conosciuto per

sintetizzare una variabile quantitativa. Disponendo della lista di valori osservati ( distribuzione unitaria ), la

media si calcola dividendo la somma dei valori osservati per il numero totale di osservazioni. La media aritmetica

di un insieme di n valori x 1 , x 2 ,…, x n di una variabile quantitativa X è data da:

i = 1

N

xi

N

x 1 + x 2 + … + xn

N

La media rappresenta un punto di equilibrio tale che le osservazioni più piccole bilanciano quelle più grandi. Il

calcolo della media si basa su tutte le osservazioni x 1 , x 2 ,…, x n , dell’insieme dei dati.

Media aritmetica per distribuzioni di frequenza: La media aritmetica per una distribuzione di frequenza di

una variabile quantitativa non suddivisa in classi è data dalla somma dei prodotti delle modalità numeriche

osservate per le frequenze corrispondenti diviso il numero delle osservazioni. Ossia da:

i -esimo valore

Numerosità totale

Numero di modalità numeriche

Frequenza osservata per i -esima modalità i -esimo modalità

Pronuncia x medio

Numerosità totale

Valori osservati

Dimostrazione proprietà 3: Dalle proprietà delle sommatorie si ha che ∑

i = 1

N

( xi − μ ) si può scrivere come:

i = 1

N

xi −¿

i = 1

N

μ ¿. Per un’altra proprietà della sommatoria si ha:

i = 1

N

xi −¿ Nμ ¿, infine, sostituendo a μ la sua formula

si ha:

i = 1

N

xi −¿ N

i = 1

N

xi

N

Dimostrazione proprietà 4: Dimostriamo che la quantità al secondo membro è maggiore di quella al primo

i = 1

N

( xi − c )

2

aggiungendo e sottraendo la media si ha ∑

i = 1

N

( xi − μ )−( c − μ )

2

. Lavorando con le parentesi si evidenzia

che si tratta di un quadrato di un binomio: ∑

i = 1

N

( xi − μ )

2

i = 1

N

( c − μ )

2

i = 1

N

( xi − μ ) ( c − μ ).

Poiché ∑

i = 1

N

( c − μ )

2

= N ( c-

2

e ∑

i =!

N

( xi − μ ) ( c − μ )=¿ ( c − μ )

i =!

N

( xi − μ )= 0 ¿. Possiamo scrivere

i = 1

N

( xi − c )

2

i = 1

N

( xi − μ )

2

+ N ( c-μ )

2

i = 1

N

( xi − μ )

2

Dimostrazione proprietà 6: Quotazioni di borsa di un titolo azionario in otto sedute successive: 12.8, 13.0, 13.4,

13.4, 13.6, 13.5, 13.6, 13.7. Se suddividiamo la distribuzione data nelle due seguenti: A. 12.8, 13.0, 13.4, 13.4, 13.6 e

B. 13.5, 13.6, 13.7. Aventi rispettivamente medie pari a 13,240 e 13,600 la media aritmetica della distribuzione

iniziale:

. Può essere ottenuta come:

13.240 × 5 +13.600 × 3

Media armonica: La media armonica di una distribuzione statistica disaggregata, i cui termini sono tutti diversi

da zero, è data dal rapporto tra N e la somma dei reciproci dei termini. μ

a

N

x 1

x 2

xn

N

i

N

xi

. Per

distribuzione di frequenze:

a=

N

i

k

xi

. Mentre per distribuzioni raggruppate in classi:

a=

N

i

k

xi

. Il presupposto

dell’appropriato uso della media armonica è la circostanza che abbia significato la media aritmetica dei reciproci

termini.

Proprietà della media armonica: Per la media armonica valgono le seguenti proprietà:

  1. È compresa tra il minimo e il massimo dei termini della distribuzione. x 1

a

x n

  1. La somma dei reciproci termini della distribuzione è uguale al reciproco della media armonica moltiplicato

per il numero di unità ossia:

i = 1

N

xi

= N 1

a

  1. La media armonica gode della proprietà di omogeneità , se tutti i termini della distribuzione sono

moltiplicati per una costante b≠ 0 , la media armonica dei termini così trasformati è b volte quella calcolata

sui termini originari.

  1. La media armonica gode della proprietà associativa , se un collettivo di N unità e suddiviso in L

sottoinsiemi disgiunti con numerosità N

(1)

, N

(2)

, N

(L)

e medie armoniche μ

a

(1)

a

(2)

a

(L)

la media del

collettivo può essere calcolata come: μ

a=

N

(1)

+ N

(2)

+ …+ N

(L)

/ N

(1)

  • N

(2)

+…+ N

(L)

a

a μ

a

Media armonica per una distribuzione di frequenze a modalità

raggruppate in classi:

Classe Frequenza

Totale 92

Media geometrica: La media geometrica di una distribuzione disaggregata x 1 , x 2 ,…, x n , in cui tutti i termini sono

maggiori di 0 , è data dalla radice N -esima del prodotto dei termini: μ

g

N

x 1 × x 2 ×… × xn

N

i = 1

N

xi

dove μ

g valore

che sostituito agli N termini della successione ne lascia invariato il prodotto. μ

g applicata ad una progressione

geometrica (con N dispari) fornice il termine centrale della progressione.

Proprietà della media geometrica:

1. La μ

g è compreso tra il minimo e il massimo della distribuzione. x 1

g

≤ x

n

  1. Il logaritmo naturale della media geometrica è uguale alla media aritmetica dei logaritmi dei dati: ln

g

N

i = 1

N

ln ¿ ¿x

1

g = exp [

N

i = 1

N

ln ¿ ¿x

1 )]. E per distribuzione di frequenze: ln

g

N

i = 1

N

n

1

ln ( x

1

g

exp [

N

i = 1

N

n

1

ln( x

1

  1. La media geometrica è invariante per trasformazioni del tipo: Y= a X

b

(a

) cioè se si moltiplicano tutte le

modalità per a dopo averle elevate a b , la media geometrica subisce lo stesso tipo di trasformazione.

  1. La media geometrica dei rapporti è uguale al rapporto delle medie geometriche.
  2. Il prodotto dei termini della distribuzione è uguale alla media geometrica elevato a N.
  3. La media geometrica gode della proprietà associativa.

Media geometrica per una distribuzione di frequenze: Distribuzione di frequenze della lunghezza

dell’avambraccio (in cm) in 140 soggetti:

Modalità 41 42 43 44 45 46 47 48 49 50 51 52 53 54 Totale

Frequenza 3 2 6 11 8 17 21 14 17 15 10 10 5 1 140

Modalità n 1 Ln(x) n 1 ln

a

Classe Valore

Central

e

N

i

xi

Totale 82 3,

Totale 140 320.

q

2

× 3 + 42

2

× 2 + … + 54

2

× 1

Medie di potenza: Con il nome di media potenziata d’ordine r, μ

r

si intende la radice di ordine r (presa con segno

positivo delle somme delle r-esime potenze dei dati), divisa per il numero dei termini:

( r )

r

i = 1

N

x

i

r

N

i = 1

N

x

i

r

N

1

r

Per r=-1 si ha la media armonica;

Per r= 1 si ha la media aritmetica;

Per r= 2 si ha la media quadratica;

Per r → 0 si ha la media geometrica;

Per r

si ha il valore minimo;

Per r → + ∞ si ha il valore massimo.

Si dimostra che le medie di potenze sono funzioni crescenti di r cioè:

x

( 1 )

a

g

q

≤ …≤ x

( N )

Lezioni 5

Misure di posizione: Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato.

Moda: La moda è la modalità della variabile maggiormente osservata. Per calcolare la moda è sufficiente calcolare

la distribuzione di frequenza della variabile. La moda è la modalità a cui corrisponde la frequenza assoluta o

relativa (semplice o percentuale) più alta. Quando il carattere è quantitativo e le modalità sono raggruppate in

classi, si parla di classe modale con riferimento alla classe avente la densità di frequenza più alta.

Caratteristiche della moda: La moda può essere calcolata per tutti i tipi di variabili (quantitative e qualitative

misurate su scala ordinale e nominale). La moda non è influenzata dalla presenza di valori estremi. La

distribuzione di una variabile può avere più mode. La moda è informativa solo se vi è una netta prevalenza di una

o più modalità rispetto alle altre. La moda è un indice di posizione di immediata determinazione e ben

interpretabile nei termini del problema perché, a differenza delle medie analitiche, è sicuramente un valore tra

quelli.

Gli svantaggi della moda: Non è rappresentativa della popolazione in esame se due o più modalità, anche

distanti tra loro, presentano frequenze simili, la determinazione di una fra loro può dipendere solo da qualche

osservazione. Ha un comportamento atipico rispetto ad altri indici di posizione, nel senso che non rispetta il

principio di monotonicità. Infatti, se alla distribuzione di una variabile si sostituiscono valori maggiori o minori di

un indice di posizione, logica vorrebbe che l‘indice muti nella stessa direzione; la moda non rispetta sempre questo

principio. È meno stabile e meno oggettiva delle altre misure di tendenze centrale. Può, infatti, differire nella

stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente.

Mediana: La mediana è il valore centrale in un insieme di dati ordinati dal più piccolo al più grande. La mediana è

quindi quel valore della variabile che bipartisce la distribuzione ordinata dei valori osservati in modo tale che

metà (50%) delle osservazioni ha valore inferiore alla mediana e metà ha valore superiore. La mediana può essere

calcolata per variabili (quantitative e qualitative misurate su scala ordinale).

Come si calcola la mediana? In presenza di una distribuzione di n valori individuali ( distribuzione unitaria )

ordinati dal più piccolo al più grande, il calcolo della mediana è:

 Se la numerosità totale dei valori è dispari ¸ la mediana è il valore che occupa la posizione centrale.

Posizione della mediana nella graduatoria ordinata:

N + 1

 Se la numerosità totale dei valori è pari , ci sono due valori centrali in corrispondenza delle posizioni:

N

N

 Se la variabile è quantitativa , la mediana è la media aritmetica dei valori che occupano le due posizioni

centrali; se la variabile è qualitativa , la mediana è uno dei valori che occupano le posizioni centrali.

N + 1

N

N

non sono i valori della mediana, ma le sue posizioni nella graduatoria ordinata dei valori.

Mediana- Il caso delle distribuzioni di frequenze: In presenza di una distribuzione di frequenza di una

variabile quantitativa o qualitativa misurata su scala ordinale (non suddivisa in classi), per il calcolo della mediana

sono immediatamente applicabili le formule viste in precedenza , con l’accortezza di determinare prima di tutto le

frequenze cumulate. È possibile individuare la mediana anche individuando la prima modalità a cui corrisponde

una frequenza cumulata percentuale superiore o uguale al 50%.

Il caso di distribuzioni di frequenze con modalità raggruppate in classi:

  1. Si individua la classe mediana (con la stessa regola vista in precedenza);
  2. All’interno della classe mediana si calcola il valore della mediana, assumendo, l’uniforme distribuzione

delle unità all’interno della classe.

Indichiamo con [c h(sx) , c h(dx) ] la classe mediana. Si considerano le classi reali. La mediana m è data da: m=

c

h(sx)

N

− Nh − 1

Nh − Nh − 1

[c

h(dx)

-c

h(sx)

]

Estremo superiore

Estremo inferiore

Numerosità totale

Frequenze cumulate della classe mediana e di quella precedente