
























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
I concetti di media aritmetica, media armonica, media quadratica, varianza, scostamento semplice medio, mediana, densità di frequenza, devianza e tabella di contingenza in statistica. Vengono descritte le formule per calcolare queste grandezze statistiche e vengono fornite esempi per illustrare le applicazioni pratiche.
Tipologia: Appunti
1 / 64
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

























































Introduzione: Il termine “ Statistica ” deriva da “ Stato ”: all’inizio la Statistica riguardava la raccolta di dati relativi
allo Stato (numerosità della popolazione, numero di cannoni, quantità di raccolta di grano ecc.). Esistono molte
definizioni formali di statistica ma gli ingredienti essenziali sono i dati e l’uso di strumenti di analisi di tipo
quantitativo. La statistica è la disciplina che si occupa di fenomeni, riferibili ad individui (unità, elementi) in
quanto appartenenti a fissate popolazioni (insiemi, aggregati, ecc.) che possono manifestarsi con modalità diverse
da individuo a individuo e che sono collegati (o possono essere collegati) a fenomeni oggetti di specifiche ricerche.
Essa è la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dei
dati, alla rappresentazione sintetica e alla interpretazione dei dati stessi e, laddove ve ne siano condizioni, alla
generalizzazione delle evidenze osservate. La ragione della Statistica risiede nella variabilità dei dati: ogni
carattere assume valori diversi nelle unità statistiche. Se il mondo fosse perfettamente prevedibile e non ci fosse
variabilità, non ci sarebbe bisogno della Statistica.
Cenni storici sullo sviluppo della statistica: La formalizzazione matematica della Statistica è relativamente
giovane: il suo sviluppo è avvenuto in gran parte nei secoli XIX e XX; le sue origini come disciplina autonoma
risalgono al XVII secolo, quando in Inghilterra si sviluppò, a opera di John Graunt (1620- 1674) e William Petty
(1623- 1687), un indirizzo di ricerca che prese il nome di Political Arithmetic , caratterizzato dall’uso del metodo
empirico induttivo, proprio delle scienze naturali, nell’investigazione dei fenomeni demografici e sociali. Nel XVIII
e XIX nasce il calcolo delle probabilità. Il suo sviluppo va ascritto a grandi matematici, tra i quali: Pascal , Laplace ,
Bernoulli , Gauss. Del calcolo delle probabilità ce ne serviamo per quanto riguardo l’utilizzo dell’ inferenza
statistica cioè trarre una conclusione con una determinata probabilità. Essa è arrivata nel 1900, ma si è sviluppata
soprattutto alla fine degli anni 70 con l’utilizzo del computer. Nella prima metà del XX secolo si scoprirono: la
inferenza statistica , il disegno degli esperimenti e il campionamento.
Cosa sono le Statistiche? I dati statistici o, in breve, le Statistiche (percentuali, medie, frequenze di accadimento di
eventi in un intervallo di tempo ecc.) sono le informazioni espresse numericamente e riferite ad un insieme di
unità omogenee detto Insieme di riferimento (persone, oggetti, aziende, situazioni).
Tradizionalmente, si usa suddividere il campo della statistica metodologica in due settori:
Statistica descrittiva: i principi e i metodi della statistica descrittiva riguardano: l’organizzazione,
all’analisi tabellare e grafica, al calcolo di grandezze sintetiche di ciò che si è rinvenuto nella rilevazione.
Essa è anche nota come Analisi esplorativa ( Exploratory Data Analysis ) proposta soprattutto da J. W.
Tukey nel 1977. Si configura come una trattazione preliminare indispensabile per affrontare uno studio
complesso. Utilizza tecniche elementari, soprattutto grafiche, di grande efficacia nell’aiutare a
comprendere l’esito della rilevazione.
Statistica inferenziale: è l’insieme dei metodi che ci permettono di generalizzare i risultati basati su
un’osservazione parziale del fenomeno d’interesse, come nel caso delle indagini campionarie, dove viene
analizzato un campione casuale estratto da una popolazione reale, o come nel caso degli esperimenti o
degli studi di osservazione, dove il campione casuale è generato dalla ripetizione dell’esperimento o
dell’osservazione sul campo nelle stesse condizioni.
Tipologia di popolazione: La popolazione può essere:
Finita/Reale: se include oggetti che possono essere contati ed il conteggio, ad un certo punto si
interrompe.
Enumerabile: le unità sono contabili, ma il conteggio non si interrompe mai.
Infinita: ogni sottoinsieme di popolazione contiene lo stesso numero di entità contenute nella popolazione.
Indeterminata: l’insieme dei soggetti è finito, in quanto esiste un limite fisico non valicabile alla sua
crescita, ma le unità sono sparse o rare al punto da rendere impossibile il loro materiale censimento.
Unità statistiche: Possono essere: semplice , una persona, un albero, un’automobile, un soldato, e composta , una
famiglia, una foresta, una concessionaria, un reggimento…
A volte la corretta definizione di unità statistica richiede una definizione convenzionale molto dettagliata. Per
famiglia si intende un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da
altri vincoli affettivi, coabitanti e aventi dimora abituale nello stesso comune. Una famiglia può essere costituita
anche da una sola persona.
Interessi maturati su di un conto corrente. (Il
conto corrente).
Tipo di riscaldamento di un appartamento.
(L’appartamento).
Numero di testi consigliati in un corso. (Il
corso).
Emissione di gas tossici da un’automobile.
(L’automobile).
Le fonti dei dati possono essere:
Primarie: quando chi raccoglie i dati e chi effettua l’analisi sono la stessa persona.
Secondarie: quando chi effettua l’analisi dei dati è una persona diversa da chi li ha raccolti.
Le fonti dei dati possono essere classificate nelle seguenti categorie:
Dati forniti da un’organizzazione o soggetto
privato;
Dati provenienti da un disegno sperimentale;
Dati provenienti da un’indagine;
Dati provenienti da uno studio
osservazionale;
Dati provenienti da attività di business
continuative.
Varie sono le fonti statistiche nazionali e internazionali che forniscono dati statistici di diversa natura sui
molteplici aspetti della vita a livello di singolo Paese o a livello internazionale.
Fonti di dati statistici nazionali: In Italia, alla produzione e diffusione delle statistiche relative a tutti gli aspetti
della vita del paese è preposto l’ ISTAT , l’Istituto Nazionale di Statistica, un ente di ricerca pubblico con
ordinamento autonomo, sottoposto alla vigilanza della Presidenza del Consiglio dei ministri. Dal 1989 l’ISTAT
svolge un ruolo di indirizzo, coordinamento, assistenza tecnica e formazione all’interno del Sistema statistico
nazionale ( SISTAN ) che è la rete degli Uffici statistici di tutte le amministrazioni pubbliche centrali e territoriali e
degli enti di rilevanza nazionale, rete che ha come obiettivo principale la razionalizzazione della produzione e
diffusione delle informazioni e l’ottimizzazione delle risorse destinate alle statistiche ufficiali, ossia le statistiche
prodotte dall’ISTAT e dai sistemi pubblici a esso collegati. Fanno parte anche gli Uffici di Statistica centrali e
periferici dell’amministrazione dello Stato. Quelle regionali delle Provincie e dei Comuni, delle Unità sanitarie
locali, della Camera di commercio e tutti gli Uffici di Statistica comunque denominati, di enti e amministrazioni
pubbliche. Vari enti, pubblici o privati, producono e rendono disponibili statistiche settoriali: la Banca d’Italia, le
Camere di commercio, l’ ACI , l’ INPS , l’ INAIL.
Fonti dei dati statistici internazionali: L’ EUROSTAT è l’Ufficio statistico dell’Unione europea. È una Direzione
generale della Commissione europea che raccoglie ed elabora i dati provenienti dagli Istituti di Statistica dagli Stati
membri dell’Unione europea, promuovendo il processo di armonizzazione delle metodologie statistiche adottate
dagli Istituti di statistica degli Stati membri al fine di produrre, a beneficio dell’UE, dati statistici di qualità
comparabili tra Paesi e regioni. Tra le sue attività principali vi è la definizione di dati macroeconomici a supporto
delle decisioni della Banca centrale europea relative alla definizione delle politiche monetarie per l’euro. Oltre
all’ISTAT e ai differenti enti che fanno parte del SISTAN, vari altri enti, pubblici e privati producono e rendono
disponibili statistiche settoriali, tra cui a livello internazionale: la Banca centrale europea , la Commissione
statistica delle Nazioni Unite , il Fondo monetario internazionale , la Banca mondiale , l’ Organizzazione per la
cooperazione e lo sviluppo economico , l’ Organizzazione mondiale delle sanità , l’ Organizzazione delle Nazioni
Unite per l’alimentazione e l’agricoltura.
Terminologia essenziale: Si chiama collettivo statistico la molteplicità, l’insieme di casi individuali, in cui si
manifesta il fenomeno oggetto di studio. L’espressione collettivo statistico è appropriata sia per designare la
“totalità dei casi” individuali in cui il fenomeno studiato si manifesta ( popolazione ), sia per indicare la “parte della
totalità dei casi” che viene sottoposta a osservazione ( campione ). Si chiama unità statistica , il caso individuale
componente del collettivo statistico oggetto di studio. Si chiama carattere , ogni aspetto elementare, ogni
caratteristica oggetto di rilevazione nelle unità statistiche del collettivo. Si chiama modalità , del carattere i diversi
modi con cui questo si manifesta nelle unità statistiche del collettivo.
Il carattere statistico può essere una distanza, una numerosità, una forma, un grado, una composizione di
caratteristiche da trattare in modo aggregato. Dal punto di vista della definizione statistica qualunque carattere si
“articola” in modalità ossia modi di essere. Le modalità devono essere almeno:
Esaustive (devono rappresentare tutti i possibili modi di manifestarsi del carattere);
Non sovrapposte (ad ogni unità si può associare una sola modalità);
Soggette a variazione ossia presentarsi con almeno due valori o categorie distinte in corrispondenza delle
diverse unità statistiche del collettivo.
Genesi dei dati statistici: I dati statistici traggono origine da un’attività intenzionale rivolta all’acquisizione di
informazioni sul fenomeno o sui fenomeni di interesse. I diversi processi che danno origine ai dati statistici sono:
Indagine statistica: i dati che si vogliono acquisire si riferiscono a un collettivo statistico reale, detto
popolazione finita , le cui unità sono entità (persone, imprese, abitazioni ecc.) esistenti, individuabili e
osservabili.
Esperimento: quando persone, animali o oggetti vengono sottoposti a un “trattamento” per osservare su di
essi la risposta, ossia la reazione al trattamento.
Studio di osservazione o sul campo: in cui non esiste una popolazione finita da indagare, né vi sono unità
statistiche che il ricercatore decide di assegnare ai diversi trattamenti.
Si parla di indagine statistica quando lo studio statistico riguarda un collettivo statistico, le cui unità sono entità
(persone, imprese, abitazioni ecc.) individuabili e osservabili, che viene chiamato popolazione reale o finita. Le
indagini statistiche su popolazione finite possono essere:
Censuaria: quando lo studio statistico è condotto con l’osservazione della totalità delle unità del collettivo
di riferimento.
Campionaria: quando l’osservazione è limitata su di un sottoinsieme del collettivo di riferimento, ossia a
un campione.
L’acquisizione di nuovi dati è dovuta al fatto che la base informativa di un problema non è soddisfacente. È utile e
praticabile realizzarne una nuova o integrare quella esistente. Le fasi di un’indagine statistica sono: piano di
rilevazione, raccolta dei dati, classificazione e lo spoglio dei dati, elaborazione dei dati e interpretazione dei
risultati.
Piano di rilevazione: specifica tutti gli aspetti dello studio. Dopo aver definito il fenomeno oggetto di
studio, bisogna definire:
- Scelta del campo d’indagine: la scelta e la definizione statistica sia delle unità dei caratteri. - Scelta del metodo di rilevazione: può essere:
può essere totale ( coinvolgono tutti gli elementi di una popolazione) o parziale (la rilevazione
è estesa solo ad una parte, comunque scelta, di popolazione).
Indirettamente: tramite raccolta di dati statistici prodotti da enti.
Attraverso osservazioni di tipo sperimentale.
- Scelta del periodo di rilevazione: quando effettuare la raccolta.
Il personale e l’organizzazione necessaria.
Strumenti necessari alla rilevazione ed elaborazione dei dati.
Tempi e costi sia di rilevazione sia di elaborazioni.
Diffusione dei risultati (pubblicazioni, convegni, ecc.)
Le rilevazioni totali o censimenti sono quelle in cui sono enumerate o misurate tutte ed indistintamente le unità
della popolazione. Le rilevazioni totali possono essere: generali , riguardano la rilevazione di tutte le unità rispetto
alle variabili di interesse ( popolazione ) e speciali , riguardano la rilevazione delle sole unità rispondenti a certe
specifiche ( sottopopolazione ).
Le rilevazioni parziali sono limitate da una parte delle unità della popolazione o sottopopolazione scelta in base ad
opportuni criteri. La parte esaminata si chiama campione. La riduzione delle unità propria del metodo
campionario è valida solo se permette il raggiungimento di risultati molto prossimi di quelli ottenibili con la
totale. Le esperienze consolidate dimostrano che si può dare pieno affidamento ai campioni purché scelti con
accuratezza.
Perché il campione? Esso ha un costo eccessivo o richiede grandi organizzazioni, richiede troppo tempo ed è
teorica cioè parte delle sue unità non esiste ancora o non esiste più. È superflua, rischiosa, distruttiva, non è veloce.
Campionamento casuale o probabilistico: Metodologia che fornisce le regole per la formazione del campione
assegnando alle unità della popolazione probabilità non nulle di far parte del campione. I suoi vantaggi sono:
oggettività nella selezione delle unità statistica, possibilità di utilizzare le apposite tecniche statistiche per il
cosiddetto riporto all’universo ossia per l’estensione all’intera popolazione delle elaborazioni effettuate (secondo
certi procedimenti) sui dati osservati nel campione. Le modalità per formare un campione casuale sono molteplici:
Campione casuale semplice (C.C.S.): Le unità sono selezionate con un meccanismo aleatorio in modo tale che
tutte le unità della popolazione hanno la stessa probabilità di essere inserite nel campione. Se indichiamo con N il
numero delle unità della popolazione e con n la numerosità del campione. Se si numerano tutte le unità statistiche
possono essere selezionate con o senza ripetizione. In un campionamento con ripetizione (o remissione), dopo
aver estratto e osservato una unità, la si reinserisce nella popolazione, così che avrà nuovamente le stesse
più volte, per evitare questo rischio è possibile adottare uno schema senza ripetizione in cui, una volta estratto, un
soggetto non può più far parte del campione. In questo modo le unità statistiche alla prima estrazione avranno
Campionamento sistematico: Nel campionamento si assume che la numerosità N della popolazione sia un
multiplo della dimensione del campione n e che le unità siano elencate in una lista. Si dice passo di
campionamento il rapporto k =N/n. Nel caso in cui N non è un multiplo di n il passo di campionamento è ottenuto
sistematico è necessario selezionare a caso un soggetto tra i primi k nella popolazione, per poi selezionare i
Campionamento stratificato: Nel campionamento stratificato la popolazione di N soggetti, in presenza di
informazioni aggiuntive, è suddivisa in varie sottopopolazioni dette strati , omogenee al loro interno. In altre
parole, uno strato è una sottopopolazione che viene definita sulla base di qualche caratteristica comune (detta
variabile di stratificazione ) quale per esempio il sesso o l’anno d’iscrizione a scuola. Successivamente da ogni
strato si estrae un campione casuale semplice, per poi combinare i sotto campioni in un unico campione. Il
campionamento stratificato è molto più efficiente sia del campionamento casuale semplice che del campionamento
sistematico poiché garantisce che le varie sottopopolazioni siano adeguatamente rappresentate nel campione.
Campionamento causale a grappolo: Nel campionamento casuale a grappoli le N unità statistiche della
popolazione sono divisi in gruppi o grappoli, in cui ciascun gruppo è rappresentativo di per sé dell’intera
popolazione. I gruppi solitamente sono insiti nel fenomeno oggetto di studio: ad esempio, i comuni, le famiglie, i
punti vendita, i distretti elettorali, ecc.. In questo schema di campionamento si seleziona un campione di uno o più
gruppi e si analizzano tutte le unità statistiche contenute nel gruppo come se fosse un grappolo. Il campionamento
a grappolo è generalmente più economico del campionamento casuale semplice, in particolare se la popolazione è
sparpagliata su un ampio territorio. Tuttavia, tale tipo di campionamento ha bisogno di numerosità campionarie
più ampie rispetto al campionamento casuale semplice e stratificato per produrre stime altrettanto precise.
Altri piani di campionamento:
- Campionamento per quote: La popolazione viene divisa in quote ( strati ) in base ad alcune sue
caratteristiche strutturali. Si definiscono le quote, ossia il numero di persone da intervistare in ogni quota
ma è lasciata all’intervistatore la scelta delle persone da intervistare;
- Campionamento a valanga: Si individua un gruppo di persone, in possesso di determinate caratteristiche,
da intervistare. Successivamente, queste stesse persone saranno chiamate a individuare altri soggetti con
le stesse caratteristiche. È molto utilizzato per lo studio di fenomeni non istituzionalizzati o di natura
clandestina ed è particolarmente utile nei casi in cui non si conosca a priori né l’entità del fenomeno né la
lista dei soggetti su cui effettuare la rilevazione;
- Campionamento per testimoni privilegiati: Si tratta di identificare ed intervistare persone esperte del
fenomeno oggetto di studio;
- Campionamento accidentale: Es.: mi metto all’angolo di una strada e scelgo il primo caso che capita,
senza criteri definiti, ma solo in ragione di praticità e velocità.
Distribuzioni e sintesi dei dati: I dati sono un lungo elenco di valori ed è difficile trovare una regolarità. Come fa
uno studente a confrontare la sua altezza con quella dei suoi compagni? Meglio usare una sintesi dei valori. La
metà delle altezze è superiore a 1.75 cm e l’altra metà è inferiore a questo valore, il 50% centrale dei valori è
compreso tra 1.68 e 1.80 cm. Questa sintesi fornisce due informazioni: il valore centrale è 1.75 cm e le altezze si
distribuiscono intorno a questo valore, variando tra 1.68 e 1.80 cm nella parte centrale (50% delle altezze) della
distribuzione; se uno studente è alto 1.78 cm, in base a questa sintesi sa subito che la sua altezza si trova nella
parte centrale della distribuzione, vicino al valore centrale. Spesso questo tipo di sintesi fornisce tutte le
informazioni necessarie per capire l’andamento del fenomeno, soprattutto quando la forma della distribuzione è
una di quelle tipiche.
Matrice dei dati: L’organizzazione più naturale, legata all’operazione di registrazione dei dati su supporto
magnetico, consiste nel disporre i dati statistici secondo lo schema di una matrice, denominata matrice dei dati. I
una unità di osservazione. Ogni colonna della matrice corrisponde ad una variabile. Si definisce distribuzione
unitaria di una data variabile l’elenco di tutti i valori osservati unità per unità.
Distribuzioni di frequenza: Per poter procedere nell’analisi di un fenomeno nei suoi vari aspetti rilevanti, è
necessario sintetizzare le distribuzioni unitarie delle variabili. Una prima forma di sintesi è data dal calcolo delle
distribuzioni di frequenza. Essa descrive il modo in cui una o più variabili (caratteristiche) si manifestano
( distribuiscono ) in un dato collettivo (campione o popolazione).
Una singola variabile: distribuzioni semplici. È un’organizzazione dei dati in forma tabellare tale che ad
ogni modalità di una certa variabili (qualitativa o quantitativa) si fa corrispondere la frequenza assoluta
ovvero il numero di volte che la modalità si presenta nel collettivo in esame.
Due variabili: distribuzioni doppie. Esse sono il risultato dello spoglio dei dati basato su una preliminare
definizione delle modalità e delle eventuali classi. Considerando congiuntamente due colonne della matrice
dei dati, l’insieme delle coppie di modalità dei due caratteri che si osservano costituisce una distribuzione
doppia disaggregata.
Più di due variabili: distribuzioni multiple. Si ha distribuzione tripla se si considerano congiuntamente
tre caratteri (tre colonne della matrice dei dati); distribuzione quadrupla se si considerano
congiuntamente quattro caratteri, e così via. Anche in questo caso, le distribuzioni si distinguono in
disaggregate e di frequenze, a seconda che i dati si considerino allo stato grezzo o che sia proceduto allo
spoglio.
Nella creazione delle classi è necessario prestare attenzione a scegliere un numero adeguato di classi ,
determinando un’opportuna ampiezza definendo gli estremi di ogni classe facendo attenzione ad includere tutti i
valori osservati e a non creare sovrapposizioni. La scelta dell’ampiezza e del numero delle classi dipende da: la
dispersione dei valori osservati ( variabilità ), la numerosità totale dell’insieme delle osservazioni e le finalità
conoscitive. In generale si preferiscono: intervallo di uguale ampiezza quando l’attenzione è orientata allo studio
della distribuzione della variabile, intervalli di ampiezza variabile quando ogni classe identifica e qualifica una
“ tipologia ”. Una diversa definizione del numero e/o degli estremi e/o dell’ampiezza delle classi genera una
differente espressione della frequenza, che può essere anche sensibile se la numerosità dei dati è ridotta.
Raggruppamento in classi: Quando il carattere è quantitativo e il numero di osservazione è elevato la
presentazione dei dati richiede necessariamente che le modalità contigue siano aggregate tramite la formazione di
classi cioè di intervalli numerici (tra loro disgiunti) comprendenti più modalità. Alle classi reali si giunge
sottraendo all’estremo sinistro e aggiungendo all’estremo destro di ciascun intervallo una stessa quantità. Pari a
0,5 se le osservazioni sono espresse da numeri interi; pari a 0,05 se le osservazioni sono espresse da numeri con
una cifra decimale; pari a 0,005 se le osservazioni sono espresse da numeri con due cifre decimali, e così via. In tal
modo non sussiste la possibilità che un dato coincida con un estremo di classe. Quando gli estremi di classe sono
numeri che presentano la stessa precisione (cioè lo stesso numero di cifre decimali) delle osservazioni da
classificare, è necessario stabilire la cosiddetta chiusura delle classi. In termini generali, una classe è “chiusa a
destra” se include le unità che presentano modalità esattamente uguali all’estremo destro della classe; mentre è
“chiusa a sinistra” se include le unità che presentano modalità esattamente uguali all’estremo sinistro.
Classe chiusa a sinistra: [a, b); Classe chiusa a destra: (a, b]; Classe chiusa a destra e a sinistra: [a, b].
Per classi di uguale ampiezza , ci si può orientare nella definizione della lunghezza di ogni intervallo, dividendo il
range dei valori osservati (cioè l’intervallo definito dal più piccolo e dal più grande valore osservato) per il
numero delle classi considerato.
Frequenze relative: Le frequenze relative indicano il peso , il contributo relativo di ogni modalità al totale. Sono
ottenute dividendo le frequenze assolute corrispondenti ad ogni modalità o ad ogni classe di valori, per il totale
delle unità osservate:
i
Frequenze relative perché? Facilita la percezione del peso delle modalità e facilita confronti tra popolazioni. Ma
attenzione l’attendibilità delle frequenze relative dipende dalla numerosità della popolazione.
Frequenze percentuali: Spesso alle frequenze relative semplici sono preferibili quelle percentuali , ottenute
moltiplicando le prime per 100:
%
Nella distribuzione di frequenza possiamo associare ad ogni modalità di una certa variabile (qualitativa o
quantitativa) anche la frequenza relativa e quella relativa percentuale. Quando la variabile è quantitativa
continua bisogna classificare le modalità in intervalli di valori ( classi ) e calcolare le frequenze delle unità
statistiche che presentano valori compresi in tali intervalli. È bene ricorrere al raggruppamento in classi anche per
le variabili quantitative discrete che assumono molti valori.
Frequenze cumulate: La frequenza cumulata assoluta (relativa) associata ad una modalità della variabile indica il
numero (la proporzione) di osservazioni che presentano un valore minore o uguale rispetto a quello della
modalità.
i
1
2
i
Si può utilizzare solo se il carattere è misurato almeno su scala ordinale. La distribuzione di frequenze cumulate e
retro cumulate consistono nel sommare via via tutte le osservazioni che presentano il valore inferiore (cumulate) o
quello superiore (retro cumulate) ad una data modalità.
Frequenze cumulate: hanno senso? Le frequenze cumulate possono sempre essere calcolate, ma hanno senso
solo se le modalità sono ordinabili cioè per tutte le variabili numeriche e per le variabili categoriche solo se
ordinali.
Densità di frequenza: Per distribuzioni di frequenza di variabili quantitative ( discrete o continue ) classificate in
classi di diverse ampiezze, è utile calcolare per ogni classe la densità di frequenza , ottenuta rapportando la
frequenza di ciascuna classe alla propria ampiezza. Sia ( c i- , c i ) la generica classe di una distribuzione di frequenze
con modalità raggruppate in classi. Si chiama densità di frequenza della classe il rapporto:
i
Rappresentazioni grafiche: Esse hanno lo scopo di visualizzare la composizione di un insieme di dati cioè della
variabile statistica. I vantaggi delle rappresentazioni grafiche sono fornire una visione sintetica ed essere
facilmente interpretabili, l’inconveniente è di mancare di precisione e soprattutto d’essere soggettive cioè di
permettere letture diverse degli stessi dati. Il giudizio su una rappresentazione grafica si può basare su cinque
aspetti:
Accuratezza: precisione nei dettagli;
Semplicità: uso di soli elementi grafici;
Distribuzioni di frequenze per caratteri quantitativi: La rappresentazione grafica più idonea per una
distribuzione di frequenza secondo un carattere discreto è quella cartesiana. La rappresentazione grafica si
effettua ponendo sull’asse delle ascisse le modalità x 1 , x 2 , …, x k e sull’asse delle ordinate le frequenze
corrispondenti n 1 , n 2 , …, n k
. La rappresentazione grafica va denominato diagramma ad aste.
Funzione di ripartizione: Considerano il sottoinsieme così definito:
x
costituito dalle unità del
collettivo in cui il carattere assume un valore minore o uguale a un livello assegnato x. Si chiama funzione di
ripartizione , F(x), il rapporto tra la numerosità di C x e il totale delle unità N. Si tratta della frequenza relativa
delle unità del collettivo nelle quali il carattere assume un valore non superiore alla quantità x.
Proprietà della funzione di ripartizione: È definita per qualsiasi valore
di x; Assume il valore di 0 quando x è minore di x 1 (perché nel collettivo
non vi sono unità con modalità più piccole di x 1 ); Assume il valore 1
quando x è maggiore o uguale a x k (perché nel collettivo non vi sono unità
con modalità maggiori di x maggiori di x k ); È pari a F i- quando
i
i
E non è decrescente.
Grafici a barre: Nei diagrammi a barre e a nastri ( orto grammi ) ogni frequenza o intensità della distribuzione
viene rappresentata da una barra o da un nastro in modo da ottenere una successione di rettangolo con la stessa
base (o altezza) e le altezze (o le basi) proporzionali alle frequenze o quantità. Quando il carattere è qualitativo
ordinato o quantitativo, è preferibile utilizzare il grafico a barre poiché le barre poste sull’asse orizzontale
permettono di cogliere meglio l’ordinamento delle modalità.
Diagrammi a barre per variabili qualitative: Barre verticali, categorie lungo l’asse orizzontale; Altezze
proporzionali alle frequenze (assolute o relative); In alternativa: barre orizzontali (preferibile se le modalità sono
molte).
Ordine delle barre:
Variabili sconnesse: nel diagramma per il mezzo di trasporto o in quello dell’arrivo a scuola in orario
l’ordine delle barre è completamente arbitrario.
Variabili ordinali: nel diagramma dell’ora in cui ci si alza le categorie sono ordinate e quindi devono
essere rappresentate nell’ordine giusto per vedere l’andamento delle frequenze.
7:30 e oltre
7:00- 7:
6:30- 6:
6:00-6:
Prima delle
6:
0 5 10 15 20 25 30 35 40 45
Ora sveglia
SI NO
0
10
20
30
40
50
60
70
Arrivo a lezione in orario
Diagramma a barre accostate: Valutazione della risposta all’applicazione di due farmaci antipiretici a cento
pazienti. Confrontando le barre adiacenti possiamo vedere che prevale il farmaco A solo per il miglioramento
confrontando le barre a punti, possiamo vedere che per il farmaco B prevale la guarigione. Le barre del diagramma
rappresentano le frequenze congiunte.
Confrontando le barre adiacenti possiamo vedere che sia tra i maschi
che tra le femmine prevalgono i non fumatori. Confrontandolo le due
barre blu, possiamo vedere che tra i fumatori ci sono più maschi che
femmine.
Diagramma a barre in pila:
Per capire qual è la
proporzione di fumatori tra i maschi e le femmine, conviene impilare
le barre.
Diagramma a barre in pila 100%: Per confrontare le proporzioni di
fumatori tra i maschi e le femmine, conviene impilare le barre usando le
percentuali di colonna anziché le frequenze.
Diagramma a torta: Si usano in presenza di distribuzioni delle frequenze relative percentuali di una variabile
suddivisa in classi. Evidenziano come sono distribuite le singole parti, rispetto all’intero: la torta (cerchio)
devono essere proporzionali alle percentuali x% che vogliono rappresentare, in accordo con la relazione:
Barre o torta? Con il diagramma a barre si ha una migliore percezione delle differenze, mentre con il diagramma a
torta si ha una migliore percezione della composizione.
Classificazione
Farmaco
Farmaco
Peggioramento 3 5
Nessuna
variazione
Lieve
miglioramento
Miglioramento 52 29
Guarigione 26 43
Totale 100 100
Femmina Maschio
Fumo
no
Fumo
sì
Femmina Maschio
Fumo
no
Fumo
sì
Femmina Maschio
Fumo
no
Fumo
sì
Femmina Maschio
Fumo
no
Fumo
sì
Peggioramento Nessuna
variazione
Lieve
miglioramento
Miglioramento Guarigione
0
10
20
30
40
50
60
Farmaco A Farmaco B
Mascio
Femmina
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Fumo sì Fumo no
Maschio
Femmina
0 5 10 15 20 25 30 35 40
Fumo sì Fumo no
Maschio
Femmina
0 5 10 15 20 25 30
Fumo no Fumo sì
ordinate le intensità associate: i conseguenti punti del piano cartesiano vengono poi uniti con segmenti di retta
per facilitare la percezione visiva dell’andamento del fenomeno. Quando la serie storica riguarda un fenomeno di
movimento, una rappresentazione grafica appropriata è quella a nastri. I periodi vengono indicati lunga una linea
orizzontale, mentre su un asse verticale viene riportata la scala; sulla base di questa, si tracciano dei rettangoli, con
la stessa base e altezze pari alle intensità da rappresentare.
Grafico più appropriato:
fenomeno movimento
Grafico più efficace
mostra l’andamento del
fenomeno
Indici statistici descrittivi: Per trarre delle indicazioni adeguate su un dato fenomeno di interesse non è
sufficiente rappresentare i dati mediante tabelle e grafici di frequenza. Una buona analisi dei dati richiede anche le
caratteristiche principali delle osservazioni ( variabili ) siano sintetizzate con opportune misure e che tali misure
siano adeguatamente analizzate e interpretate. Tipi di misure statistiche di sintesi sono:
Misure di Posizione o di Tendenza centrale e non centrale ( valori medi ); Misure di Variabilità; Misure di
Forma.
Queste misure costituiscono un sistema di indicatori che descrivono l’insieme dei dati fornendo informazioni sul
problema di interesse.
Breve richiamo alle sommatorie: Una simbologia molto utile e pratica, che permette di scrivere in modo
piuttosto conciso le somme è l’ espressione di sommatoria.
∑
i = 1
n
Proprietà delle sommatorie:
i = 1
n
∑
i = 1
n
∑
i = 1
n
somma della variabile: ∑
i = 1
n
∑
i = 1
n
i = 1
n
. Da cui si ricava:
∑
i = 1
n
∑
i = 1
n
Valori medi: Nella maggior parte degli insiemi di dati, le osservazioni mostrano una tendenza a raggrupparsi
attorno a un valore centrale. Risulta in genere quindi possibile selezionare un valore tipico per descrivere ,
rappresentare e sintetizzare un intero insieme di dati. Tale valore descrittivo è detto valore medio (misura di
posizione o di tendenza centrale). In alcune situazioni vengono identificati più valori medi (misure di tendenza
non centrale).
Medie analitiche: Sono quelle che si ottengono dall’applicazione di opportune operazioni matematiche a tutti i
valori del carattere che formano la distribuzione statistica considerata.
Media aritmetica: La media aritmetica è lo strumento statistico più largamente utilizzato e conosciuto per
sintetizzare una variabile quantitativa. Disponendo della lista di valori osservati ( distribuzione unitaria ), la
media si calcola dividendo la somma dei valori osservati per il numero totale di osservazioni. La media aritmetica
di un insieme di n valori x 1 , x 2 ,…, x n di una variabile quantitativa X è data da:
∑
i = 1
N
La media rappresenta un punto di equilibrio tale che le osservazioni più piccole bilanciano quelle più grandi. Il
calcolo della media si basa su tutte le osservazioni x 1 , x 2 ,…, x n , dell’insieme dei dati.
Media aritmetica per distribuzioni di frequenza: La media aritmetica per una distribuzione di frequenza di
una variabile quantitativa non suddivisa in classi è data dalla somma dei prodotti delle modalità numeriche
osservate per le frequenze corrispondenti diviso il numero delle osservazioni. Ossia da:
i -esimo valore
Numerosità totale
Numero di modalità numeriche
Frequenza osservata per i -esima modalità i -esimo modalità
Pronuncia x medio
Numerosità totale
Valori osservati
Dimostrazione proprietà 3: Dalle proprietà delle sommatorie si ha che ∑
i = 1
N
∑
i = 1
N
∑
i = 1
N
∑
i = 1
N
si ha:
∑
i = 1
N
∑
i = 1
N
Dimostrazione proprietà 4: Dimostriamo che la quantità al secondo membro è maggiore di quella al primo
∑
i = 1
N
2
aggiungendo e sottraendo la media si ha ∑
i = 1
N
2
. Lavorando con le parentesi si evidenzia
che si tratta di un quadrato di un binomio: ∑
i = 1
N
2
∑
i = 1
N
2
i = 1
N
Poiché ∑
i = 1
N
2
= N ( c-
2
e ∑
i =!
N
∑
i =!
N
∑
i = 1
N
2
∑
i = 1
N
2
2
∑
i = 1
N
2
Dimostrazione proprietà 6: Quotazioni di borsa di un titolo azionario in otto sedute successive: 12.8, 13.0, 13.4,
13.4, 13.6, 13.5, 13.6, 13.7. Se suddividiamo la distribuzione data nelle due seguenti: A. 12.8, 13.0, 13.4, 13.4, 13.6 e
B. 13.5, 13.6, 13.7. Aventi rispettivamente medie pari a 13,240 e 13,600 la media aritmetica della distribuzione
iniziale:
. Può essere ottenuta come:
Media armonica: La media armonica di una distribuzione statistica disaggregata, i cui termini sono tutti diversi
a
∑
i
N
. Per
distribuzione di frequenze:
a=
∑
i
k
. Mentre per distribuzioni raggruppate in classi:
a=
∑
i
k
. Il presupposto
dell’appropriato uso della media armonica è la circostanza che abbia significato la media aritmetica dei reciproci
termini.
Proprietà della media armonica: Per la media armonica valgono le seguenti proprietà:
a
x n
per il numero di unità ossia:
∑
i = 1
N
a
sui termini originari.
(1)
(2)
(L)
a
(1)
a
(2)
a
(L)
la media del
a=
(1)
(2)
(L)
(1)
(2)
(L)
a
a
Media armonica per una distribuzione di frequenze a modalità
raggruppate in classi:
Classe Frequenza
Totale 92
Media geometrica: La media geometrica di una distribuzione disaggregata x 1 , x 2 ,…, x n , in cui tutti i termini sono
g
N
√
N
√
∏
i = 1
N
g valore
g applicata ad una progressione
geometrica (con N dispari) fornice il termine centrale della progressione.
Proprietà della media geometrica:
g è compreso tra il minimo e il massimo della distribuzione. x 1
g
n
g
∑
i = 1
N
1
g = exp [
∑
i = 1
N
1 )]. E per distribuzione di frequenze: ln
g
∑
i = 1
N
1
1
g
exp [
∑
i = 1
N
1
1
b
(a
) cioè se si moltiplicano tutte le
modalità per a dopo averle elevate a b , la media geometrica subisce lo stesso tipo di trasformazione.
Media geometrica per una distribuzione di frequenze: Distribuzione di frequenze della lunghezza
dell’avambraccio (in cm) in 140 soggetti:
Modalità 41 42 43 44 45 46 47 48 49 50 51 52 53 54 Totale
Frequenza 3 2 6 11 8 17 21 14 17 15 10 10 5 1 140
Modalità n 1 Ln(x) n 1 ln
a
Classe Valore
Central
e
i
Totale 82 3,
Totale 140 320.
q
2
2
2
r
si intende la radice di ordine r (presa con segno
positivo delle somme delle r-esime potenze dei dati), divisa per il numero dei termini:
( r )
r
∑
i = 1
N
i
r
∑
i = 1
N
i
r
1
r
Per r=-1 si ha la media armonica;
Per r= 1 si ha la media aritmetica;
Per r= 2 si ha la media quadratica;
Per r
si ha il valore minimo;
Si dimostra che le medie di potenze sono funzioni crescenti di r cioè:
( 1 )
a
g
q
( N )
Misure di posizione: Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato.
Moda: La moda è la modalità della variabile maggiormente osservata. Per calcolare la moda è sufficiente calcolare
la distribuzione di frequenza della variabile. La moda è la modalità a cui corrisponde la frequenza assoluta o
relativa (semplice o percentuale) più alta. Quando il carattere è quantitativo e le modalità sono raggruppate in
classi, si parla di classe modale con riferimento alla classe avente la densità di frequenza più alta.
Caratteristiche della moda: La moda può essere calcolata per tutti i tipi di variabili (quantitative e qualitative
misurate su scala ordinale e nominale). La moda non è influenzata dalla presenza di valori estremi. La
distribuzione di una variabile può avere più mode. La moda è informativa solo se vi è una netta prevalenza di una
o più modalità rispetto alle altre. La moda è un indice di posizione di immediata determinazione e ben
interpretabile nei termini del problema perché, a differenza delle medie analitiche, è sicuramente un valore tra
quelli.
Gli svantaggi della moda: Non è rappresentativa della popolazione in esame se due o più modalità, anche
distanti tra loro, presentano frequenze simili, la determinazione di una fra loro può dipendere solo da qualche
osservazione. Ha un comportamento atipico rispetto ad altri indici di posizione, nel senso che non rispetta il
principio di monotonicità. Infatti, se alla distribuzione di una variabile si sostituiscono valori maggiori o minori di
un indice di posizione, logica vorrebbe che l‘indice muti nella stessa direzione; la moda non rispetta sempre questo
principio. È meno stabile e meno oggettiva delle altre misure di tendenze centrale. Può, infatti, differire nella
stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente.
Mediana: La mediana è il valore centrale in un insieme di dati ordinati dal più piccolo al più grande. La mediana è
quindi quel valore della variabile che bipartisce la distribuzione ordinata dei valori osservati in modo tale che
metà (50%) delle osservazioni ha valore inferiore alla mediana e metà ha valore superiore. La mediana può essere
calcolata per variabili (quantitative e qualitative misurate su scala ordinale).
Come si calcola la mediana? In presenza di una distribuzione di n valori individuali ( distribuzione unitaria )
ordinati dal più piccolo al più grande, il calcolo della mediana è:
Se la numerosità totale dei valori è dispari ¸ la mediana è il valore che occupa la posizione centrale.
Posizione della mediana nella graduatoria ordinata:
Se la numerosità totale dei valori è pari , ci sono due valori centrali in corrispondenza delle posizioni:
Se la variabile è quantitativa , la mediana è la media aritmetica dei valori che occupano le due posizioni
centrali; se la variabile è qualitativa , la mediana è uno dei valori che occupano le posizioni centrali.
non sono i valori della mediana, ma le sue posizioni nella graduatoria ordinata dei valori.
Mediana- Il caso delle distribuzioni di frequenze: In presenza di una distribuzione di frequenza di una
variabile quantitativa o qualitativa misurata su scala ordinale (non suddivisa in classi), per il calcolo della mediana
sono immediatamente applicabili le formule viste in precedenza , con l’accortezza di determinare prima di tutto le
frequenze cumulate. È possibile individuare la mediana anche individuando la prima modalità a cui corrisponde
una frequenza cumulata percentuale superiore o uguale al 50%.
Il caso di distribuzioni di frequenze con modalità raggruppate in classi:
delle unità all’interno della classe.
Indichiamo con [c h(sx) , c h(dx) ] la classe mediana. Si considerano le classi reali. La mediana m è data da: m=
h(sx)
h(dx)
h(sx)
Estremo superiore
Estremo inferiore
Numerosità totale
Frequenze cumulate della classe mediana e di quella precedente