













































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica introduttiva alla statistica, coprendo concetti fondamentali come le distribuzioni di frequenza, le misure di posizione (media, mediana, moda) e le misure di variabilità (range interquartile, deviazione standard). Come calcolare queste misure per variabili qualitative e quantitative, fornendo esempi pratici e formule per il calcolo. Inoltre, vengono introdotti concetti chiave come la variabile casuale, la funzione di probabilità e la funzione di ripartizione.
Tipologia: Appunti
1 / 53
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!














































La Statistica:
a. È una disciplina scientifica che studia metodi e
strumenti per acquisire conoscenza su un’ampia
varietà di problemi e fenomeni in molti ambiti
applicativi (scienze sociali, economiche, …).
b. Non affronta o risolve casi individuali, ma cerca di
giungere a conclusioni generali su fenomeni
collettivi e alla discussione critica della loro
validità a partire dalla conoscenza aggregata
risultante da un insieme di casi singoli
(popolazione o campione) accomunati da regole e
definizioni, sui quali è osservato e analizzato un
insieme di caratteristiche (variabili).
c. Fornisce ragionamenti e metodi per produrre,
analizzare e interpretare dati statistici.
d. Trasforma i dati in informazioni utili per
descrivere e monitorare uno specifico argomento
di interesse.
e. Fornisce metodi per ricercare relazioni tra
fenomeni e interviene nelle situazioni nelle quali
occorre assumere decisioni in condizioni di
incertezza.
L'osservazione e l'analisi statistica di variabili in una
popolazione o campione, genera una serie di dati.
consumatori, transazioni.
caratteristiche (= variabili) diverse.
Le condizioni di incertezza possono presentarsi per:
a. La limitatezza delle osservazioni (indagini
campionarie);
b. La complessità del fenomeno o della realtà da
indagare che si traduce ad esempio nella difficoltà
di individuare tutte le variabili di interesse;
c. Imprecisione nelle misurazioni o nelle rilevazioni
delle variabili;
d. Instabilità del fenomeno nel tempo, dovuta ad
esempio dalla dipendenza da altri fenomeni (crisi
economica, variazioni dei prezzi, …).
Nella ricerca scientifica vale il Principio della
parsimonia scientifica, che implica l'accettazione di un
certo grado d'incertezza nella ricerca e la scelta di
modelli di rappresentazione della realtà in studio, il
più possibile semplici. → Trovare il minor numero di
caratteristiche e quindi di parametri che andranno a
definire la mia previsione
Nello studio di un problema di interesse è quindi
necessaria una semplificazione del problema nelle sue
linee essenziali per poter procedere nell’approfondi-
mento secondo metodi statistici opportuni. → La
semplificazione consiste nel tradurre il problema di
interesse in un problema statistico definendo una
struttura formale (modello) e una griglia concettuale
(definizioni, classificazioni). Bisogna, quindi,
individuare i fattori che influenzano in maniera
maggiore la previsione, mentre scartare i rumori e cioè
i fattori che la influenzano in maniera minore.
Per un dato problema di interesse, la ricerca statistica
intraprende quindi un’indagine specificando il
modello (struttura formale) e la griglia concettuale
(definizioni, classificazioni) all'interno dei quali
saranno generati e avranno validità i dati statistici
informativi sulla realtà in studio. → I dati statistici non
sono quindi semplicemente numeri, ma numeri che
forniscono informazioni su un problema o realtà di
interesse all'interno di uno specifico contesto di
ricerca e che necessitano di essere interpretati
all'interno di quel contesto.
Il modello e la griglia concettuale risultano definiti in
base:
longitudinale; osservazionale, sperimentale);
campionaria);
I recenti sviluppi tecnologi e informatici hanno
consentito alle aziende di analizzare anche dati non
tradizionali per risolvere problemi aziendali, vecchi e
nuovi, che hanno portato allo sviluppo di nuove
tecniche statistiche più adeguate all’analisi di tali dati.
Ad oggi, le analisi aziendali devono combinare diversi
metodi provenienti da diverse discipline quali:
I big data sono dati evoluti in termini di:
a. Volume, vengono raccolti in massa;
b. Velocità, le informazioni vengono raccolte al
secondo;
c. Varietà, vi sono moltissime caratteristiche;
d. Veridicità, molto incerti.
(Facebook, Tripadvisor, recensioni, amazon).
Analizzare questa tipologia di dati richiede tecniche
non tradizionali, poiché sono dati non strutturati: non
possono essere raccolti in matrice, i dati sono di
diversa natura, richiedono molto più spazio e
presentano molte difficoltà dal punto di vista della
privacy.
Ogni dato dev’essere prima tradotto in termini
numerici e solo dopo analizzato. → Passaggio dal non
strutturato allo strutturato.
I dati tradizioni vengono inseriti in matrici ed al suo
interno possiamo trovare numeri e stringhe.
Richiedono poco spazio e sono facili da gestire in
termini di privacy.
STATISTICA
Per l'esecuzione di una indagine statistica è
importante procedere ad una attenta pianificazione.
Le fasi di una indagine statistica possono essere
sintetizzate nel modo seguente:
di misura;
dello strumento e delle modalità di raccolta dati);
campionarie);
raccolti;
ricerca.
È necessario trasformare la richiesta di indagine in un
obiettivo, al fine di definire correttamente la natura
delle informazioni da raccogliere e gli strumenti
statistici con i quali esaminare i dati. Gli obiettivi
devono essere, quindi, fattibili, agevoli da investigare e
dettagliati, in modo da circoscrivere l'ambito
dell'indagine, individuandone con esattezza il
territorio e il periodo. È preferibile ridurre l’obiettivo
se troppo grande o creane diversi, realizzando singoli
obiettivi alla volta.
Definire gli obiettivi significa:
a. Delimitare precisamente cosa interessa da cosa
non interessa ricordando che più ampio è l'arco
degli argomenti trattati, maggiori sono le
complessità da affrontare sia nell’ambito statistico
sia in quello operativo;
b. Definire se interessa descrivere un fenomeno nella
sua componente statica o in quella dinamica;
c. Specificare se interessa confrontare i risultati con
informazioni relative ad altre realtà territoriali o
nel tempo;
d. Specificare eventuali ipotesi da sottoporre a
verifica.
Avere delle conoscenze preliminari e fare un’analisi
della letteratura sull'argomento di interesse sono
fondamentali.
La tipologia dello studio può differenziarsi in
particolare con riferimento a:
Collettivo
da
esaminare
Indagini globali (censuarie)
Viene osservata tutta la popolazione di
interesse.
Indagini parziali (campionarie)
Viene osservato un campione della
popolazione di interesse.
Modalità
temporali
di
rilevazione
Studi trasversali
Viene effettuata un’unica rilevazione in
un istante temporale.
Studi longitudinali
Per ogni rilevazione vengono raccolti
dati in corrispondenza di più istanti
temporali.
Periodicità
dello
studio
Studi occasionali
Lo studio è condotto una sola volta.
Studi ripetuti (pure su campioni ≠)
Lo studio è ripetuto periodicamente.
Modalità
di
intervento
del
ricercatore
Studi osservazionali
Vi è l’osservazione passiva della realtà
di interesse senza interventi da parte
del ricercatore.
Studi sperimentali
Il ricercatore interviene modificando la
realtà in studio mediante un
esperimento.
Finalità
della
ricerca
Studi descrittivi/esplorativi
L’interesse del ricercatore si limita alla
descrizione della realtà senza
formulare ipotesi di ricerca.
Studi esplicativi/analitici
L’interesse del ricercatore è verificare
varie ipotesi di ricerca.
effettuata la rilevazione o la misurazione di una o
più caratteristiche rilevanti per il problema in
studio.
statistiche interessate dal problema in studio.
popolazione.
Si definisce scala di misura il tipo di misurazione o
l'insieme delle modalità adottate per l'osservazione di
una variabile.
Alla scelta della scala di misura contribuiscono:
a. Gli obiettivi dell'indagine;
b. La tipologia della variabile.
L'individuazione della scala di misura e della tipologia
delle variabili sono fondamentali per una corretta
selezione delle procedure di analisi statistica da
applicare.
La scala di misura utilizzata per rilevare una variabile
può essere modificata (ricodificata) successivamente
Campione
Popolazione
Unità
statistica
Osservazione
diretta
Le informazioni sono raccolte dal
rilevatore per mezzo dei propri sensi
o mediante strumenti di
misurazione fisici.
Tecniche
miste
Le informazioni sono raccolte
mediante la combinazione di due o
più tecniche di indagine.
(Combinazione di indagine
telefonica e indagine diretta sui non
rispondenti all'indagine telefonica.)
Nuove
tecnologie
Le informazioni sono raccolte
mediante intervista diretta o
telefonica con compilazione di un
questionario contenuto nel
computer. Le risposte sono
registrate direttamente su supporto
magnetico, o mediante auto
compilazione di un
questionario via Web. (CATI, CAPI,
Molte tecniche di indagine utilizzano il questionario
come strumento di raccolta dei dati. I questionari si
distinguono per:
informatizzato (Indagini CAPI, CATI, CAWI);
autosomministrazione; compilazione mediante
intervista diretta o telefonica; somministrazione
mista mediante intervista e auto compilazione.
Il questionario deve essere uno strumento
standardizzato, ovvero domande e risposte devono
essere identiche per tutte le unità statistiche di
rilevazione affinché le informazioni raccolte siano
confrontabili fra loro.
realizzazione di un questionario è necessario:
interessano l’indagine escludendo quelli che non
sono di interesse primario;
direttamente le domande) da raccogliere rispetto
ai temi di interesse identificati in precedenza;
statistiche da compiere per accertarsi di
raccogliere tutte le informazioni necessarie.
seguenti:
sezioni del questionario);
sezione;
Quando l'indagine è campionaria è necessario definire
la strategia di campionamento e procedere quindi alla
selezione del campione.
La definizione delle modalità di estrazione del
campione e della sua dimensione prende il nome di
strategia di campionamento ed è basata sulla ben
consolidata teoria dei campioni.
Selezionare solo un campione implica ovviamente
avere informazioni parziali rispetto alla possibilità di
osservare l'intera popolazione. Tuttavia, se la selezione
del campione viene effettuata in modo corretto, è
possibile generalizzare i risultati dal campione alla
popolazione e misurare il livello di precisione delle
informazioni campionarie attraverso tecniche di
inferenza statistica.
(campionamento di
convenienza o accidentale),
le unità della popolazione
vengono selezionate in base
al fatto che sono: facili,
economiche o convenienti da campionare.
(campionamento
volontario), le unità della
popolazione vogliono far
parte del campione.
a valanga), la prima
unità propone un
amico, l'amico
propone un altro
amico e così via.
sampling
(campionamento con esperto), il campione viene
creato da un
esperto della
materia che
seleziona le
unità del
campione.
Tutte le unità statistiche hanno la stessa probabilità di
essere selezionate, la loro selezione può avvenire con
sostituzione
(le unità
possono
essere
selezionate più
volte) o senza
sostituzione
(l'unità
selezionata non può più essere selezionata).
Le unità statistiche sono estratte attraverso l'utilizzo di
tavole di numeri casuali o generatori di numeri
casuali.
Si vuole estrarre un campione di unità statistiche da
una popolazione, è necessario prima dividere la
popolazione in un certo numero di gruppi, e quindi
definire il:
= (𝑁𝑢𝑚𝑒𝑟𝑜𝑠𝑖𝑡à 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎)
/(𝑁° 𝑑𝑖 𝑢𝑛𝑖𝑡à 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐ℎ𝑒 𝑛𝑒𝑐𝑒𝑠𝑠𝑎𝑟𝑖𝑒)
Poi, vi è la
selezione casuale
di un individuo
dal primo
gruppo, dopo di
che c’è la
selezione di
un’unità a
seconda del passo di campionamento dopo la prima
selezionata.
(chiamati strati) in
funzione di una o
più particolari
caratteristiche delle
unità.
casuale semplice viene selezionato da ciascun
sottogruppo con ampiezza proporzionale al
numero di unità dello strato.
combinati insieme per creare il campione finale.
(gruppi), ciascuno rappresentativo della
popolazione.
casuale semplice
di ‘clusters’ viene
selezionato.
‘clusters’
selezionati
possono essere
utilizzate o, attraverso un campionamento
probabilistico, è possibile selezionare solo alcune
unità per ciascun ‘clusters’.
rappresentano bene la popolazione per
determinate caratteristiche.
di un campione rappresentativo della popolazione
per quanto riguarda le caratteristiche utilizzate per
la creazione degli strati.
precisione ha bisogno di grandi campioni).
Sono fasi operative in cui si procede a raccogliere i dati
in base alle scelte effettuate relativamente alla
tipologia dello studio, alla fonte dei dati, alla tecnica di
indagine, e a organizzare i dati in un formato (banca
dati, database, data set) utile per procedere all'analisi
statistica.
Prima dell'analisi statistica dei dati, sulle informazioni
raccolte possono essere effettuate procedure di:
a. Revisione, mediante tecniche manuali o
automatiche al fine di evidenziare la presenza di
mancate risposte (dati mancanti o missing) o di
errori, rispetto ai quali apportare eventualmente
delle correzioni;
b. Codifica, ovvero di trasformazione dei valori delle
variabili in codici numerici o alfanumerici al fine
di rendere le variabili più facilmente trattabili in
sede di analisi statistica, o di riclassificare le
variabili osservate.
I risultati di una indagine statistica consentono di:
dati e informazioni;
dalle informazioni che si ottengono da campioni;
fenomeni di interesse;
L'utilizzazione dei risultati di una ricerca è connessa
alle sue modalità di esecuzione, alle regole e ai dettagli
definiti durante tutte le fasi dello studio (modello e
griglia concettuale); solo richiamando questi aspetti è
possibile dare una interpretazione corretta dei
risultati.
Per distribuzioni di frequenza di variabili quantitative
(discrete o continue) classificate in classi di diversa
ampiezza, è utile calcolare per ciascuna classe la
densità di frequenza.
𝐷𝑒𝑛𝑠𝑖𝑡à 𝑑𝑖 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 =
Le densità di frequenza consentono di confrontare il
peso relativo tra classi.
FREQUENZA
È possibile affiancare alle distribuzioni riportate in
forma tabellare, grafici che per immediatezza visiva
riescono ad evidenziare con più efficacia le
informazioni raccolte. La scelta del metodo grafico
dipende da:
a. Finalità conoscitive;
b. Tipo di variabile da rappresentare.
Le tipologie di grafici più comuni sono:
Diagrammi a
barre, a torta
e di Pareto
Particolarmente indicati per
variabili qualitative, quantitative
discrete, per variabili misurate
con scala nominale o ordinale.
Istogramma,
poligono e
poligono
cumulativo
(Ogiva)
Indicati per variabili quantitative
continue o discrete che hanno
molte modalità.
Variabile qualitativa sconnessa Grafico a torta
Variabile qualitativa ordinale Diagramma a
barre
Variabile quantitativa discreta Line/Stick plot
Variabile quantitativa continua Istogramma
Il diagramma a torta è un
grafico costituito da un'area
circolare suddivisa in sezioni.
Ciascuna sezione rappresenta
una modalità della variabile.
L'ampiezza di ciascuna
sezione è proporzionale alla
frequenza relativa semplice o percentuale della
modalità considerata ed è pari a (360 x 𝑓 𝑖
). Il
diagramma a torta permette di confrontare il peso
relativo delle diverse modalità e di avere una visione
immediata di come il collettivo totale si compone
rispetto alle modalità della variabile.
Il diagramma a barre è un
grafico costituito da una serie
di barre (orizzontali o
verticali). Ciascuna barra
rappresenta una modalità
della variabile, e la lunghezza
della barra è proporzionale
alla frequenza assoluta, relativa semplice o
percentuale della modalità considerata. Il diagramma
a barre permette di confrontare il peso delle diverse
modalità.
Il diagramma di Pareto è un
grafico costituito da una
serie di barre verticali
disposte in ordine
decrescente di frequenza.
Ciascuna barra rappresenta
una modalità della variabile,
e la lunghezza della barra è
proporzionale alla frequenza assoluta, relativa
semplice o percentuale della modalità considerata.
Nello stesso diagramma è rappresentata una linea
spezzata che ne rappresenta le frequenze cumulate.
Il diagramma di Pareto diventa particolarmente utile
quando le modalità della variabile di interesse sono
molte. Infatti, il vantaggio di questo grafico consiste
nella sua capacità di separare le poche modalità cui è
associata una frequenza più alta da quelle meno
rappresentate nei dati, permettendo al lettore di
concentrarsi sulle modalità più importanti.
L'istogramma è un grafico per
variabili continue suddivise in
classi, costituito da una serie di
rettangoli affiancati, la cui base
rappresenta l'ampiezza delle
classi e l'altezza rappresenta la
frequenza assoluta, relativa
semplice o percentuale
corrispondente alle varie classi. Se la variabile è
suddivisa in classi di diversa ampiezza, l'istogramma è
costituito da una serie di rettangoli affiancati, la cui
base rappresenta l'ampiezza delle classi e l'altezza
rappresenta la densità di frequenza corrispondente
alle varie classi. L'area di ciascun rettangolo è quindi
la frequenza corrispondente alla classe. Quando le
classi sono di diversa ampiezza, l'istogramma non è di
facile lettura. Quando possibile è consigliabile
comunque ricondursi ad una classificazione per classi
di uguale ampiezza.
Il poligono è un grafico
per variabili continue
suddivise in classi,
costituito da una linea
spezzata che unisce i
punti con ascissa pari al
punto medio di ciascuna
classe e ordinata pari alla frequenza assoluta, relativa
semplice o percentuale corrispondente alle varie
classi. Molto utile per i confronti.
Il poligono cumulativo o
ogiva è un grafico per
variabili continue suddivise
in classi, costituito da una
linea spezzata che unisce i
punti con ascissa pari
all'estremo superiore di ciascuna classe e ordinata pari
alla frequenza cumulata assoluta, relativa semplice o
percentuale corrispondente alle varie classi. Molto
utile per i confronti.
DISTRIBUZIONI di FREQUENZA
frequenza tra due o più gruppi di unità statistiche è
consigliabile considerare le frequenze relative semplici
o percentuali per eliminare la possibile distorsione
dovuta all'eventuale diversa numerosità dei gruppi a
confronto. Per la rappresentazione grafica è
consigliabile utilizzare un diagramma a barre
affiancate o i poligoni.
tra due o più gruppi di unità statistiche può essere
condotto anche considerando le frequenze relative
cumulate semplici o percentuali. Per la
rappresentazione grafica è consigliabile utilizzare un
diagramma a barre affiancate o le ogive.
a. Usa il grafico più semplice possibile.
b. Il grafico non deve dare una visione distorta dei
dati.
c. Il grafico non deve contenere inutili abbellimenti.
d. Includi titolo e etichette degli assi.
e. Includi una scala per ciascun asse, se il grafico
contiene assi.
f. La scala lungo l'asse verticale deve iniziare da zero.
g. Scegli correttamente la scala in modo da non
comprimere il grafico
h. Evita grafici 3D o effetti esplosivi.
i. Usa colori coerenti in grafici che devono essere
confrontati.
j. Evita l'utilizzo di grafici non comuni per un
pubblico non esperto (radar, surface, bubble, cone,
e pyramid charts).
𝑛+ 1
2
𝑛
2
𝑛
2
le posizioni in cui troviamo la modalità mediana nella
graduatoria ordinata dei valori.
La mediana è meno influenzata dalla presenza di
valori estremi (outliers) rispetto alla media aritmetica.
I quantili sono misure di posizione non centrale.
Definiamo quantili quei valori che dividono la
distribuzione ordinata di una variabile quantitativa o
qualitativa misurata su scala ordinale in un certo
numero di parti di uguale numerosità. Vengono
impiegati quando si sintetizzano ampi insiemi di dati
particolarmente sparsi.
I quantili più comunemente utilizzati sono i quartili. I
quartili sono tre valori che dividono la distribuzione
ordinata in quattro parti di uguale ampiezza, ognuna
con il 25%:
essere ordinati in senso crescente;
Q1 = modalità che si trova nel posto (𝑛 + 1 )/ 4
Posizione non centrale.
Q2 = modalità che si trova nel posto (mediana):
Q 3 = modalità che si trova nel posto 3 ∙ (𝑛 + 1 )/ 4
Posizione non centrale.
intero, si sceglie come quartile la modalità
assunta dall'unità corrispondente;
numeri interi, si sceglie come quartile la media
delle modalità assunte dalle unità
corrispondenti;
numero intero né a metà tra due numeri interi,
si approssima la posizione per eccesso o per
difetto e si sceglie come quartile la modalità
assunta dall'unità corrispondente.
Quando disponiamo della distribuzione di frequenza
di una variabile quantitativa o qualitativa misurata su
scala ordinale (suddivisa in classi o non suddivisa in
classi), il calcolo dei quartili è il seguente:
a. Q1 è la prima modalità a cui corrisponde una
frequenza relativa cumulata % > o= al 25%;
b. Q2 è la prima modalità a cui corrisponde una
frequenza relativa cumulata % > o= al 50%;
c. Q3 è la prima modalità a cui corrisponde una
frequenza relativa cumulata % > o= al 75%.
La moda è la modalità della variabile maggiormente
osservata. Per calcolare la
moda è sufficiente calcolare
la distribuzione di frequenza
della variabile. La moda è la
modalità (o classe) a cui
corrisponde la frequenza assoluta o relativa (semplice
o %) più alta.
a. Non è influenzata dalla presenza di valori estremi;
b. Può essere calcolata per tutti i tipi di variabili
(variabili quantitative e variabili qualitative
misurate su scala ordinale e nominale);
c. Può non esserci una moda, la moda è informativa
solo se vi è una netta prevalenza di una o più
modalità rispetto alle altre;
d. Ci possono essere più mode.
SCELTA dei VALORI MEDI
Misure di
centralità
Quantitative
Qualitative
Ord. Scon.
Media SI NO NO
Mediana/quartili SI SI NO
Moda SI SI SI
a. Distribuzione a ridotta
variabilità: le misure di
tendenza centrale
(media, mediana, moda)
sono molto informative;
b. Distribuzione ad ampia
variabilità:
a. Le misure di tendenza centrale (media,
mediana, moda) sono poco informative;
b. Le misure di tendenza non centrale (quantili)
sono più informative.
Dopo il calcolo di distribuzioni di frequenza e di valori
medi, l'analisi statistica descrittiva di un campione o
popolazione di unità statistiche prosegue con lo studio
della variabilità delle principali caratteristiche
osservate (variabili).
La variabilità della distribuzione di una data variabile
rappresenta la tendenza delle unità statistiche
osservate ad assumere modalità diverse (come si
distribuiscono/disperdono i dati).
Le misure statistiche di variabilità sono quindi in
grado di fornire informazioni sul grado di
differenziazione o di dispersione dei valori osservati.
Una misura di variabilità per una distribuzione:
a. È minima se tutte le unità statistiche presentano la
stessa modalità, non vi è dispersione;
b. Aumenta al crescere della diversità di modalità
assunte dalle unità, massima dispersione.
I valori medi non
riflettono la variabilità dei
valori osservati.
In questo esempio
consideriamo tre insiemi
di dati relativi ad una data
variabile 𝑋. I tre insiemi hanno la stessa media ma
presentano una variabilità molto diversa.
La tendenza centrale o posizione (misurata attraverso
i valori medi) e la variabilità (misurata attraverso le
misure di variabilità) sono due aspetti diversi della
distribuzione di una variabile. Due distribuzioni
possono avere medie uguali e differire rispetto alla
variabilità oppure possono essere caratterizzate dalla
stessa variabilità, ma da diversa media. L’indice di
variabilità fa variare la forma, mentre l’indice di
posizione fa variare la posizione nell’asse delle x.
La distribuzione di frequenza fornisce già
informazioni sulla variabilità presente nei dati ma
risulta difficile discriminare tra situazioni di
variabilità intermedia. Vogliamo quindi calcolare delle
misure di variabilità che sintetizzino in un solo valore
la variabilità presente e che consentano di
discriminare tra situazioni di variabilità intermedia.
Il range è la misura di variabilità più semplice ed è
definita come differenza tra i valori estremi.
distribuiti;
Il Range Interquartile è la differenza massima
riscontrabile tra i dati che costituiscono il 50% dei
valori centrali (nella graduatoria dei valori osservati
dal più piccolo al più grande) o l'intervallo in cui è
compreso il 50% dei valori centrali osservati.
Permette di evitare gli eventuali valori anomali.
Il range interquartile può essere calcolato per variabili
quantitative o qualitative purché misurate con scala
ordinale:
a. Se la variabile è quantitativa il range interquartile
può essere indicato come differenza tra Q3 e Q1 o
come intervallo (Q1, Q3).
b. Se la variabile è qualitativa il range interquartile è
indicato come intervallo (Q1, Q3).
variabile.
definito da Q1 e Q3.
è sensibile alla presenza di valori estremi
(outliers).
Il range e il range interquartile sono misure definite
come differenze o intervalli tra soli due valori. Queste
misure sono quindi imprecise e non sono in grado di
descrivere completamente la distribuzione dei dati. →
Per descrivere la variabilità della distribuzione di una
variabile in modo più completo ed informativo
abbiamo bisogno di una misura di variabilità che
prenda in considerazione tutti i valori osservati: la
varianza.
Rappresenta la differenza massima riscontrabile tra
i dati o l'intervallo in cui sono compresi tutti i valori
osservati. Il range può essere calcolato per variabili
Quantitative o qualitative purché misurate con scala
ordinale:
a. Se la variabile è quantitativa il range può essere
indicato come differenza tra massimo e minimo
valore o come intervallo (minimo, massimo).
b. Se la variabile è qualitativa il range è indicato
come intervallo (minimo, massimo).
Il campo di variazione è espresso nella stessa unità
di misura della variabile.
La soluzione è il coefficiente di variazione:
Normalmente il 𝐶𝑉 è espresso in percentuale e viene
calcolato utilizzando la deviazione standard
campionaria.
L'eterogeneità o la mutabilità è la misura analoga alla
variabilità per dati qualitativi. Tale indice misura
l'attitudine di un carattere ad assumere diverse
modalità qualitative. Nel caso di caratteri qualitativi
non è possibile calcolare delle differenze tra valori
osservati ma è possibile calcolare delle differenze tra
frequenze.
La minima eterogeneità si ha quando tutte le modalità
del carattere tranne una hanno frequenza nulla,
ovvero quando tutte le unità statistiche si concentrano
nella stessa modalità. In questo caso la distribuzione
delle frequenze relative si presenta come:
Modalità 𝒙
𝟏
𝒋
𝒌
Frequenza relativa 0 1 0
Dove il 𝑘 è il numero di modalità del carattere.
La massima eterogeneità si ha quando tutte le
frequenze sono uguali, ovvero quando tutte le unità
statistiche si ripartiscono in maniera uguale
(equidistribuzione/omogeneità) tra le varie modalità.
In questo caso la distribuzione delle frequenze relative
si presenta come:
Modalità 𝒙
𝟏
𝒋
𝒌
Frequenza relativa
Una misura di eterogeneità per variabili qualitative
anche misurate con scala nominale è la frequenza
relativa della moda.
concentrate sulla moda, moda molto vicina all’1) →
Ridotta variabilità;
concentrate sulla moda, moda molto distante
dall’1) → Maggiore variabilità.
𝑖
2
𝑘
𝑖= 1
Nella situazione di minima eterogeneità vale 0,
mentre nella situazione di massima eterogeneità
vale:
2
𝑘
𝑖= 1
2
L’indice di Gini normalizzati è:
𝑖
2
𝑘
𝑖= 1
𝐺 ∗= 0 minima eterogeneità: 𝐺 ∗= 1 massima
eterogeneità.
𝑖
l𝑜𝑔
𝑖
𝑘
𝑖= 1
Nella situazione di minima eterogeneità vale 0,
mentre nella situazione di massima eterogeneità
vale:
𝑘
𝑖= 1
(l𝑜𝑔
− log (𝑘))
𝑘
𝑖= 1
= log (𝑘)
Indice di Shannon normalizzato:
𝑖
l𝑜𝑔
𝑖
𝑘
𝑖= 1
log (𝑘)
Misure di
variabilità
Quantitative
Qualitative
Ord. Nom.
Varianza,
Deviazione
standard, CV
Range SI NO NO
Range
interquartile
Misure di
eterogeneità
il modo in cui si distribuiscono i valori osservati.
essere simmetrica o asimmetrica (obliqua).
ascendente della distribuzione è speculare al ramo
discendente.
risultare tendenzialmente simmetriche o
tendenzialmente asimmetriche.
Per descrivere sinteticamente la tendenza centrale, la
variabilità e la forma della distribuzione di una
variabile quantitativa possiamo utilizzare un grafico
detto Boxplot. Esistono diversi tipi di Boxplot ma
quello più comune si base sui seguenti 5 indicatori:
a. Valore Minimo;
b. Primo quartile (Q1);
c. Mediana (Q2);
d. Terzo quartile (Q3);
e. Valore Massimo.
Spesso con un diagramma Boxplot (scatola con baffi)
si vogliono evidenziare anche eventuali valori estremi.
In questo caso:
siano però non più distanti di 𝑘 ∙
(𝑅𝑎𝑛𝑔𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒) dalla scatola. Il Range
Interquartile è l'ampiezza della scatola; 𝑘 è una
costante arbitraria tipicamente scelta uguale a 1.5.
Ovvero non accettiamo baffi esageratamente
lunghi.
disegnate opportunamente sul grafico (ad esempio
utilizzando un pallino).
Il Boxplot può
essere orientato sia
in verticale che
orizzontale.
La scatola e la linea centrale sono centrate rispetto
alla lunghezza dei segmenti
laterali.
All'aumentare
della variabilità
dei valori
osservati,
aumenta
l'ampiezza della
scatola.
a. Il valore del range, del range interquartile, della
varianza e della deviazione standard, aumenta
all'aumentare della variabilità.
b. La varianza e la deviazione standard dipendono
dalla numerosità campionaria.
c. Quanto più i dati sono concentrati o omogenei,
tanto minori risultano il range, il range
interquartile, la varianza e la deviazione standard.
d. Se tutti i valori osservati sono uguali (assenza di
variabilità) tutte queste misure di variabilità sono
uguali a 0.
e. Nessuna di queste misure di variabilità può
assumere valori negativi.
f. Tutte queste misure di variabilità dipendono dalla
dall'unità di misura della variabile
Dato un evento A, il
complementare di A, indicato
con 𝐴
, è l’evento che include
tutti gli eventi che sono nello
spazio campionario (Ω) che
non sono in A tale per cui:
) = Ω. Essendo A e 𝐴
eventi disgiunti, la probabilità è calcolata come segue:
Quindi: 𝑃(𝐴
Da ricordare che: 𝑃(Ω
100 operaie femmine. Da uno studio svolto
dall'azienda risulta che tra gli uomini il 20% possiede
un titolo di studio alto (laurea o più) mentre tra le
donne il 40% possiede un titolo di studio alto.
Se un lavoratore è selezionato in modo casuale, qual è
la probabilità che questo lavoratore sia donna e che
abbia un titolo di studio alto?
a. 20% dei lavoratori maschi ha un titolo di studio
alto → 300 ∙ 20% = 60 sono gli uomini con titolo
di studio alto;
b. 40% dei lavoratori femmine ha un titolo di studio
alto → 100 ∙ 40% = 40 sono le donne con titolo di
studio alto.
Realizziamo così la tabella di contingenza:
La probabilità che un lavoratore, scelto in modo
casuale, sia donna e che abbia un titolo di studio alto è
quindi 40 / 400 = 0 , 1 = 10%. Dividendo ciascun
valore della tabella di contingenza per l'ampiezza
campionaria, ovvero il numero totale di lavoratori
dell'azienda (400), otteniamo la tabella delle
probabilità:
Le probabilità
marginali
sono calcolate
come
rapporto tra i
valori a
margine della
tabella di
contingenza e
l’ampiezza
campionaria.
La probabilità congiunta è calcolata come rapporto tra
i valori
interni della
tabella di
contingenza
e l’ampiezza
campionaria.
La probabilità condizionata è la probabilità dell’evento
B dato che l’evento A si è verificato. La probabilità
condizionata si indica con:
In generale, la probabilità condizionata di B dato che
l’evento A si è verificato è calcolata nel modo seguente:
Restringe il campo di possibili eventi, dato che uno di
questi si è già verificato, restringe, quindi, lo spazio
campionario all’evento che si è già verificato, 𝐴
dev’essere un evento possibile, se 𝑃(𝐴) aumenta anche
Due eventi A e B sono due eventi indipendenti se il
verificarsi di un evento non modifica la probabilità del
verificarsi dell’altro evento. L’intersezione dei due
eventi risulta un insieme vuoto. Possiamo quindi
affermare che l’evento B è indipendente dall’evento A
se e solo se la probabilità dell’evento B dato che
l’evento A si è già verificato è uguale alla probabilità
dell’evento B:
Dal calcolo della probabilità condizionata è possibile
ottenere la seguente regola della probabilità composta:
Perciò, se A e B sono indipendenti, la regola della
probabilità composta si semplifica come di seguito:
a. L’incompatibilità è una relazione tra eventi. Se due
eventi sono incompatibili, la probabilità
dell’unione dei due eventi è la somma delle singole
probabilità. In quanto relazione tra eventi posso
rappresentare l’incompatibilità tramite i
diagrammi di Venn.
b. L’indipendenza è una relazione tra probabilità. Se
due eventi sono indipendenti, la probabilità
dell’intersezione tra due eventi è il prodotto delle
singole probabilità. L’indipendenza non è
rappresentabile graficamente in quanto sui
diagrammi di Venn si rappresentano eventi, non
probabilità.
Indipendenza e incompatibilità non hanno alcun
legame, tranne nel caso in cui due eventi sono
incompatibili ed entrambi gli eventi hanno probabilità
positive, allora i due eventi non possono essere
indipendenti e viceversa. Infatti, se:
ingegneria civile. La probabilità che il progetto venga
ritardato dal maltempo (evento A) è 0.3, mentre la
probabilità che ci sia un ritardo causato da un
problema geologico (evento B) è 0.2. Qual è la
probabilità che il progetto venga ritardato a causa sia
del maltempo che di problemi geologici?
Vogliamo calcolare 𝑃(𝐴 ∩ 𝐵). Dato che possiamo
assumere che il mal tempo e i problemi geologici siano
eventi indipendenti
TOTALI
In generale, dato 𝐴 1
𝑛
eventi disgiunti dello
spazio campionario Ω tali che: 𝐴 1
2
𝑛
allora:
1
𝑛
1
1
𝑛
𝑛
𝑖
𝑖
𝑛
𝑖= 1
integrati di un certo tipo al giorno, tramite tre diversi
reparti che ne producono rispettivamente 100, 200 e
300 pezzi. Ciascun reparto è autonomo nella
produzione e si è constatato che il primo reparto ha
una percentuale di scarti del 5%, il secondo del 8%
mentre il terzo del 3.5%. Se un circuito viene scelto
casualmente fra quelli prodotti in giornata, qual è la
probabilità che sia difettoso?
Ci sono due possibili modi alternativi di risolvere
questo tipo di esercizi.
Soluzione 1
Definiamo i seguenti eventi:
𝐷 = il circuito è difettoso, 𝐿 1
= prodotto dal primo
reparto, 𝐿 2
= prodotto dal secondo reparto,
3
= prodotto dal terzo reparto
Le informazioni riportate nel testo possono essere
scritte come segue: 𝑃(𝐷
1
2
3
1
2
3
) = 300 / 600 = 0. 5. La
probabilità che un pezzo sia difettoso, 𝑃(𝐷), è quindi
calcolato come:
Soluzione 2
È possibile costruire una tabella di contingenza:
Quindi, la probabilità che un pezzo sia danneggiato,
𝑃(𝐷), è:
la SOLUZIONE di BAYES
Ci sono tre scenari possibili, ciascuno avente
probabilità 1/3:
conduttore sceglie l’altra capra. Cambiando, il
giocatore vince l’auto.
conduttore sceglie l’altra capra. Cambiando, il
giocatore vince l’auto.
capra, non importa quale. Cambiando, il giocatore
trova l’altra capra.
Quindi, cambiare porta aumenta la probabilità di
vincere l’automobile, portandola da 1/3 a 2/3.
Nel problema di Monty Hall, possiamo definire i
seguenti eventi:
A. La macchina è dietro la porta scelta, ovvero la
porta 1
B. Monty Hall apre una porta dietro la quale c’è una
capra
Quello che vogliamo conoscere è:
Ovvero la probabilità di vincere la macchina
confermando la scelta iniziale (porta 1) sapendo che
Monty apre una porta dietro la quale c’è una capra.
Per calcolare 𝑃(𝐴|𝐵) dobbiamo calcolare:
Confermando la porta 1 la probabilità di vincere è 1/3.
Di conseguenza, cambiando porta e scegliendo la
porta rimanente la probabilità di vincere è
VARIABILI CASUALI DISCRETE
Utilizzando la funzione di probabilità della variabile
casuale 𝑋 è possibile ottenere il suo valore atteso,
indicato con 𝐸(𝑋) o con la lettera greca 𝜇, con la
seguente formula:
𝑖
𝑖
𝑛
𝑖= 1
𝑖
𝑖
𝑛
𝑖= 1
In media mi aspetto di osservare circa 1 difetto in
ciascun pezzo prodotto futuro.
Utilizzando la funzione di probabilità della variabile
casuale 𝑋 è possibile ottenere la varianza, indicata con
𝑉𝑎𝑟(𝑋) o con la lettera greca 𝜎
2
, e la deviazione
standard, 𝑠𝑑(𝑋) o 𝜎, con le seguenti formule:
2
𝑖
2
𝑖
2
2
𝑛
𝑖= 1
2
2
2
2
Mi aspetto che il numero di difetti vari in media tra 0 e
2, ovvero 1 difetto in più o in meno rispetto la media.
Se 𝑋 è una variabile casuale discreta con funzione di
probabilità 𝑝(𝑥 𝑖
), la sua funzione di ripartizione è
definita nel modo seguente:
𝑖
𝑥
𝑖
≤𝑥
La funzione di ripartizione in un dato punto 𝑥 è la
probabilità che la variabile 𝑋 assuma valori minori o al
più uguali a 𝑥. Conoscendo la funzione di ripartizione
di una qualunque distribuzione di probabilità discreta
è possibile calcolare la probabilità di qualsiasi
intervallo. Per alcune distribuzioni sono disponibili
tavole che riportano i valori al variare dei parametri.
1
2
1
2
lim
𝑥→−∞
𝐹(𝑥) = 0 , lim
𝑥→∞
In questo grafico a scalini, la probabilità tra un
valore ed un altro non cambia, utile nel momento
in cui bisogna calcolare i quartili, in quanto si
prenderà la modalità che supera la linea verticale
del 25, 50 e 75 %.
VARIABILI DISCRETE
Quando determinate condizioni sono soddisfatte,
possiamo derivare una formula generale per calcolare
qualsiasi probabilità di una variabile casuale discreta
Si consideri una prova che può dar luogo a solo due
possibili risultati su un dato evento di interesse:
a. Successo (l’evento si è verificato);
b. Insuccesso (l’evento non si è verificato).
Sia 𝑝 la probabilità di successo.
Allora la variabile casuale discreta 𝑋 che assume
valore 1 (successo) con probabilità 𝑝 e valore 0 con
probabilità ( 1 − 𝑝) ha distribuzione di Bernoulli e si
indica brevemente con 𝑋 ∼ 𝐵𝑒𝑟(𝑝).
(binario) possono ricondursi ad una variabile casuale
di Bernoulli. La dicotomia può essere:
considerando (es. presenza/assenza di
imperfezioni in un elemento, sopravvivenza si/no
di un individuo).
continua o discreta che per motivi di ricerca viene
dicotomizzata (es. precipitazione media
settimanale in un certo bacino idrografico
superiore/inferiore ai 200 mm/cm2, numero di
corsie di un tratto autostradale maggiore o minore
di 6).
di Bernoulli è definita da un unico parametro, 𝑝 ed è
pari a:
𝑘
1 −𝑘
Dove 𝑝 è la probabilità di successo e ( 1 − 𝑝) è la
probabilità di insuccesso, 𝑘 è pari a 0 (insuccesso) o 1
(successo).
2
2
2
2
prove identiche;
successo e insuccesso, Si o No, testa o croce,
eccetera;
prova;
una prova non influenza il risultato di un’altra
prova.
allora la variabile casuale discreta X che descrive il
numero di successi, 𝑘, in 𝑛 prove indipendenti è una
variabile casuale Binomiale. I possibili valori della
variabile casuale Binomiale sono: 0, 1, 2,.. ., 𝑛.
probabilità della variabile casuale Binomiale è definita
da due parametri, 𝑛 e 𝑝, e si indica brevemente con
𝑋 ∼ 𝐵𝑖𝑛(𝑛, 𝑝). La probabilità di osservare esattamente
𝑘 successi in n prove è calcolata come:
𝑘
1 −𝑘
Dove 𝑝 è la probabilità di successo in una qualsiasi
prova, ( 1 − 𝑝) è la probabilità di insuccesso, 𝑛 è il
numero di prove ripetute, identiche e indipendenti, 𝑘 è
il numero di successi, (𝑛 − 𝑘) è il numero di
insuccessi. Mentre (
) è il coefficiente binomiale che
calcola il numero di combinazioni dei 𝑘 successi nelle
𝑛 prove:
segue: 𝜇 = 𝑛𝑝
2
2
l’unico modo per ridurre la asimmetria (a destra o a
sinistra) è aumentare il numero di prove 𝑛.
All’aumentare di 𝑛, la distribuzione Binomiale tende a
una distribuzione simmetrica tanto più velocemente
quanto più 𝑝 è vicino a 0.5.
strutture, la probabilità che un certo componente
superi uno shock test è pari a 0.75. Supponiamo di
osservare 4 componenti indipendenti tra loro.
La variabile casuale discreta che descrive il numero di
volte un evento 𝐸 si realizza in un dato intervallo di
interesse ha distribuzione di Poisson. Un intervallo di
interesse è un intervallo continuo di tempo, volume o
area in cui un evento può verificarsi più volte.
Esempi: numero di incidenti stradali per giorno ad un
dato incrocio, numero di richieste di interventi di
manutenzione in un giorno, numero di incidenti tra
operai addetti ad un processo chimico pericoloso per
ciascun impianto funzionante.
Piò essere considerata un caso particolare della
variabile casuale Binomiale.
particolare evento 𝐸 si verifica in un intervallo
temporale, spaziale, di superficie, eccetera;
intervallo è la stessa per tutti gli intervalli;
intervallo è indipendente dal numero di
occorrenze di 𝐸 in una qualsiasi altro intervallo
disgiunto dal primo. Il processo di Poisson non ha
memoria;
un intervallo tende a 0 tanto più l’intervallo si
riduce.
allora la variabile casuale discreta 𝑋 che conta il
numero di volte un evento si verifica in un intervallo è
una variabile casuale di Poisson. I possibili valori della
variabile casuale di Poisson sono: 0, 1, 2,.. .∞
probabilità della distribuzione di Poisson è descritta
da un solo parametro, 𝜆, e quindi è indicata
brevemente con 𝑋 ∼ 𝑃 𝑜(𝜆). La probabilità di
osservare 𝑥 eventi in un intervallo di interesse è:
−𝜆
𝑥
Dove: 𝑥 è il numero di eventi, 𝑒 è la costante
matematica approssimata da 2.71828, 𝜆 è la costante
sempre positiva (𝜆 > 0) e descrive il numero medio, o
valore atteso, di eventi in un intervallo di interesse.
Essendo 𝜆 l’unico parametro che descrive la
distribuzione di Poisson determina la forma della
distribuzione.