Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Preparati con lezioni e prove svolte basate sui programmi universitari!

Rispondi a reali domande d’esame e scopri la tua preparazione

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

Per ogni documento caricato

Rispondi alle domande

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità, Appunti di Statistica

Università degli Studi di Padova (UNIPD)Statistica

Una panoramica introduttiva alla statistica, coprendo concetti fondamentali come le distribuzioni di frequenza, le misure di posizione (media, mediana, moda) e le misure di variabilità (range interquartile, deviazione standard). Come calcolare queste misure per variabili qualitative e quantitative, fornendo esempi pratici e formule per il calcolo. Inoltre, vengono introdotti concetti chiave come la variabile casuale, la funzione di probabilità e la funzione di ripartizione.

Tipologia: Appunti

2024/2025

Caricato il 24/02/2025

marwa-es-sahel-2 🇮🇹

1 documento

1 / 53

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1

1. STATISTICA e METODOLOGIA della RICERCA

1. COS’È la STATISTICA?

La Statistica:

a. È una disciplina scientifica che studia metodi e

strumenti per acquisire conoscenza su un’ampia

varietà di problemi e fenomeni in molti ambiti

applicativi (scienze sociali, economiche, …).

b. Non affronta o risolve casi individuali, ma cerca di

giungere a conclusioni generali su fenomeni

collettivi e alla discussione critica della loro

validità a partire dalla conoscenza aggregata

risultante da un insieme di casi singoli

(popolazione o campione) accomunati da regole e

definizioni, sui quali è osservato e analizzato un

insieme di caratteristiche (variabili).

c. Fornisce ragionamenti e metodi per produrre,

analizzare e interpretare dati statistici.

d. Trasforma i dati in informazioni utili per

descrivere e monitorare uno specifico argomento

di interesse.

e. Fornisce metodi per ricercare relazioni tra

fenomeni e interviene nelle situazioni nelle quali

occorre assumere decisioni in condizioni di

incertezza.

L'osservazione e l'analisi statistica di variabili in una

popolazione o campione, genera una serie di dati.

NECESSITÀ

1. Di osservare popolazioni o campioni di prodotti,

consumatori, transazioni.

2. Di raccogliere informazioni su un insieme di

caratteristiche (= variabili) diverse.

2. PRENDERE DECISIONI in

CONDIZIONI di INCERTEZZA

Le condizioni di incertezza possono presentarsi per:

a. La limitatezza delle osservazioni (indagini

campionarie);

b. La complessità del fenomeno o della realtà da

indagare che si traduce ad esempio nella difficoltà

di individuare tutte le variabili di interesse;

c. Imprecisione nelle misurazioni o nelle rilevazioni

delle variabili;

d. Instabilità del fenomeno nel tempo, dovuta ad

esempio dalla dipendenza da altri fenomeni (crisi

economica, variazioni dei prezzi, …).

3. PROBLEMI REALI e PROBLEMI

STATISTICI

PRINCIPIO della PARSIMONIA

Nella ricerca scientifica vale il Principio della

parsimonia scientifica, che implica l'accettazione di un

certo grado d'incertezza nella ricerca e la scelta di

modelli di rappresentazione della realtà in studio, il

più possibile semplici. → Trovare il minor numero di

caratteristiche e quindi di parametri che andranno a

definire la mia previsione

SEMPLIFICAZIONE

Nello studio di un problema di interesse è quindi

necessaria una semplificazione del problema nelle sue

linee essenziali per poter procedere nell’approfondi-

mento secondo metodi statistici opportuni. → La

semplificazione consiste nel tradurre il problema di

interesse in un problema statistico definendo una

struttura formale (modello) e una griglia concettuale

(definizioni, classificazioni). Bisogna, quindi,

individuare i fattori che influenzano in maniera

maggiore la previsione, mentre scartare i rumori e cioè

i fattori che la influenzano in maniera minore.

MODELLO e GRIGLIA CONCETTUALE

Per un dato problema di interesse, la ricerca statistica

intraprende quindi un’indagine specificando il

modello (struttura formale) e la griglia concettuale

(definizioni, classificazioni) all'interno dei quali

saranno generati e avranno validità i dati statistici

informativi sulla realtà in studio. → I dati statistici non

sono quindi semplicemente numeri, ma numeri che

forniscono informazioni su un problema o realtà di

interesse all'interno di uno specifico contesto di

ricerca e che necessitano di essere interpretati

all'interno di quel contesto.

Il modello e la griglia concettuale risultano definiti in

base:

- Agli obiettivi della ricerca;

- La tipologia dello studio (trasversale,

longitudinale; osservazionale, sperimentale);

- La natura della rilevazione (censuaria,

campionaria);

- La tecnica dell'indagine (questionario, diario);

- I vincoli temporali e le risorse.

4. DATI TRADIZIONALI e NON

TRADIZIONALI

I recenti sviluppi tecnologi e informatici hanno

consentito alle aziende di analizzare anche dati non

tradizionali per risolvere problemi aziendali, vecchi e

nuovi, che hanno portato allo sviluppo di nuove

tecniche statistiche più adeguate all’analisi di tali dati.

Ad oggi, le analisi aziendali devono combinare diversi

metodi provenienti da diverse discipline quali:

- Sistemi informatici (raccolta & elaborazione dati);

- Statistica (descrizione & analisi dati);

- Gestione aziendale (modelli di ottimizzazione).

NON TRADIZIONALI: i BIG DATA

I big data sono dati evoluti in termini di:

a. Volume, vengono raccolti in massa;

b. Velocità, le informazioni vengono raccolte al

secondo;

c. Varietà, vi sono moltissime caratteristiche;

d. Veridicità, molto incerti.

(Facebook, Tripadvisor, recensioni, amazon).

Analizzare questa tipologia di dati richiede tecniche

non tradizionali, poiché sono dati non strutturati: non

possono essere raccolti in matrice, i dati sono di

diversa natura, richiedono molto più spazio e

pf3

pf4

pf5

pf8

pf9

pfa

pfd

pfe

pff

pf12

pf13

pf14

pf15

pf16

pf17

pf18

pf19

pf1a

pf1b

pf1c

pf1d

pf1e

pf1f

pf20

pf21

pf22

pf23

pf24

pf25

pf26

pf27

pf28

pf29

pf2a

pf2b

pf2c

pf2d

pf2e

pf2f

pf30

pf31

pf32

pf33

pf34

pf35

Scopri Appunti di Statistica Università degli Studi di Padova (UNIPD)

Documenti correlati

Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità - Prof. Faraci

Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità

Analisi statistica descrittiva: distribuzioni, misure di posizione e variabilità - Prof. C

Introduzione alla Statistica: Distribuzioni, Posizione e Dispersione

Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità

Analisi Statistica: Distribuzioni di Frequenza, Indici di Posizione e Variabilità

Esercizi di Statistica: Distribuzioni di Frequenza, Misure di Posizione e Variabilità

Statistica: Indici di posizione, variabilità, simmetria e mutabilità

Statistica: misure di tendenza centrale, indici di posizione e variabilità

Esercizi di Statistica: Distribuzioni, Posizione e Variabilità - Introduzione

Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità - Prof. Trovato

Statistica: Distribuzioni, Posizione e Variabilità - Schemi e Mappe Concettuali

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Distribuzioni, Posizione e Variabilità e più Appunti in PDF di Statistica solo su Docsity!

1. STATISTICA e METODOLOGIA della RICERCA

1. COS’È la STATISTICA?

La Statistica:

a. È una disciplina scientifica che studia metodi e

strumenti per acquisire conoscenza su un’ampia

varietà di problemi e fenomeni in molti ambiti

applicativi (scienze sociali, economiche, …).

b. Non affronta o risolve casi individuali, ma cerca di

giungere a conclusioni generali su fenomeni

collettivi e alla discussione critica della loro

validità a partire dalla conoscenza aggregata

risultante da un insieme di casi singoli

(popolazione o campione) accomunati da regole e

definizioni, sui quali è osservato e analizzato un

insieme di caratteristiche (variabili).

c. Fornisce ragionamenti e metodi per produrre,

analizzare e interpretare dati statistici.

d. Trasforma i dati in informazioni utili per

descrivere e monitorare uno specifico argomento

di interesse.

e. Fornisce metodi per ricercare relazioni tra

fenomeni e interviene nelle situazioni nelle quali

occorre assumere decisioni in condizioni di

incertezza.

L'osservazione e l'analisi statistica di variabili in una

popolazione o campione, genera una serie di dati.

NECESSITÀ

Di osservare popolazioni o campioni di prodotti,

consumatori, transazioni.

Di raccogliere informazioni su un insieme di

caratteristiche (= variabili) diverse.

2. PRENDERE DECISIONI in

CONDIZIONI di INCERTEZZA

Le condizioni di incertezza possono presentarsi per:

a. La limitatezza delle osservazioni (indagini

campionarie);

b. La complessità del fenomeno o della realtà da

indagare che si traduce ad esempio nella difficoltà

di individuare tutte le variabili di interesse;

c. Imprecisione nelle misurazioni o nelle rilevazioni

delle variabili;

d. Instabilità del fenomeno nel tempo, dovuta ad

esempio dalla dipendenza da altri fenomeni (crisi

economica, variazioni dei prezzi, …).

3. PROBLEMI REALI e PROBLEMI

STATISTICI

PRINCIPIO della PARSIMONIA

Nella ricerca scientifica vale il Principio della

parsimonia scientifica, che implica l'accettazione di un

certo grado d'incertezza nella ricerca e la scelta di

modelli di rappresentazione della realtà in studio, il

più possibile semplici. → Trovare il minor numero di

caratteristiche e quindi di parametri che andranno a

definire la mia previsione

SEMPLIFICAZIONE

Nello studio di un problema di interesse è quindi

necessaria una semplificazione del problema nelle sue

linee essenziali per poter procedere nell’approfondi-

mento secondo metodi statistici opportuni. → La

semplificazione consiste nel tradurre il problema di

interesse in un problema statistico definendo una

struttura formale (modello) e una griglia concettuale

(definizioni, classificazioni). Bisogna, quindi,

individuare i fattori che influenzano in maniera

maggiore la previsione, mentre scartare i rumori e cioè

i fattori che la influenzano in maniera minore.

MODELLO e GRIGLIA CONCETTUALE

Per un dato problema di interesse, la ricerca statistica

intraprende quindi un’indagine specificando il

modello (struttura formale) e la griglia concettuale

(definizioni, classificazioni) all'interno dei quali

saranno generati e avranno validità i dati statistici

informativi sulla realtà in studio. → I dati statistici non

sono quindi semplicemente numeri, ma numeri che

forniscono informazioni su un problema o realtà di

interesse all'interno di uno specifico contesto di

ricerca e che necessitano di essere interpretati

all'interno di quel contesto.

Il modello e la griglia concettuale risultano definiti in

base:

Agli obiettivi della ricerca;
La tipologia dello studio (trasversale,

longitudinale; osservazionale, sperimentale);

La natura della rilevazione (censuaria,

campionaria);

La tecnica dell'indagine (questionario, diario);
I vincoli temporali e le risorse.

4. DATI TRADIZIONALI e NON

TRADIZIONALI

I recenti sviluppi tecnologi e informatici hanno

consentito alle aziende di analizzare anche dati non

tradizionali per risolvere problemi aziendali, vecchi e

nuovi, che hanno portato allo sviluppo di nuove

tecniche statistiche più adeguate all’analisi di tali dati.

Ad oggi, le analisi aziendali devono combinare diversi

metodi provenienti da diverse discipline quali:

Sistemi informatici (raccolta & elaborazione dati);
Statistica (descrizione & analisi dati);
Gestione aziendale (modelli di ottimizzazione).

NON TRADIZIONALI: i BIG DATA

I big data sono dati evoluti in termini di:

a. Volume, vengono raccolti in massa;

b. Velocità, le informazioni vengono raccolte al

secondo;

c. Varietà, vi sono moltissime caratteristiche;

d. Veridicità, molto incerti.

(Facebook, Tripadvisor, recensioni, amazon).

Analizzare questa tipologia di dati richiede tecniche

non tradizionali, poiché sono dati non strutturati: non

possono essere raccolti in matrice, i dati sono di

diversa natura, richiedono molto più spazio e

presentano molte difficoltà dal punto di vista della

privacy.

Ogni dato dev’essere prima tradotto in termini

numerici e solo dopo analizzato. → Passaggio dal non

strutturato allo strutturato.

TRADIZIONALI

I dati tradizioni vengono inseriti in matrici ed al suo

interno possiamo trovare numeri e stringhe.

Richiedono poco spazio e sono facili da gestire in

termini di privacy.

Le FASI di un’INDAGINE

STATISTICA

Per l'esecuzione di una indagine statistica è

importante procedere ad una attenta pianificazione.

Le fasi di una indagine statistica possono essere

sintetizzate nel modo seguente:

Definizione degli obiettivi della ricerca;
Definizione della tipologia di studio;
Definizione della popolazione di interesse;
Definizione delle variabili di interesse e delle scale

di misura;

Definizione della fonte dei dati;
Definizione della tecnica di indagine (costruzione

dello strumento e delle modalità di raccolta dati);

Selezione del campione (per indagini

campionarie);

Rilevazione dei dati e organizzazione dei dati

raccolti;

Analisi statistica e presentazione dei risultati;
Interpretazione e utilizzazione dei risultati della

ricerca.

OBIETTIVI della RICERCA

È necessario trasformare la richiesta di indagine in un

obiettivo, al fine di definire correttamente la natura

delle informazioni da raccogliere e gli strumenti

statistici con i quali esaminare i dati. Gli obiettivi

devono essere, quindi, fattibili, agevoli da investigare e

dettagliati, in modo da circoscrivere l'ambito

dell'indagine, individuandone con esattezza il

territorio e il periodo. È preferibile ridurre l’obiettivo

se troppo grande o creane diversi, realizzando singoli

obiettivi alla volta.

Definire gli obiettivi significa:

a. Delimitare precisamente cosa interessa da cosa

non interessa ricordando che più ampio è l'arco

degli argomenti trattati, maggiori sono le

complessità da affrontare sia nell’ambito statistico

sia in quello operativo;

b. Definire se interessa descrivere un fenomeno nella

sua componente statica o in quella dinamica;

c. Specificare se interessa confrontare i risultati con

informazioni relative ad altre realtà territoriali o

nel tempo;

d. Specificare eventuali ipotesi da sottoporre a

verifica.

Avere delle conoscenze preliminari e fare un’analisi

della letteratura sull'argomento di interesse sono

fondamentali.

TIPOLOGIA di STUDIO

La tipologia dello studio può differenziarsi in

particolare con riferimento a:

Collettivo

da

esaminare

Indagini globali (censuarie)

Viene osservata tutta la popolazione di

interesse.

Indagini parziali (campionarie)

Viene osservato un campione della

popolazione di interesse.

Modalità

temporali

di

rilevazione

Studi trasversali

Viene effettuata un’unica rilevazione in

un istante temporale.

Studi longitudinali

Per ogni rilevazione vengono raccolti

dati in corrispondenza di più istanti

temporali.

Periodicità

dello

studio

Studi occasionali

Lo studio è condotto una sola volta.

Studi ripetuti (pure su campioni ≠)

Lo studio è ripetuto periodicamente.

Modalità

di

intervento

del

ricercatore

Studi osservazionali

Vi è l’osservazione passiva della realtà

di interesse senza interventi da parte

del ricercatore.

Studi sperimentali

Il ricercatore interviene modificando la

realtà in studio mediante un

esperimento.

Finalità

della

ricerca

Studi descrittivi/esplorativi

L’interesse del ricercatore si limita alla

descrizione della realtà senza

formulare ipotesi di ricerca.

Studi esplicativi/analitici

L’interesse del ricercatore è verificare

varie ipotesi di ricerca.

POPOLAZIONE di INTERESSE

L’unità statistica è l'elemento sul quale viene

effettuata la rilevazione o la misurazione di una o

più caratteristiche rilevanti per il problema in

studio.

La popolazione è l'insieme di tutte le unità

statistiche interessate dal problema in studio.

Il campione è un qualsiasi sottoinsieme della

popolazione.

SCALE di MISURA

Si definisce scala di misura il tipo di misurazione o

l'insieme delle modalità adottate per l'osservazione di

una variabile.

Alla scelta della scala di misura contribuiscono:

a. Gli obiettivi dell'indagine;

b. La tipologia della variabile.

L'individuazione della scala di misura e della tipologia

delle variabili sono fondamentali per una corretta

selezione delle procedure di analisi statistica da

applicare.

La scala di misura utilizzata per rilevare una variabile

può essere modificata (ricodificata) successivamente

Campione

Popolazione

Unità

statistica

Osservazione

diretta

Le informazioni sono raccolte dal

rilevatore per mezzo dei propri sensi

o mediante strumenti di

misurazione fisici.

Tecniche

miste

Le informazioni sono raccolte

mediante la combinazione di due o

più tecniche di indagine.

(Combinazione di indagine

telefonica e indagine diretta sui non

rispondenti all'indagine telefonica.)

Nuove

tecnologie

Le informazioni sono raccolte

mediante intervista diretta o

telefonica con compilazione di un

questionario contenuto nel

computer. Le risposte sono

registrate direttamente su supporto

magnetico, o mediante auto

compilazione di un

questionario via Web. (CATI, CAPI,

CAWI)

Il QUESTIONARIO

Molte tecniche di indagine utilizzano il questionario

come strumento di raccolta dei dati. I questionari si

distinguono per:

Tipologia: questionario cartaceo e questionario

informatizzato (Indagini CAPI, CATI, CAWI);

Modalità di compilazione: auto compilazione o

autosomministrazione; compilazione mediante

intervista diretta o telefonica; somministrazione

mista mediante intervista e auto compilazione.

Il questionario deve essere uno strumento

standardizzato, ovvero domande e risposte devono

essere identiche per tutte le unità statistiche di

rilevazione affinché le informazioni raccolte siano

confrontabili fra loro.

Realizzazione di un questionario: Per la

realizzazione di un questionario è necessario:

Definire esattamente quali sono i temi che

interessano l’indagine escludendo quelli che non

sono di interesse primario;

Preparare la lista delle variabili (e non

direttamente le domande) da raccogliere rispetto

ai temi di interesse identificati in precedenza;

Preparare un piano provvisorio delle analisi

statistiche da compiere per accertarsi di

raccogliere tutte le informazioni necessarie.

Le fasi di redazione di un questionario sono le

seguenti:

Stabilire la successione logica dei temi trattati (le

sezioni del questionario);

Definire la sequenza di domande per ciascuna

sezione;

Formulare i quesiti;
Organizzare le risposte;
Verificare il questionario (pretest, indagini pilota).

SELEZIONE del CAMPIONE

Quando l'indagine è campionaria è necessario definire

la strategia di campionamento e procedere quindi alla

selezione del campione.

La definizione delle modalità di estrazione del

campione e della sua dimensione prende il nome di

strategia di campionamento ed è basata sulla ben

consolidata teoria dei campioni.

Selezionare solo un campione implica ovviamente

avere informazioni parziali rispetto alla possibilità di

osservare l'intera popolazione. Tuttavia, se la selezione

del campione viene effettuata in modo corretto, è

possibile generalizzare i risultati dal campione alla

popolazione e misurare il livello di precisione delle

informazioni campionarie attraverso tecniche di

inferenza statistica.

TIPOLOGIE di CAMPIONAMENTO

Non probabilistico: Convenience e voluntary

Nel convenience sampling

(campionamento di

convenienza o accidentale),

le unità della popolazione

vengono selezionate in base

al fatto che sono: facili,

economiche o convenienti da campionare.

Nel voluntary sampling

(campionamento

volontario), le unità della

popolazione vogliono far

parte del campione.

Non probabilistico: Snowball e Judgement

Nel snowball sampling (campionamento a catena o

a valanga), la prima

unità propone un

amico, l'amico

propone un altro

amico e così via.

Nel judgment

sampling

(campionamento con esperto), il campione viene

creato da un

esperto della

materia che

seleziona le

unità del

campione.

Probabilistico: Campionamento casuale semplice

Tutte le unità statistiche hanno la stessa probabilità di

essere selezionate, la loro selezione può avvenire con

sostituzione

(le unità

possono

essere

selezionate più

volte) o senza

sostituzione

(l'unità

selezionata non può più essere selezionata).

Le unità statistiche sono estratte attraverso l'utilizzo di

tavole di numeri casuali o generatori di numeri

casuali.

Probabilistico: Campionamento sistematico

Si vuole estrarre un campione di unità statistiche da

una popolazione, è necessario prima dividere la

popolazione in un certo numero di gruppi, e quindi

definire il:

= (𝑁𝑢𝑚𝑒𝑟𝑜𝑠𝑖𝑡à 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑎)

/(𝑁° 𝑑𝑖 𝑢𝑛𝑖𝑡à 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐ℎ𝑒 𝑛𝑒𝑐𝑒𝑠𝑠𝑎𝑟𝑖𝑒)

Poi, vi è la

selezione casuale

di un individuo

dal primo

gruppo, dopo di

che c’è la

selezione di

un’unità a

seconda del passo di campionamento dopo la prima

selezionata.

Probabilistico: Campionamento stratificato

Dividere la popolazione in due o più sottogruppi

(chiamati strati) in

funzione di una o

più particolari

caratteristiche delle

unità.

Un campione

casuale semplice viene selezionato da ciascun

sottogruppo con ampiezza proporzionale al

numero di unità dello strato.

I campioni selezionati da ciascun strato vengono

combinati insieme per creare il campione finale.

Probabilistico: Campionamento a clusters

La popolazione è suddivisa in diversi ‘clusters’

(gruppi), ciascuno rappresentativo della

popolazione.

Un campione

casuale semplice

di ‘clusters’ viene

selezionato.

Tutte le unità dei

‘clusters’

selezionati

possono essere

utilizzate o, attraverso un campionamento

probabilistico, è possibile selezionare solo alcune

unità per ciascun ‘clusters’.

Confronto tra metodi di campionamento

Campionamento casuale semplice e sistematico:
- Semplice da utilizzare;
- Può portare alla creazione di campioni che non

rappresentano bene la popolazione per

determinate caratteristiche.

Il campionamento stratificato assicura la creazione

di un campione rappresentativo della popolazione

per quanto riguarda le caratteristiche utilizzate per

la creazione degli strati.

Campionamento a clusters (gruppi):
- Più conveniente;
- Meno efficiente (per ottenere buoni livelli di

precisione ha bisogno di grandi campioni).

RILEVAZIONE e ORGANIZZAZIONE

Sono fasi operative in cui si procede a raccogliere i dati

in base alle scelte effettuate relativamente alla

tipologia dello studio, alla fonte dei dati, alla tecnica di

indagine, e a organizzare i dati in un formato (banca

dati, database, data set) utile per procedere all'analisi

statistica.

Prima dell'analisi statistica dei dati, sulle informazioni

raccolte possono essere effettuate procedure di:

a. Revisione, mediante tecniche manuali o

automatiche al fine di evidenziare la presenza di

mancate risposte (dati mancanti o missing) o di

errori, rispetto ai quali apportare eventualmente

delle correzioni;

b. Codifica, ovvero di trasformazione dei valori delle

variabili in codici numerici o alfanumerici al fine

di rendere le variabili più facilmente trattabili in

sede di analisi statistica, o di riclassificare le

variabili osservate.

ANALISI e PRESENTAZIONE

INTERPRETAZIONE e UTILIZZAZIONE

I risultati di una indagine statistica consentono di:

Presentare e descrivere in maniera appropriata

dati e informazioni;

Trarre conclusioni su intere popolazioni a partire

dalle informazioni che si ottengono da campioni;

Ottenere previsioni affidabili sulle tendenze di

fenomeni di interesse;

Migliorare i processi in studio.

L'utilizzazione dei risultati di una ricerca è connessa

alle sue modalità di esecuzione, alle regole e ai dettagli

definiti durante tutte le fasi dello studio (modello e

griglia concettuale); solo richiamando questi aspetti è

possibile dare una interpretazione corretta dei

risultati.

DENSITÀ di FREQUENZA

Per distribuzioni di frequenza di variabili quantitative

(discrete o continue) classificate in classi di diversa

ampiezza, è utile calcolare per ciascuna classe la

densità di frequenza.

𝐷𝑒𝑛𝑠𝑖𝑡à 𝑑𝑖 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 =

Le densità di frequenza consentono di confrontare il

peso relativo tra classi.

GRAFICI per DISTRIBUZIONE di

FREQUENZA

È possibile affiancare alle distribuzioni riportate in

forma tabellare, grafici che per immediatezza visiva

riescono ad evidenziare con più efficacia le

informazioni raccolte. La scelta del metodo grafico

dipende da:

a. Finalità conoscitive;

b. Tipo di variabile da rappresentare.

Le tipologie di grafici più comuni sono:

Diagrammi a

barre, a torta

e di Pareto

Particolarmente indicati per

variabili qualitative, quantitative

discrete, per variabili misurate

con scala nominale o ordinale.

Istogramma,

poligono e

poligono

cumulativo

(Ogiva)

Indicati per variabili quantitative

continue o discrete che hanno

molte modalità.

Variabile qualitativa sconnessa Grafico a torta

Variabile qualitativa ordinale Diagramma a

barre

Variabile quantitativa discreta Line/Stick plot

Variabile quantitativa continua Istogramma

DIAGRAMMA a TORTA

Il diagramma a torta è un

grafico costituito da un'area

circolare suddivisa in sezioni.

Ciascuna sezione rappresenta

una modalità della variabile.

L'ampiezza di ciascuna

sezione è proporzionale alla

frequenza relativa semplice o percentuale della

modalità considerata ed è pari a (360 x 𝑓 𝑖

). Il

diagramma a torta permette di confrontare il peso

relativo delle diverse modalità e di avere una visione

immediata di come il collettivo totale si compone

rispetto alle modalità della variabile.

DIAGRAMMA a BARRE

Il diagramma a barre è un

grafico costituito da una serie

di barre (orizzontali o

verticali). Ciascuna barra

rappresenta una modalità

della variabile, e la lunghezza

della barra è proporzionale

alla frequenza assoluta, relativa semplice o

percentuale della modalità considerata. Il diagramma

a barre permette di confrontare il peso delle diverse

modalità.

DIAGRAMMA di PARETO

Il diagramma di Pareto è un

grafico costituito da una

serie di barre verticali

disposte in ordine

decrescente di frequenza.

Ciascuna barra rappresenta

una modalità della variabile,

e la lunghezza della barra è

proporzionale alla frequenza assoluta, relativa

semplice o percentuale della modalità considerata.

Nello stesso diagramma è rappresentata una linea

spezzata che ne rappresenta le frequenze cumulate.

Il diagramma di Pareto diventa particolarmente utile

quando le modalità della variabile di interesse sono

molte. Infatti, il vantaggio di questo grafico consiste

nella sua capacità di separare le poche modalità cui è

associata una frequenza più alta da quelle meno

rappresentate nei dati, permettendo al lettore di

concentrarsi sulle modalità più importanti.

ISTOGRAMMA

L'istogramma è un grafico per

variabili continue suddivise in

classi, costituito da una serie di

rettangoli affiancati, la cui base

rappresenta l'ampiezza delle

classi e l'altezza rappresenta la

frequenza assoluta, relativa

semplice o percentuale

corrispondente alle varie classi. Se la variabile è

suddivisa in classi di diversa ampiezza, l'istogramma è

costituito da una serie di rettangoli affiancati, la cui

base rappresenta l'ampiezza delle classi e l'altezza

rappresenta la densità di frequenza corrispondente

alle varie classi. L'area di ciascun rettangolo è quindi

la frequenza corrispondente alla classe. Quando le

classi sono di diversa ampiezza, l'istogramma non è di

facile lettura. Quando possibile è consigliabile

comunque ricondursi ad una classificazione per classi

di uguale ampiezza.

Il POLIGONO

Il poligono è un grafico

per variabili continue

suddivise in classi,

costituito da una linea

spezzata che unisce i

punti con ascissa pari al

punto medio di ciascuna

classe e ordinata pari alla frequenza assoluta, relativa

semplice o percentuale corrispondente alle varie

classi. Molto utile per i confronti.

Il POLIGONO CUMULATIVO (OGIVA)

Il poligono cumulativo o

ogiva è un grafico per

variabili continue suddivise

in classi, costituito da una

linea spezzata che unisce i

punti con ascissa pari

all'estremo superiore di ciascuna classe e ordinata pari

alla frequenza cumulata assoluta, relativa semplice o

percentuale corrispondente alle varie classi. Molto

utile per i confronti.

CONFRONTI GRAFICI tra

DISTRIBUZIONI di FREQUENZA

Diagramma a barre o Poligono per il confronto tra

gruppi: Quando si confrontano le distribuzioni di

frequenza tra due o più gruppi di unità statistiche è

consigliabile considerare le frequenze relative semplici

o percentuali per eliminare la possibile distorsione

dovuta all'eventuale diversa numerosità dei gruppi a

confronto. Per la rappresentazione grafica è

consigliabile utilizzare un diagramma a barre

affiancate o i poligoni.

Diagramma a barre o Ogiva per il confronto tra

gruppi: Il confronto della distribuzione di frequenza

tra due o più gruppi di unità statistiche può essere

condotto anche considerando le frequenze relative

cumulate semplici o percentuali. Per la

rappresentazione grafica è consigliabile utilizzare un

diagramma a barre affiancate o le ogive.

TIPS

a. Usa il grafico più semplice possibile.

b. Il grafico non deve dare una visione distorta dei

dati.

c. Il grafico non deve contenere inutili abbellimenti.

d. Includi titolo e etichette degli assi.

e. Includi una scala per ciascun asse, se il grafico

contiene assi.

f. La scala lungo l'asse verticale deve iniziare da zero.

g. Scegli correttamente la scala in modo da non

comprimere il grafico

h. Evita grafici 3D o effetti esplosivi.

i. Usa colori coerenti in grafici che devono essere

confrontati.

j. Evita l'utilizzo di grafici non comuni per un

pubblico non esperto (radar, surface, bubble, cone,

e pyramid charts).

𝑛+ 1

2

𝑛

2

𝑛

2

1 non sono i valori della mediana ma

le posizioni in cui troviamo la modalità mediana nella

graduatoria ordinata dei valori.

CARATTERISTICA

La mediana è meno influenzata dalla presenza di

valori estremi (outliers) rispetto alla media aritmetica.

I QUANTILI

I quantili sono misure di posizione non centrale.

Definiamo quantili quei valori che dividono la

distribuzione ordinata di una variabile quantitativa o

qualitativa misurata su scala ordinale in un certo

numero di parti di uguale numerosità. Vengono

impiegati quando si sintetizzano ampi insiemi di dati

particolarmente sparsi.

I QUARTILI

I quantili più comunemente utilizzati sono i quartili. I

quartili sono tre valori che dividono la distribuzione

ordinata in quattro parti di uguale ampiezza, ognuna

con il 25%:

Il loro calcolo:

Ordinare → I valori assunti dalla variabile devono

essere ordinati in senso crescente;

Individuare la posizione:

Q1 = modalità che si trova nel posto (𝑛 + 1 )/ 4

Posizione non centrale.

Q2 = modalità che si trova nel posto (mediana):

Q 3 = modalità che si trova nel posto 3 ∙ (𝑛 + 1 )/ 4

Posizione non centrale.

Individuare la modalità:
1. Se il punto di posizionamento è un numero

intero, si sceglie come quartile la modalità

assunta dall'unità corrispondente;

Se il punto di posizionamento è a metà tra due

numeri interi, si sceglie come quartile la media

delle modalità assunte dalle unità

corrispondenti;

Se il punto di posizionamento non è né un

numero intero né a metà tra due numeri interi,

si approssima la posizione per eccesso o per

difetto e si sceglie come quartile la modalità

assunta dall'unità corrispondente.

per VARIABILI in CLASSI

Quando disponiamo della distribuzione di frequenza

di una variabile quantitativa o qualitativa misurata su

scala ordinale (suddivisa in classi o non suddivisa in

classi), il calcolo dei quartili è il seguente:

a. Q1 è la prima modalità a cui corrisponde una

frequenza relativa cumulata % > o= al 25%;

b. Q2 è la prima modalità a cui corrisponde una

frequenza relativa cumulata % > o= al 50%;

c. Q3 è la prima modalità a cui corrisponde una

frequenza relativa cumulata % > o= al 75%.

La MODA

La moda è la modalità della variabile maggiormente

osservata. Per calcolare la

moda è sufficiente calcolare

la distribuzione di frequenza

della variabile. La moda è la

modalità (o classe) a cui

corrisponde la frequenza assoluta o relativa (semplice

o %) più alta.

a. Non è influenzata dalla presenza di valori estremi;

b. Può essere calcolata per tutti i tipi di variabili

(variabili quantitative e variabili qualitative

misurate su scala ordinale e nominale);

c. Può non esserci una moda, la moda è informativa

solo se vi è una netta prevalenza di una o più

modalità rispetto alle altre;

d. Ci possono essere più mode.

ASPETTI che ORIENTANO nella

SCELTA dei VALORI MEDI

MISURA della VARIABILE

Misure di

centralità

Quantitative

Qualitative

Ord. Scon.

Media SI NO NO

Mediana/quartili SI SI NO

Moda SI SI SI

FORMA della DISTR. Della VARIABILE

VARIABILITÀ della DISTRIBUZIONE

a. Distribuzione a ridotta

variabilità: le misure di

tendenza centrale

(media, mediana, moda)

sono molto informative;

b. Distribuzione ad ampia

variabilità:

a. Le misure di tendenza centrale (media,

mediana, moda) sono poco informative;

b. Le misure di tendenza non centrale (quantili)

sono più informative.

4. SINTESI e DESCRIZIONE delle VARIABILI

MEDIANTE MISURE di VARIABILITÀ e INDICATORI di

FORMA

1. La VARIABILITÀ

Dopo il calcolo di distribuzioni di frequenza e di valori

medi, l'analisi statistica descrittiva di un campione o

popolazione di unità statistiche prosegue con lo studio

della variabilità delle principali caratteristiche

osservate (variabili).

La variabilità della distribuzione di una data variabile

rappresenta la tendenza delle unità statistiche

osservate ad assumere modalità diverse (come si

distribuiscono/disperdono i dati).

Le misure statistiche di variabilità sono quindi in

grado di fornire informazioni sul grado di

differenziazione o di dispersione dei valori osservati.

Una misura di variabilità per una distribuzione:

a. È minima se tutte le unità statistiche presentano la

stessa modalità, non vi è dispersione;

b. Aumenta al crescere della diversità di modalità

assunte dalle unità, massima dispersione.

VALORI MEDI e VARIABILITÀ

I valori medi non

riflettono la variabilità dei

valori osservati.

In questo esempio

consideriamo tre insiemi

di dati relativi ad una data

variabile 𝑋. I tre insiemi hanno la stessa media ma

presentano una variabilità molto diversa.

TENDENZA CENTRALE e VARIABILITÀ

La tendenza centrale o posizione (misurata attraverso

i valori medi) e la variabilità (misurata attraverso le

misure di variabilità) sono due aspetti diversi della

distribuzione di una variabile. Due distribuzioni

possono avere medie uguali e differire rispetto alla

variabilità oppure possono essere caratterizzate dalla

stessa variabilità, ma da diversa media. L’indice di

variabilità fa variare la forma, mentre l’indice di

posizione fa variare la posizione nell’asse delle x.

DISTR. di FREQUENZA e VARIABILITÀ

La distribuzione di frequenza fornisce già

informazioni sulla variabilità presente nei dati ma

risulta difficile discriminare tra situazioni di

variabilità intermedia. Vogliamo quindi calcolare delle

misure di variabilità che sintetizzino in un solo valore

la variabilità presente e che consentano di

discriminare tra situazioni di variabilità intermedia.

2. Il RANGE/CAMPO di

VARIAZIONE

Il range è la misura di variabilità più semplice ed è

definita come differenza tra i valori estremi.

LIMITI

Non tiene conto di come i dati sono internamente

distribuiti;

È sensile alla presenza di valori estremi (outliers).

3. Il RANGE INTQRQUARTILE o

SCARTO INTERQUARTILE

Il Range Interquartile è la differenza massima

riscontrabile tra i dati che costituiscono il 50% dei

valori centrali (nella graduatoria dei valori osservati

dal più piccolo al più grande) o l'intervallo in cui è

compreso il 50% dei valori centrali osservati.

Permette di evitare gli eventuali valori anomali.

Il range interquartile può essere calcolato per variabili

quantitative o qualitative purché misurate con scala

ordinale:

a. Se la variabile è quantitativa il range interquartile

può essere indicato come differenza tra Q3 e Q1 o

come intervallo (Q1, Q3).

b. Se la variabile è qualitativa il range interquartile è

indicato come intervallo (Q1, Q3).

OSSERVAZIONI

È espresso nella stessa unità di misura della

variabile.

Non riflette la variabilità interna all'intervallo

definito da Q1 e Q3.

Essendo riferito solo al 50% dei valori centrali, non

è sensibile alla presenza di valori estremi

(outliers).

4. La VARIANZA

Il range e il range interquartile sono misure definite

come differenze o intervalli tra soli due valori. Queste

misure sono quindi imprecise e non sono in grado di

descrivere completamente la distribuzione dei dati. →

Per descrivere la variabilità della distribuzione di una

variabile in modo più completo ed informativo

abbiamo bisogno di una misura di variabilità che

prenda in considerazione tutti i valori osservati: la

varianza.

Rappresenta la differenza massima riscontrabile tra

i dati o l'intervallo in cui sono compresi tutti i valori

osservati. Il range può essere calcolato per variabili

Quantitative o qualitative purché misurate con scala

ordinale:

a. Se la variabile è quantitativa il range può essere

indicato come differenza tra massimo e minimo

valore o come intervallo (minimo, massimo).

b. Se la variabile è qualitativa il range è indicato

come intervallo (minimo, massimo).

Il campo di variazione è espresso nella stessa unità

di misura della variabile.

La soluzione è il coefficiente di variazione:

Normalmente il 𝐶𝑉 è espresso in percentuale e viene

calcolato utilizzando la deviazione standard

campionaria.

L’ETEROGENEITÀ/La MUTABILITÀ

L'eterogeneità o la mutabilità è la misura analoga alla

variabilità per dati qualitativi. Tale indice misura

l'attitudine di un carattere ad assumere diverse

modalità qualitative. Nel caso di caratteri qualitativi

non è possibile calcolare delle differenze tra valori

osservati ma è possibile calcolare delle differenze tra

frequenze.

MINIMA ETEROGENEITÀ

La minima eterogeneità si ha quando tutte le modalità

del carattere tranne una hanno frequenza nulla,

ovvero quando tutte le unità statistiche si concentrano

nella stessa modalità. In questo caso la distribuzione

delle frequenze relative si presenta come:

Modalità 𝒙

𝟏

𝒋

𝒌

Frequenza relativa 0 1 0

Dove il 𝑘 è il numero di modalità del carattere.

MASSIMA ETEROGENEITÀ

La massima eterogeneità si ha quando tutte le

frequenze sono uguali, ovvero quando tutte le unità

statistiche si ripartiscono in maniera uguale

(equidistribuzione/omogeneità) tra le varie modalità.

In questo caso la distribuzione delle frequenze relative

si presenta come:

Modalità 𝒙

𝟏

𝒋

𝒌

Frequenza relativa

FREQUENZA RELATIVA della MODA

Una misura di eterogeneità per variabili qualitative

anche misurate con scala nominale è la frequenza

relativa della moda.

Frequenza della moda elevata (molte osservazioni

concentrate sulla moda, moda molto vicina all’1) →

Ridotta variabilità;

Frequenza della moda bassa (poche osservazioni

concentrate sulla moda, moda molto distante

dall’1) → Maggiore variabilità.

INDICI

Indice di Gini:

𝑖

2

𝑘

𝑖= 1

Nella situazione di minima eterogeneità vale 0,

mentre nella situazione di massima eterogeneità

vale:

2

𝑘

𝑖= 1

2

L’indice di Gini normalizzati è:

𝑖

2

𝑘

𝑖= 1

𝐺 ∗= 0 minima eterogeneità: 𝐺 ∗= 1 massima

eterogeneità.

Indice di Shannon:

𝑖

l𝑜𝑔

𝑖

𝑘

𝑖= 1

Nella situazione di minima eterogeneità vale 0,

mentre nella situazione di massima eterogeneità

vale:

𝑘

𝑖= 1

(l𝑜𝑔

− log (𝑘))

𝑘

𝑖= 1

= log (𝑘)

Indice di Shannon normalizzato:

𝑖

l𝑜𝑔

𝑖

𝑘

𝑖= 1

log (𝑘)

ASPETTI INFLUENZATI

SCALA di MISURA della VARIABILE

Misure di

variabilità

Quantitative

Qualitative

Ord. Nom.

Varianza,

Deviazione

standard, CV

SI NO NO

Range SI NO NO

Range

interquartile

SI SI NO

Misure di

eterogeneità

SI SI SI

FORMA della DISTR. della VARIABILE

La forma della distribuzione di una variabile indica

il modo in cui si distribuiscono i valori osservati.

La distribuzione di una variabile quantitativa può

essere simmetrica o asimmetrica (obliqua).

In una distribuzione simmetrica il ramo

ascendente della distribuzione è speculare al ramo

discendente.

Nelle situazioni reali le distribuzioni possono

risultare tendenzialmente simmetriche o

tendenzialmente asimmetriche.

BOXPLOT

Per descrivere sinteticamente la tendenza centrale, la

variabilità e la forma della distribuzione di una

variabile quantitativa possiamo utilizzare un grafico

detto Boxplot. Esistono diversi tipi di Boxplot ma

quello più comune si base sui seguenti 5 indicatori:

a. Valore Minimo;

b. Primo quartile (Q1);

c. Mediana (Q2);

d. Terzo quartile (Q3);

e. Valore Massimo.

VALORI ESTREMI

Spesso con un diagramma Boxplot (scatola con baffi)

si vogliono evidenziare anche eventuali valori estremi.

In questo caso:

La scatola è costruita a partire dai quartili;
I baffi si estendono fino ai dati più lontani che

siano però non più distanti di 𝑘 ∙

(𝑅𝑎𝑛𝑔𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙𝑒) dalla scatola. Il Range

Interquartile è l'ampiezza della scatola; 𝑘 è una

costante arbitraria tipicamente scelta uguale a 1.5.

Ovvero non accettiamo baffi esageratamente

lunghi.

Le osservazioni che sono oltre i baffi sono

disegnate opportunamente sul grafico (ad esempio

utilizzando un pallino).

CONFRONTI

Il Boxplot può

essere orientato sia

in verticale che

orizzontale.

FORMA della DISTRIBUZIONE

Asimmetrica a destra: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 < 𝑀𝑒𝑑𝑖𝑎
Simmetrica: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑀𝑒𝑑𝑖𝑎

La scatola e la linea centrale sono centrate rispetto

alla lunghezza dei segmenti

laterali.

Asimmetrica a sinistra: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 > 𝑀𝑒𝑑𝑖𝑎

FORMA e VARIABILITÀ

All'aumentare

della variabilità

dei valori

osservati,

aumenta

l'ampiezza della

scatola.

RECAP CARATTERISTICHE

a. Il valore del range, del range interquartile, della

varianza e della deviazione standard, aumenta

all'aumentare della variabilità.

b. La varianza e la deviazione standard dipendono

dalla numerosità campionaria.

c. Quanto più i dati sono concentrati o omogenei,

tanto minori risultano il range, il range

interquartile, la varianza e la deviazione standard.

d. Se tutti i valori osservati sono uguali (assenza di

variabilità) tutte queste misure di variabilità sono

uguali a 0.

e. Nessuna di queste misure di variabilità può

assumere valori negativi.

f. Tutte queste misure di variabilità dipendono dalla

dall'unità di misura della variabile

EVENTO COMPLEMENTARE

Dato un evento A, il

complementare di A, indicato

con 𝐴

, è l’evento che include

tutti gli eventi che sono nello

spazio campionario (Ω) che

non sono in A tale per cui:

) = Ω. Essendo A e 𝐴

eventi disgiunti, la probabilità è calcolata come segue:

Quindi: 𝑃(𝐴

Da ricordare che: 𝑃(Ω

Esempio: In un'azienda lavorano 300 operai maschi e

100 operaie femmine. Da uno studio svolto

dall'azienda risulta che tra gli uomini il 20% possiede

un titolo di studio alto (laurea o più) mentre tra le

donne il 40% possiede un titolo di studio alto.

Se un lavoratore è selezionato in modo casuale, qual è

la probabilità che questo lavoratore sia donna e che

abbia un titolo di studio alto?

a. 20% dei lavoratori maschi ha un titolo di studio

alto → 300 ∙ 20% = 60 sono gli uomini con titolo

di studio alto;

b. 40% dei lavoratori femmine ha un titolo di studio

alto → 100 ∙ 40% = 40 sono le donne con titolo di

studio alto.

Realizziamo così la tabella di contingenza:

La probabilità che un lavoratore, scelto in modo

casuale, sia donna e che abbia un titolo di studio alto è

quindi 40 / 400 = 0 , 1 = 10%. Dividendo ciascun

valore della tabella di contingenza per l'ampiezza

campionaria, ovvero il numero totale di lavoratori

dell'azienda (400), otteniamo la tabella delle

probabilità:

PROBABILITÀ MARGINALI

Le probabilità

marginali

sono calcolate

come

rapporto tra i

valori a

margine della

tabella di

contingenza e

l’ampiezza

campionaria.

PROBABILITÀ CONGIUNTA

La probabilità congiunta è calcolata come rapporto tra

i valori

interni della

tabella di

contingenza

e l’ampiezza

campionaria.

PROBABILITÀ CONDIZIONATA

La probabilità condizionata è la probabilità dell’evento

B dato che l’evento A si è verificato. La probabilità

condizionata si indica con:

In generale, la probabilità condizionata di B dato che

l’evento A si è verificato è calcolata nel modo seguente:

Restringe il campo di possibili eventi, dato che uno di

questi si è già verificato, restringe, quindi, lo spazio

campionario all’evento che si è già verificato, 𝐴

dev’essere un evento possibile, se 𝑃(𝐴) aumenta anche

INDIPENDENZA STOCASTICA

Due eventi A e B sono due eventi indipendenti se il

verificarsi di un evento non modifica la probabilità del

verificarsi dell’altro evento. L’intersezione dei due

eventi risulta un insieme vuoto. Possiamo quindi

affermare che l’evento B è indipendente dall’evento A

se e solo se la probabilità dell’evento B dato che

l’evento A si è già verificato è uguale alla probabilità

dell’evento B:

REGOLA della PROBABILITÀ COMPOSTA

Dal calcolo della probabilità condizionata è possibile

ottenere la seguente regola della probabilità composta:

Perciò, se A e B sono indipendenti, la regola della

probabilità composta si semplifica come di seguito:

EVENTI INDIPENDENTI

a. L’incompatibilità è una relazione tra eventi. Se due

eventi sono incompatibili, la probabilità

dell’unione dei due eventi è la somma delle singole

probabilità. In quanto relazione tra eventi posso

rappresentare l’incompatibilità tramite i

diagrammi di Venn.

b. L’indipendenza è una relazione tra probabilità. Se

due eventi sono indipendenti, la probabilità

dell’intersezione tra due eventi è il prodotto delle

singole probabilità. L’indipendenza non è

rappresentabile graficamente in quanto sui

diagrammi di Venn si rappresentano eventi, non

probabilità.

Indipendenza e incompatibilità non hanno alcun

legame, tranne nel caso in cui due eventi sono

incompatibili ed entrambi gli eventi hanno probabilità

positive, allora i due eventi non possono essere

indipendenti e viceversa. Infatti, se:

Esempio: Una società è impegnata in un progetto di

ingegneria civile. La probabilità che il progetto venga

ritardato dal maltempo (evento A) è 0.3, mentre la

probabilità che ci sia un ritardo causato da un

problema geologico (evento B) è 0.2. Qual è la

probabilità che il progetto venga ritardato a causa sia

del maltempo che di problemi geologici?

Vogliamo calcolare 𝑃(𝐴 ∩ 𝐵). Dato che possiamo

assumere che il mal tempo e i problemi geologici siano

eventi indipendenti

LEGGE delle PROBABILITÀ

TOTALI

In generale, dato 𝐴 1

𝑛

eventi disgiunti dello

spazio campionario Ω tali che: 𝐴 1

2

𝑛

allora:

1

𝑛

1

1

𝑛

𝑛

𝑖

𝑖

𝑛

𝑖= 1

Esempio: Un’industria elettronica produce 600 circuiti

integrati di un certo tipo al giorno, tramite tre diversi

reparti che ne producono rispettivamente 100, 200 e

300 pezzi. Ciascun reparto è autonomo nella

produzione e si è constatato che il primo reparto ha

una percentuale di scarti del 5%, il secondo del 8%

mentre il terzo del 3.5%. Se un circuito viene scelto

casualmente fra quelli prodotti in giornata, qual è la

probabilità che sia difettoso?

Ci sono due possibili modi alternativi di risolvere

questo tipo di esercizi.

Soluzione 1

Definiamo i seguenti eventi:

𝐷 = il circuito è difettoso, 𝐿 1

= prodotto dal primo

reparto, 𝐿 2

= prodotto dal secondo reparto,

3

= prodotto dal terzo reparto

Le informazioni riportate nel testo possono essere

scritte come segue: 𝑃(𝐷

1

2

3

1

2

3

) = 300 / 600 = 0. 5. La

probabilità che un pezzo sia difettoso, 𝑃(𝐷), è quindi

calcolato come:

Soluzione 2

È possibile costruire una tabella di contingenza:

Quindi, la probabilità che un pezzo sia danneggiato,

𝑃(𝐷), è:

Il PROBLEMA di MONTY HALL e

la SOLUZIONE di BAYES

Ci sono tre scenari possibili, ciascuno avente

probabilità 1/3:

Il giocatore sceglie la capra numero 1. Il

conduttore sceglie l’altra capra. Cambiando, il

giocatore vince l’auto.

Il giocatore sceglie la capra numero 2. Il

conduttore sceglie l’altra capra. Cambiando, il

giocatore vince l’auto.

Il giocatore sceglie l’auto. Il conduttore sceglie una

capra, non importa quale. Cambiando, il giocatore

trova l’altra capra.

Quindi, cambiare porta aumenta la probabilità di

vincere l’automobile, portandola da 1/3 a 2/3.

Nel problema di Monty Hall, possiamo definire i

seguenti eventi:

A. La macchina è dietro la porta scelta, ovvero la

porta 1

B. Monty Hall apre una porta dietro la quale c’è una

capra

Quello che vogliamo conoscere è:

Ovvero la probabilità di vincere la macchina

confermando la scelta iniziale (porta 1) sapendo che

Monty apre una porta dietro la quale c’è una capra.

Per calcolare 𝑃(𝐴|𝐵) dobbiamo calcolare:

Confermando la porta 1 la probabilità di vincere è 1/3.

Di conseguenza, cambiando porta e scegliendo la

porta rimanente la probabilità di vincere è

MISURE SINTETICHE delle

VARIABILI CASUALI DISCRETE

VALORE ATTESO (MEDIA)

Utilizzando la funzione di probabilità della variabile

casuale 𝑋 è possibile ottenere il suo valore atteso,

indicato con 𝐸(𝑋) o con la lettera greca 𝜇, con la

seguente formula:

𝑖

𝑖

𝑛

𝑖= 1

Esempio:

𝑖

𝑖

𝑛

𝑖= 1

In media mi aspetto di osservare circa 1 difetto in

ciascun pezzo prodotto futuro.

VARIANZA e DEVIAZIONE STANDARD

Utilizzando la funzione di probabilità della variabile

casuale 𝑋 è possibile ottenere la varianza, indicata con

𝑉𝑎𝑟(𝑋) o con la lettera greca 𝜎

2

, e la deviazione

standard, 𝑠𝑑(𝑋) o 𝜎, con le seguenti formule:

2

𝑖

2

𝑖

2

2

𝑛

𝑖= 1

2

Esempio:

2

2

2

Mi aspetto che il numero di difetti vari in media tra 0 e

2, ovvero 1 difetto in più o in meno rispetto la media.

FUNZIONE di DISTRIBUZIONE

Se 𝑋 è una variabile casuale discreta con funzione di

probabilità 𝑝(𝑥 𝑖

), la sua funzione di ripartizione è

definita nel modo seguente:

𝑖

𝑥

𝑖

≤𝑥

La funzione di ripartizione in un dato punto 𝑥 è la

probabilità che la variabile 𝑋 assuma valori minori o al

più uguali a 𝑥. Conoscendo la funzione di ripartizione

di una qualunque distribuzione di probabilità discreta

è possibile calcolare la probabilità di qualsiasi

intervallo. Per alcune distribuzioni sono disponibili

tavole che riportano i valori al variare dei parametri.

PROPRIETÀ

𝐹(𝑥) è crescente: 𝑥

1

2

1

2

𝐹(𝑥) assume valori nell’intervallo [ 0 , 1 ], ovvero

lim

𝑥→−∞

𝐹(𝑥) = 0 , lim

𝑥→∞

In questo grafico a scalini, la probabilità tra un

valore ed un altro non cambia, utile nel momento

in cui bisogna calcolare i quartili, in quanto si

prenderà la modalità che supera la linea verticale

del 25, 50 e 75 %.

MODELLI PROBABILISTICI per

VARIABILI DISCRETE

Quando determinate condizioni sono soddisfatte,

possiamo derivare una formula generale per calcolare

qualsiasi probabilità di una variabile casuale discreta

La variabile casuale di Bernoulli;
La variabile casuale Binomiale;
La variabile casuale di Poisson.

BERNOULLI

Si consideri una prova che può dar luogo a solo due

possibili risultati su un dato evento di interesse:

a. Successo (l’evento si è verificato);

b. Insuccesso (l’evento non si è verificato).

Sia 𝑝 la probabilità di successo.

Allora la variabile casuale discreta 𝑋 che assume

valore 1 (successo) con probabilità 𝑝 e valore 0 con

probabilità ( 1 − 𝑝) ha distribuzione di Bernoulli e si

indica brevemente con 𝑋 ∼ 𝐵𝑒𝑟(𝑝).

Nota: Tutte le prove il cui risultato è dicotomico

(binario) possono ricondursi ad una variabile casuale

di Bernoulli. La dicotomia può essere:

Connaturale alla caratteristica che stiamo

considerando (es. presenza/assenza di

imperfezioni in un elemento, sopravvivenza si/no

di un individuo).

Derivare da una caratteristica quantitativa

continua o discreta che per motivi di ricerca viene

dicotomizzata (es. precipitazione media

settimanale in un certo bacino idrografico

superiore/inferiore ai 200 mm/cm2, numero di

corsie di un tratto autostradale maggiore o minore

di 6).

La distribuzione di probabilità della variabile casuale

di Bernoulli è definita da un unico parametro, 𝑝 ed è

pari a:

𝑘

1 −𝑘

Dove 𝑝 è la probabilità di successo e ( 1 − 𝑝) è la

probabilità di insuccesso, 𝑘 è pari a 0 (insuccesso) o 1

(successo).

Il valore atteso è:

La varianza è:

2

2

2

Lo scarto quadratico medio sarà pari a:

2

BINOMIALE

Condizioni: Quando:

L’esperimento consiste di un numero fissato di 𝑛

prove identiche;

Ciascuna prova ha solo due possibili risultati:

successo e insuccesso, Si o No, testa o croce,

eccetera;

La probabilità di successo, 𝑝, è la stessa in ciascuna

prova;

Le 𝑛 prove sono indipendenti, ovvero il risultato di

una prova non influenza il risultato di un’altra

prova.

allora la variabile casuale discreta X che descrive il

numero di successi, 𝑘, in 𝑛 prove indipendenti è una

variabile casuale Binomiale. I possibili valori della

variabile casuale Binomiale sono: 0, 1, 2,.. ., 𝑛.

La distribuzione di probabilità: La funzione di

probabilità della variabile casuale Binomiale è definita

da due parametri, 𝑛 e 𝑝, e si indica brevemente con

𝑋 ∼ 𝐵𝑖𝑛(𝑛, 𝑝). La probabilità di osservare esattamente

𝑘 successi in n prove è calcolata come:

𝑘

1 −𝑘

Dove 𝑝 è la probabilità di successo in una qualsiasi

prova, ( 1 − 𝑝) è la probabilità di insuccesso, 𝑛 è il

numero di prove ripetute, identiche e indipendenti, 𝑘 è

il numero di successi, (𝑛 − 𝑘) è il numero di

insuccessi. Mentre (

) è il coefficiente binomiale che

calcola il numero di combinazioni dei 𝑘 successi nelle

𝑛 prove:

Il valore atteso di 𝑋 ∼ 𝐵𝑖𝑛(𝑛, 𝑝), è calcolato come

segue: 𝜇 = 𝑛𝑝

La varianza di 𝑋 ∼ 𝐵𝑖𝑛(𝑛, 𝑝) è calcolata come segue:

2

Lo scarto quadratico medio sarà pari a:

2

La distribuzione Binomiale è spesso asimmetrica,

l’unico modo per ridurre la asimmetria (a destra o a

sinistra) è aumentare il numero di prove 𝑛.

All’aumentare di 𝑛, la distribuzione Binomiale tende a

una distribuzione simmetrica tanto più velocemente

quanto più 𝑝 è vicino a 0.5.

Esempio: In uno studio di shock meccanico sulle

strutture, la probabilità che un certo componente

superi uno shock test è pari a 0.75. Supponiamo di

osservare 4 componenti indipendenti tra loro.

POISSON

La variabile casuale discreta che descrive il numero di

volte un evento 𝐸 si realizza in un dato intervallo di

interesse ha distribuzione di Poisson. Un intervallo di

interesse è un intervallo continuo di tempo, volume o

area in cui un evento può verificarsi più volte.

Esempi: numero di incidenti stradali per giorno ad un

dato incrocio, numero di richieste di interventi di

manutenzione in un giorno, numero di incidenti tra

operai addetti ad un processo chimico pericoloso per

ciascun impianto funzionante.

Piò essere considerata un caso particolare della

variabile casuale Binomiale.

Condizioni: Quando:

Siamo interessati a contare il numero di volte un

particolare evento 𝐸 si verifica in un intervallo

temporale, spaziale, di superficie, eccetera;

La probabilità che un evento si verifichi in un

intervallo è la stessa per tutti gli intervalli;

Il numero di occorrenze dell’evento 𝐸 in un

intervallo è indipendente dal numero di

occorrenze di 𝐸 in una qualsiasi altro intervallo

disgiunto dal primo. Il processo di Poisson non ha

memoria;

La probabilità che due o più eventi si verifichino in

un intervallo tende a 0 tanto più l’intervallo si

riduce.

allora la variabile casuale discreta 𝑋 che conta il

numero di volte un evento si verifica in un intervallo è

una variabile casuale di Poisson. I possibili valori della

variabile casuale di Poisson sono: 0, 1, 2,.. .∞

La distribuzione di probabilità: La funzione di

probabilità della distribuzione di Poisson è descritta

da un solo parametro, 𝜆, e quindi è indicata

brevemente con 𝑋 ∼ 𝑃 𝑜(𝜆). La probabilità di

osservare 𝑥 eventi in un intervallo di interesse è:

−𝜆

𝑥

Dove: 𝑥 è il numero di eventi, 𝑒 è la costante

matematica approssimata da 2.71828, 𝜆 è la costante

sempre positiva (𝜆 > 0) e descrive il numero medio, o

valore atteso, di eventi in un intervallo di interesse.

Essendo 𝜆 l’unico parametro che descrive la

distribuzione di Poisson determina la forma della

distribuzione.