Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. Vittucci M, Dispense di Statistica

Una panoramica introduttiva alla statistica, esplorando i concetti fondamentali e i metodi di analisi utilizzati per la trattazione quantitativa dei fenomeni osservabili. Il processo logico della statistica, dalla rilevazione dei dati all'elaborazione e alla trasformazione in informazioni utili per la comprensione e la presa di decisioni. Vengono approfonditi concetti chiave come la distribuzione di frequenza, la media, la varianza e la stima dei parametri, fornendo una base solida per l'analisi statistica.

Tipologia: Dispense

2023/2024

Caricato il 02/04/2025

eleonora-lunati
eleonora-lunati 🇮🇹

3 documenti

1 / 82

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA DI BASE
CAPITOLO 2: Definizioni e notazione (simboli) di base
Scegliere una notazione è il primo passo nella formalizzazione, cioè verso una rappresentazione formale astratta e
coerente.
Definizione: Statistica con il termine si intende un insieme di metodologie e di strumenti formali per la trattazione
quantitativa dei fenomeni osservabili, totalmente o parzialmente, nella realtà sociale, in natura o in laboratorio, su
internet, mercati finanziari...
Pensiero statistico: un processo logico
Trattazione quantitativa: si intende la realizzazione del processo logico di:
osservazione analisi comprensione che si realizza attraverso:
rilevazione di dati* elaborazione (strumenti statistici) trasformazione dei dati in informazioni
(decisioni:diffusione e comunicazione).
* Rilevazione: raccolta dei dati ai fini statistici // osservare e registrare. Successiva alla rilevazione è l’elaborazione
dei dati. L’obiettivo dell’elaborazione statistica è mettere in luce la portata informativa di questi dati, trasformandoli
da dati muti in informazioni utilizzabili per prendere decisioni.
Se i dati non sono completi rischio di errore è sempre presente. (Le generalizzazioni sono rischiose).
Pensiero statistico: Astrazione
• grandi classi di problemi e tipologie di dati
• formalizzazione: formule, funzioni, linguaggio tecnico, notazione.
• utilizzo della matematica.
I fenomeni d’interesse per la statistica sono detti fenomeni statistici. Sono i fenomeni che si presentano con una
molteplicità di manifestazioni, che è la caratteristica che determina la necessità di metodi statistici per il trattamento
quantitativo di fenomeni il fenomeno tende a variare. (Il fenomeno è complesso).
Unità statistiche: supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico. È presso le unità
statistiche che è possibile osservare e registrare le manifestazioni del fenomeno d’interesse.
Popolazione statistica o universo: insieme delle unità statistiche sulle quali interessa studiare il fenomeno.
Esempio:
Fenomeno demografico Classificazione dicotomica: 2 sole
modalità contrarie ed esaustive.
Entrambi i dati/fenomeni hanno natura qualitativa
Notazione:
popolazione o universo statistico = U un insieme): realtà su cui si basa un determinato fenomeno/ collettivo
delle unità statistiche su cui si manifesta ed è osservabile un:
fenomeno statistico= X, Y, W, A, B… ecc. (è un concetto)
singola manifestazione/modalità del fenomeno; indicato con la corrispondente lettera minuscola= x, y, w, a, b…
(può essere molte cose, anche infinito)
numerosità di U = N (cioè dimensione della popolazione, numerosità; è un numero). In certi casi è la N è
virtualmente infinita (es. nella produzione industriale, la popolazione statistica sono tutti i possibili pezzi prodotti
da una determinata macchina).
- Anno di corso: Proprietà qualitativa (ordinamento di categorie)
- Esami registrati: numeri ordinati, proprietà quantitativa.
- Tempo in università della popolazione studentesca: numero che appartiene ai
numeri reali (proprietà quantitativa)
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Concetti Fondamentali e Metodi di Analisi - Prof. Vittucci M e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA DI BASE

CAPITOLO 2: Definizioni e notazione (simboli) di base

Scegliere una notazione è il primo passo nella formalizzazione , cioè verso una rappresentazione formale astratta e coerente.

Definizione: Statistica → con il termine si intende un insieme di metodologie e di strumenti formali per la trattazione

quantitativa dei fenomeni osservabili, totalmente o parzialmente, nella realtà sociale, in natura o in laboratorio, su internet, mercati finanziari...

Pensiero statistico: un processo logico Trattazione quantitativa : si intende la realizzazione del processo logico di: osservazioneanalisicomprensione che si realizza attraverso: rilevazione di dati*  elaborazione (strumenti statistici)  trasformazione dei dati in informazioni (decisioni:diffusione e comunicazione).

  • Rilevazione : raccolta dei dati ai fini statistici // osservare e registrare. Successiva alla rilevazione è l’elaborazione dei dati. L’obiettivo dell’elaborazione statistica è mettere in luce la portata informativa di questi dati, trasformandoli da dati muti in informazioni utilizzabili per prendere decisioni. Se i dati non sono completi  rischio di errore è sempre presente. (Le generalizzazioni sono rischiose).

Pensiero statistico: Astrazione

  • grandi classi di problemi e tipologie di dati
  • formalizzazione: formule, funzioni, linguaggio tecnico, notazione.
  • utilizzo della matematica.

I fenomeni d’interesse per la statistica sono detti fenomeni statistici. Sono i fenomeni che si presentano con una molteplicità di manifestazioni , che è la caratteristica che determina la necessità di metodi statistici per il trattamento quantitativo di fenomeni  il fenomeno tende a variare. (Il fenomeno è complesso). Unità statistiche: supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico. È presso le unità statistiche che è possibile osservare e registrare le manifestazioni del fenomeno d’interesse. Popolazione statistica o universo: insieme delle unità statistiche sulle quali interessa studiare il fenomeno.

Esempio: Fenomeno demografico Classificazione dicotomica: 2 sole modalità contrarie ed esaustive. Entrambi i dati/fenomeni hanno natura qualitativa

Notazione:  popolazione o universo statistico = U (è un insieme ): realtà su cui si basa un determinato fenomeno/ collettivo delle unità statistiche su cui si manifesta ed è osservabile un:  fenomeno statistico= X , Y, W, A, B… ecc. (è un concetto )  singola manifestazione/modalità del fenomeno; indicato con la corrispondente lettera minuscola= x , y, w, a, b… (può essere molte cose, anche infinito)  numerosità di U = N (cioè dimensione della popolazione, numerosità; è un numero ). In certi casi è la N è virtualmente infinita (es. nella produzione industriale, la popolazione statistica sono tutti i possibili pezzi prodotti da una determinata macchina).

  • Anno di corso: Proprietà qualitativa (ordinamento di categorie)
  • Esami registrati: numeri ordinati, proprietà quantitativa.
  • Tempo in università della popolazione studentesca: numero che appartiene ai numeri reali (proprietà quantitativa )

Esempi altre pop statistiche: U: giorni del mese di febbraio X: temperatura max a Milano Linate

U: mercati dei titoli di stato italiani Y: quotazione all’apertura di venerdì 25\02\

U: stock alla chiusura libreria Feltrinelli Z: prezzo copertina

Manifestazione/modalità x: si tratta di un attributo o di una categoria (talvolta ordinabile); può anche essere un numero o un insieme di numeri (interi o reali a seconda che si conti o si misuri) Molti fenomeni statistici X hanno: o diversa natura o diversa strumentazione statistica.

Numerosità o dimensione di U: si tratta del numero di unità statistiche che compongono la popolazione statistica di riferimento. Notazione : N. I fenomeni di interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite in cui N è un numero intero positivo (in simboli: ). È comunque possibile pensare a fenomeni statistici presenti su popolazioni infinite , cioè composte da un numero virtualmente infinito di unità statistiche (). Es. popolazioni infinite: X = numero di italiani affetti da HIV. U = collettivo di italiani sieropositivi passati, presenti e futuri.. Talvolta la dimensione N di U pur essendo finita è però talmente elevata che ai fini dell’analisi statistica è conveniente pensarla infinita  su U di numerosità N sono presenti le manifestazioni x del fenomeno X. I fenomeni non sono tutti uguali e individuarne correttamente la natura è la premessa per selezionare gli strumenti statistici adatti all’analisi.

Trattare quantitativamente un fenomeno statistico significa condurre le seguenti fasi:

1. Osservarne le manifestazioni , ossia recarsi fisicamente presso le unità statistiche per registrare le diverse manifestazioni del fenomeno  si creano così i dati. Questa fase consiste nella rilevazione di X su U. 2. Organizzare il risultato della rilevazione. Di solito esso è un insieme confuso di N più o meno diverse manifestazioni di x di X. Quando N è grande, il risultato è piuttosto inutile se non lo si organizza attraverso tabelle e grafici in modo da renderlo più leggibile. Questa fase è la strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza. 3. Elaborare i dati strutturati. Qui inizia l’analisi vera e propria del fenomeno. L’obiettivo è quello di far emergere più chiaramente dai dati le informazioni che interessano e di comprendere i meccanismi che determinano le diverse manifestazioni del fenomeno su quella popolazione, cioè sul suo variare. Si tratta di sintetizzare i dati attraverso la costruzione di indici e valori sintetici e di studiarne le eventuali relazioni (statistiche) con altri fenomeni. 4. Comunicare i risultati. I risultati sono inutili se non vengono comunicati.

La dimensione dell’insieme dei dati di partenza è strategica ai fini dell’analisi statistica del fenomeno. Se la rilevazione è stata esaustiva di U (si dice anche censuaria ) e si dispone di tutti gli N dati osservati presso tutte le unità statistiche, la Statistica ha la funzione di descrivere il comportamento di X su U. Gli strumenti di analisi statistica adeguati a questo scopo formano la Statistica descrittiva , che si classifica in:  Monovariata o univariata , che ha per oggetto un solo fenomeno singolarmente rilevato e come obiettivo la descrizione sintetica del suo comportamento su U.  Bivariata , quando l’oggetto è una coppia di fenomeno congiuntamente rilevati sulla stessa U e l’obiettivo è l’individuazione e lo studio delle (eventuali) relazioni tra i due.  Multivariata/inferenza statistica , se i fenomeni rilevati sulla stessa U sono più di due e l’obiettivo è descriverne il comportamento congiunto e studiarne le relazioni, congiuntamente e per lo più in sottoinsiemi (coppie, terne ecc.)  si generalizza sulla realtà. Si fanno previsioni (obiettivo complesso che richiese strumentazione sempre più complessa). Quando i dati sono completi possiamo costruire degli indicatori statistici (= strumento base per produrre informazione statistica). Quando abbiamo dati parziali , capire il fenomeno statistico è rischioso (rischio della generalizzazione). Nell’ambito della ricerca biomedica/economica si utilizza la statistica causale

CAPITOLO 3: Rilevazione Definizione di rilevazione : la rilevazione di X su U è il processo di creazione dei dati. In genere consiste nel recarsi fisicamente presso le unità statistiche per osservare e registrare le diverse manifestazioni di x su X.

I fenomeni, come già detto, non sono tutti uguali e definirne la natura è il prerequisito per l’individuazione della strumentazione statistica adatta all’analisi. Ci serve cioè una classificazione dei fenomeni statistici. La prima distinzione riguarda nomi e numeri , cioè fra:  Fenomeni qualitativi : Si manifestano nella popolazione osservata attraverso attributi o categorie , qualità appunto.  Fenomeni quantitativi : Si manifestano nella popolazione osservata attraverso i numeri , quantità appunto.

Per certi tipi di statistica è necessario che le manifestazioni del fenomeno analizzato possano essere ordinate. Le manifestazioni dei fenomeni quantitativi possono essere sempre ordinate poiché fra i numeri esiste una relazione d’ordine naturale. Per i fenomeni qualitativi è importante la sotto-classificazione che li distingue in base alla possibilità di ordinarne le manifestazioni.  Fenomeni (qualitativi) ordinali : Sono i fenomeni che pur essendo qualitativi, si manifestano con attributi e categorie che si possono ordinare secondo un qualche criterio oggettivo e convenzionalmente accettato; è naturale.  Fenomeni (qualitativi) categoriali : Sono tutti i fenomeni qualitativi per i quali non abbiamo un criterio oggettivo (ma solo personale e variabile) per ordinarne le categorie con cui si manifesta.

Fra i fenomeni quantitativi invece una sotto-classificazione importante ai fini dell’analisi statistica è fra:  Fenomeni (quantitativi) discreti : Sono i fenomeni quantitativi che possiamo contare , enumerare.  Fenomeni (quantitativi) continui : Sono i fenomeni quantitativi che si possono misurare , una volta scelta un’opportuna unità di misura ( scelta da chi raccoglie i dati) e con la disponibilità del corretto strumento di misurazione. Le manifestazioni di un fenomeno (quantitativo) continuo sono intervalli e la caratteristica della enumerabilità , tipica dei fenomeni discreti, scompare in favore della caratteristica della continuità.

Categoriale Qualitativo Ordinale Fenomeno statistico Discreto (si conta) Quantitativo Continuo (si misura)

Il pensiero statistico va al di la del calcolo! ESEMPIO: X quantitativo continuox intervallo Quanto spazio a disposizione avete per scrivere in classe/casa? unità statistica: piano vs postazione x: lunghezza del lato lungo  quantitativo continuo (misura) strumento & unità di misura: o “ad occhio” x= 45 cm o righello x=45.5 cm o misuratore ottico digitale x=45,8347 cm Qual è la misurazione  “vera” x ∈ R (numeri tra 45/46) X ∈ [45,46] X ∈ 45 |– 46 Intervalli: X continuo  x: xl |– xL l minuscolo: limite inferiore // L maiuscolo: limite superiore

Processo di creazione dei dati  RILEVAZIONE: osservazione e registrazione (di X su U) = DATI Domanda  X Menu di possibili risposte  Scala delle mobilità Strumenti tipici della rilevazione  questionari e scale di modalità. L’insieme delle caselline previste per ogni domanda/fenomeno del questionario costituisce la scala delle modalità o scala di rilevazione. La scala delle modalità con cui si rileva X è l’insieme di tutte le diverse manifestazioni di X osservabili su U.

Qualità dei dati livello di analisi statistica Natura di x  Tipo di Scala (SdM)  Strumenti Statistici

Per soddisfare la nostra definizione di scala delle modalità è necessario che siano rispettati due principi generali :  Esaustività : la scala delle modalità con cui si effettua la rilevazione deve essere esaustiva , ossia deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U.  Mutua esclusività delle k modalità : la scala con cui si effettua la rilevazione deve prevedere solo modalità che si escludono a vicenda, senza possibilità di confusione o sovrapposizioni.

Anche per le scale di modalità, la prima importante distinzione è fra:  Scala qualitativa : in una scala qualitativa le modalità sono attributi o categorie, qualità appunto.  Scala quantitativa : in una scala quantitativa le modalità sono numeri, quantità appunto.

 Fra le scale qualitative un’importante sotto-classificazione distingue fra:  Scala (qualitativa) ordinale : è una scala qualitativa nella quale gli attributi o le categorie di cui consta possono essere ordinati secondo un qualche criterio oggettivo o convenzionalmente accettato.  SI ordinamento (es. W: anno di corso: I, II, III, >III.)  Scala (qualitativa) sconnessa/ non ordinale : è una scala qualitativa nella quale gli attributi o le categorie di cui consta non ammettono un ordinamento oggettivo ma solo un ordinamento casuale o personale.  NO ordinamento Un interessante tipo di scala sconnessa è la cosiddetta scala dicotomica o binaria che consta di 2 sole modalità, esaustive ed esclusive (Es. X: frequenza in presenza, Y: genere)

 Per le scale quantitative la sotto-classificazione distingue rispetto all’origine (cioè da dove si parte):  Scala (quantitativa) rapporto : è una scala quantitativa nella quale l’origine è il numero 0 con significato assoluto, cioè quando 0 indica l’assenza del fenomeno. Dette anche scale Likert. La divisione fra modalità (tra due numeri) offre informazione statistica.  Scala (quantitativa) non rapporto : è una scala quantitativa nella quale l’origine (in genere ancora lo zero) non sia assoluta, ma convenzionale , cioè scelta secondo un qualche criterio. NO / (utilizzate spesso con fenomeni fisici). La divisione fra modalità NON offre informazione statistica. Esempi: Z: # di esami registrati z =

scale quantitative di tipo rapporto T: tempo trascorso in università sett scorsa (min) t∈R Scala quantitativa di tipo NON rapporto : X: temperatura (°C) di domani (2022 & previsione 2023). 2022: 11º C // 2023: 22ºC  22/11= 2 (non è informazione statistica) Si può affermare che domani è prevista temperatura doppia (2volte) rispetto allo scorso anno? No perché scala non

rapporto. Anche cambiando SdM (es.gradi Fahrenheit) non è comunque scala di tipo rapporto  Non è inf. statistica.

Sconnessa Qualitativo Ordinale Scala di modalità Rapporto (origine assoluta)

X: consumo di cioccolato  hai consumato cioccolato nelle ultime 48h? Sdm dicotomica (SI/NO, qualitativa, sconnessa, senza ordinamento) Studenti: 1 2 3… 111 112 x: NO SI SI… NO SI (scala di 112 SI/NO assortiti).

Il risultato della rilevazione do X su U fornisce i cosiddetti dati grezzi (data set). L’analisi statistica procede per sintesi successive : l’obiettivo è far emergere via via dai dati informazioni utili a descrivere e spiegare il comportamento di X su U.

  1. La prima basilare sintesi consiste nel dare una struttura ai dati grezzi, organizzandoli in tabelle e grafici in modo da renderli più leggibili. In linguaggio tecnico noi parleremo di distribuzione di frequenze e variabili statistiche.

  2. Effettuando la semplice operazione di conteggio delle modalità di X che si ripetono in U , i dati grezzi vengono organizzati in una tabella, vengono sintetizzati. L’intera tabella, cioè il complesso delle k coppie “modalità, frequenza” prende il nome di variabile statistica descrittiva (“far parlare i dati”). Sintesi successive  Perdita/guadagno

Frequenza assoluta: la frequenza assoluta di ciascuna modalità osservata è il numero di unità statistiche che, fra le N osservate, manifesta quella modalità di. Indicheremo la frequenza assoluta con. Distribuzione di frequenze assolute: è l’insieme delle k frequenze di X su U. La distribuzione di frequenze (assolute) si costruisce per conteggio e consente di organizzare i dati grezzi in una forma tabellare: Frequenze(assolute).

.. Distribuzione di frequenze (assolute) ..

N Somma delle frequenze (assolute) (riproduce la numerosità N di U )

La colonna delle modalità ha a che fare con il fenomeno e dunque, a seconda della natura del fenomeno e della tipologia di scala utilizzata, può contenere attributi, categorie, numeri o intervalli. La colonna delle frequenze (assolute) ha invece a che fare con le unità statistiche e dunque con la popolazione U. Le frequenze (assolute) sono sempre numeri interi e con somma pari a , qualunque sia la forma assunta dalla corrispondente modalità (categoria, numero o intervallo). Il complesso della tabella costituisce la variabile statistica (detta anche serie o seriazione statistica ).

Variabile statistica: è un insieme di coppie del tipo “modalità, frequenza”.

Da questo momento indicherà indifferentemente sia il fenomeno oggetto di interesse (prima della rilevazione) sia la corrispondente variabile statistica (v.s.) dopo la rilevazione e strutturazione dei dati grezzi. Nota : organizzare i dati e renderli più leggibile fa perdere l’informazione circa l’ordine con cui sono stati rilevati. In sostanza ogni livello di elaborazione fa emergere dei dati e viceversa.

Le frequenze assolute non sono confrontabili fra popolazioni di numerosità diversa. Esse sono assolute e quindi direttamente influenzate dalla numerosità N. Se l’obiettivo è confrontare le distribuzioni di frequenze di X in due o più popolazioni con numerosità diversa, occorre depurare le frequenze assolute dall’influenza di N costruendo le frequenze relative. Es. L’anno scorso  92 SI. Posso affermare che lo scorso a.a erano maggiori i consumatori di cioccolato rispetto alla classe di quest’anno? La risposta è no, perché le quantità assolute non sono ne confrontabili né valutabili.

(Valutazione  È tanto o poco 92? = non lo si può dire senza le frequenze relative/ indicatori relativi). Confronti  Indicatori relativi [relativi a (divisi per) ciò che disturba il confronto] nel nostro caso ciò che disturba il confronto è N, quest’anno 112, l’anno scorso?. Valutazioni  Indicatori normalizzati [“ricondotti” in (0,1)]

Posso affermare che lo scorso a.a erano maggiori i consumatori di cioccolato rispetto alla mia classe di quest’anno? NO (scorso a.a. N=178, Si=92)  quindi 92/178=0,51 (51% dello scorso anno a.a)

Frequenza relativa/ indicatori relativi: associata alla modalità , è il rapporto (divisione) fra la frequenza assoluta di e la numerosità. Indicheremo la frequenza relativa con. In formule:

Quindi, ogni volta che l’obiettivo è il confronto, è necessario costruire grandezze relative, cioè dei rapporti in cui al denominatore andrà posta la grandezza che disturba e impedisce il confronto della quantità posta al numeratore. Le frequenze relative sono quantità adimensionali e pertanto sono sempre confrontabili.

Le frequenze relative sono rapporti particolari con il denominatore che rappresenta il totale del numeratore. Risultano sempre comprese fra 0 e 1 e la loro somma è pari ad 1.

Le percentuali sono le frequenze relative moltiplicate per 100. Sono sempre comprese fra 1 e 100 e la loro somma è pari a 100. La colonna delle frequenze relative costituisce la distribuzione di frequenze relative di X su U. Con la costruzione della distribuzione di frequenze relative abbiamo effettuato un’ulteriore sintesi dei dati che ora sono maggiormente informativi riguardo al peso che ciascuna modalità ha in U. La distribuzione di frequenze relative è confrontabile fra popolazioni con dimensioni diverse.

Fenomeno e Sdm “almeno ordinali” Frequenze assolute, frequenze relative e percentuali sono costruibili per qualunque tipo di fenomeno X. Quando il fenomeno di interesse è almeno ordinale (qualitativo o quantitativo) possiamo aumentare il livello di analisi e costruire un ulteriore tipo di distribuzione di frequenze. Es. U: voi N= X: consumo di cioccolato Quante volte hai consumato cioccolato nelle ultime 48h?

Scala di tipo rapporto perché lo 0 ha significato assoluto, oggettivo e non convenzionale. (es. ci ha consumato due vote ha consumato la metà di chi ha consumato – il rapporto offre informazione statistica). Quando c’è l’ordinamento significa “almeno”, o “non di più”

Quando X è almeno ordinale è una buona pratica costruire la v.s. ordinando in senso crescente le modalità osservate , partendo dal minimo e arrivando al massimo cioè.

ragionevole, cioè argomentabile, sostenibile e convincente. Nel nostro caso adottare un’ipotesi significa proporre un modo per ripartire la fra gli infiniti valori dell’intervallo. Due sono le ipotesi comunemente emesse.

  1. Ipotesi del valore centrale. L’obiettivo è di assegnare a ciascuna delle unità statistiche che cadono nell’intervallo un unico punto, interno all’intervallo stesso. Il metodo consiste nell’associare tutte le al valore centrale dell’intervallo. Il valore centrale di un intervallo è la semisomma dei suoi estremi. Indicheremo il valore centrale di un intervallo con l’asterisco:

Con l’ipotesi del valore centrale si attua una sostanziale discretizzazione della v.s.: si supera il problema dell’ignota distribuzione di frequenze all’interno degli intervalli, ma si perde la natura continua rappresentata dagli intervalli. In molti casi tale perdita non è grave e l’ipotesi del valore centrale è allora adottata per la sua semplicità.

  1. Ipotesi di distribuzione uniforme. In mancanza di informazioni che portino a propendere per un caso o per un altro, un principio logico e intuitivo è quello di considerare alla pari ogni possibilità. Se non sappiamo niente circa dove si posizionano esattamente le unità statistiche all’interno dell’intervallo , allora le distribuiamo in modo uniforme ed equidistante lungo tutto l’intervallo.

Il secondo aspetto su cui è necessario soffermarci quando abbiamo a che fare con fenomeni continui riguarda il fatto che gli intervalli possono avere ampiezza diversa. Ampiezza : l’ampiezza dell’intervallo è la differenza fra l’estremo superiore e l’estremo inferiore. Quanto più un intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio. Un’informazione importante è quanto è denso al proprio interno, un intervallo: a parità di frequenze un intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo è la frequenza dell’intervallo depurata dall’influenza dell’ampiezza.

Notazione :  : densità di frequenza

Densità dell’intervallo :

Quando X è continuo, accanto alle distribuzioni di frequenze (assolute, relative o percentuali, cumulate) è costruibile la distribuzione di densità di frequenza. La densità di frequenza sono numeri reali e sono sempre positive, ma non hanno limite superiore. Il loro valore non ha significato intrinseco e la loro somma non ha alcun significato. Le densità di frequenza danno un’idea dell’addensamento delle frequenze all’interno degli intervalli e sono utili tutte le volte che le diverse ampiezze degli intervalli rendono fuorviante l’interpretazione delle frequenze: a parità di frequenza un intervallo ampio è meno denso di un intervallo più stretto.

Densità di frequenza relativa:

Quando X è un fenomeno continuo le modalità sono intervalli. Ponendole sulle ascisse del diagramma di identificano dei segmenti.

RIASSUNTO:

Adottare l’ipotesi del valore centrale si traduce nella discretizzazione della v.s. attraverso i valori centrali degli intervalli. Una volta ricondotti al caso discreto si procede alla rappresentazione grafica a bastoncini. Se invece si adotta l’ipotesi della distribuzione uniforme, si presenta la natura continua del fenomeno e l’obiettivo di associare la frequenza a tutti gli infiniti punti dell’intervallo, in modo che sia uniformemente distribuita, si raggiunge rappresentando la frequenza come un’ area. Sull’intervallo rappresentato sulle ascisse da un segmento si innalza un rettangolo di aree pari a o se si vogliono rappresentare le frequenze relative.

Cosa si deve mettere sulle ordinate per ottenere rettangoli di area pari a? Il nostro rettangolo ha base pari a (ampiezza dell’intervallo ) e ha area pari a. L’altezza è pari a , cioè la densità di frequenza.

Per rappresentare la distribuzione di frequenze assolute, sotto l’ipotesi di una distribuzione uniforme, si pongono gli intervalli sulle ascisse e le densità di frequenza sulle ordinate.

Se invece si vogliono rappresentare le frequenze relative, cioè rettangoli di aree , si pongono sulle ordinate le densità di frequenza relative. Il diagramma che si ottiene è a rettangoli accostati e prende il nome di istogramma o diagramma areale.

L’area totale sottesa all’istogramma è:  Pari a N se si rappresentano le frequenze assolute sulle ordinate)  Pari a 1 se si rappresentano le frequenze relative sulle ordinate) Sull’istogramma sono automaticamente rappresentate come aree anche le frequenze cumulate , assolute o relative a seconda che le aree dei rettangoli dell’istogramma rappresentino. L’istogramma permette allora il calcolo delle frequenze cumulate per qualunque valore del fenomeno continuo X , interni ed esterni agli intervalli osservati. Il calcolo avviene sotto l’ipotesi della distribuzione uniforme, cioè l’ipotesi adottata per costruire l’istogramma stesso.

L’istogramma è l’unica rappresentazione grafica sensata quando la v.s. si presenta con gli intervalli di ampiezza diversa. Il termine istogramma va riservato però a diagrammi come quello descritto sopra, in cui l’area ha un significato preciso, che nel nostro caso è interpretabile come frequenza.

Rappresentazione Grafica della vs:

  • Alternativa alla forma tabellare, grafico (numeri)
  • Dettagli a Esercitazioni/Testo
  • “Disegni” quando X qualitativo
  • Diagrammi cartesiani quando X quantitativo •Caso particolare –> X continuo

Per poter confrontare abbiamo bisogno delle frequenze relative Discretizzazionediagramma a bastoncini

Manteniamo la continuità, e procediamo in maniera equa e uniforme senza privilegiare nessun impunto.

unico valore sintetico

  • Evidenzia un particolare aspetto del comportamento di X si U = VALORI MEDI .. ..

N.

CAPITOLO 5: Valori medi L’obiettivo ora diventa quello di spingere la sintesi della v.s. fino all’individuazione di un unico valore che da solo ci dia un’idea del comportamento di X su U e del suo ordine di grandezza. Questo è in sostanza il concetto di valore medio. La sintesi è estrema. Si tratta infatti di passare da un’intera distribuzione di frequenza (su k modalità) a un singolo valore, il valore medio. Si intuisce che, salvo in casi di interesse più teorico che pratico, non è sensato pretendere di costruire un singolo valore medio perfettamente rappresentativo dell’intera variabile statistica. La complessità della realtà richiede di procedere per gradi, costruendo valori medi differenti, capaci di cogliere ed evidenziare di volta in volta un differente aspetto del comportamento di X su U.

Moda Di fronte ad una v.s. viene naturale scorrere la colonna delle frequenze e soffermarsi sulla modalità con frequenza maggiore.

Definizione: la moda o norma di una v.s. è la modalità a cui è associata la frequenza più elevata fra le k osservate, cioè la modalità più osservata.

  • valore medio (sintesi) “naturale”
  • X qualunque  X 0
  • semplice da calcolare (“ad occhio”)
  • informativitá  corrispondente
  • Può accadere Bi-modale/Pluri-modale/No moda
  • Caso particolare: continuo, quando le modalità sono degli intervalli Notazione:  : moda

effettua il suo lavoro di sintesi dell’intera v.s. in maniera molto semplice ed è tanto più informativa quanto più elevata è la frequenza corrispondente, cioè il numero di unità statistiche che rappresenta. La moda è un valore medio di sintesi calcolabile per X qualunque (qualitativo e quantitativo, categoriale od ordinale, discreto o continuo). è immediatamente individuabile e non serve un computer.  Quando la v.s. è data sotto forma di tabella basta scorrere la colonna delle frequenze e individuare la più elevata. La modalità corrispondente è la moda.  Quando la v.s. è rappresentata graficamente, la frequenza più elevata si individua ad occhio, è la barra più alta/più lunga in un diagramma a torta ecc. La modalità corrispondente è la moda. Un accorgimento particolare è necessario nel caso di X continuo, con modalità che sono intervalli. Se gli intervalli sono di ampiezza differenze, la frequenza, sia assoluta che relativa, è influenzata dall’ampiezza degli intervalli e dunque perde la sua carica informativa per l’individuazione di.

Intervallo modale: chiamiamo intervallo modale quello a cui è associata la densità più elevata fra le osservate.

È convenzione diffusa far coincidere la moda con il valore centrale dell’intervallo modale. Talvolta la v.s. è priva di moda o è difficile individuare una modalità che spicchi fra le rimanenti in quanto a frequenza associata. In tali casi la moda non è un buon valore medio e non svolge adeguatamente il proprio compito di indicatore sintetico del comportamento di X su U.

Inoltre, talvolta la v.s. si presenta con più di una moda. Si parla in tal caso di fenomeno bi-modale (tri-modale… plurimodale).

Mediana Concentriamoci sui fenomeni almeno ordinali (qualitativi e quantitativi). Quando X è almeno ordinale, è possibile istituire relazioni d’ordine fra le sue modalità e possiamo porci domande basate sull’ordinamento: quanti sono inferiori a…? quanti sono almeno pari a…? quanti non superiori a…? Per i fenomeni almeno ordinali, oltre alla moda, un’ulteriore sintesi consiste nel selezionale fra le k manifestazioni ordinate quella che occupa una posizione speciale nell’ordinamento. Particolarmente informativa è la posizione centrale.

Definizione: la mediana di X è la modalità che, nell’ordinamento, occupa una posizione centrale.

#: un numero, e quindi fenomeno quantitativo, discreto (si conta) Mettiamo in ordine i dati rispetto alla risposta data, cioè agli esami conseguiti. Mettere in ordine significa trovare la posizione nell’ordinamento di ciascun soggetto. Xo,5 = modalità che occupa la posizione centrale La metà che sta a destra manifesta modalità superiori (numeri più alti), la metà che sta sinistra manifesta modalità inferiori. Info: metà (50%) dei non iscritti al I anno fra voi ha almeno 6 esami registrati sul libretto (l’altra metà non più di 6). Notazione:  : mediana

Quando X è quantitativo continuo le modalità sono intervalli. In questo caso, scorrendo le frequenze cumulate relative, laddove si raggiunge ed eventualmente si supera 0,5 si individua un intervallo che chiameremo intervallo mediano. Per individuare la mediana all’interno di un intervallo mediano si devono avanzare delle ipotesi, ossia quella del valore centrale o quella della distribuzione uniforme. Secondo questa seconda ipotesi, la mediana si identifica attraverso la seguente formula:

Dove:  : è l’estremo inferiore dell’intervallo mediano  : è la frequenza cumulata (assoluta o relativa) dell’intervallo precedente  : è l’ampiezza dell’intervallo mediano.

 È espressa nella stessa unità di misura con cui X si manifesta su U.  Ci da un’informazione sintetica dell’ordine di grandezza di X su U.

Alcuni chiamano questa formula media ponderata perché vi appaiono le modalità ponderate (moltiplicate per) con le frequenze ed è divisa per la somma dei pesi della ponderazione ( N se si pondera con le oppure 1 se so pondera con le ). A volte il risultato ottenuto da queste formule non è neanche uno dei possibili valori di X previsti dalla scala di rilevazione.

Media dei dati aggregati: Media dei dati disaggregati: Informazione statistica: ordine di grandezza medio con cui parla il fenomeno & stessa unità di misura di X su U

Se X è quantitativo continuo (xi: xl –| xL) e le sue modalità sono intervalli (insieme di numeri), la media è in genere calcolata con l’ipotesi del valore centrale xi.* Cos’è il valore centrale?

xi:* Somma degli estremi, inferiore e superiore, diviso 2. 25,49 = Km che in media vengono percorsi calcolati su dati raggruppati. xi • pi*  x centrale per frequenze relative

VALORE MEDIO •unico valore sintetico (indicatore statistico) •evidenzia un particolare aspetto (medio) del comportamento di X su U

  • MODA, MEDIANA, MEDIA  quale scegliere?

X 0 : moda X0,5: mediana

Es. Esperimento statunitense: quanti partner sessuali desideri per i prossimi 30 anni? Notability

X0, X0,5: valori medi più robusti X0, X0,5: info complementari

Proprietà di :Internalità: non è tipica della media aritmetica. Deve essere compreso tra il valore più piccolo e il valore più grande presi in considerazione.  Associatività : non è tipica delle media aritmetica ma che la moda e la mediana non hanno

Equidistribuzione/ mantenimento del TOT: tipica della media aritmetica  Annullamento degli scarti (ponderati) : tipica della media aritmetica

Mantenimento : sostituendo ai dati veri la media  si mantiene il parametro descrittivo. Proprietà di equi distribuzione/mantenimento : Solo

Proprietà associativa: Comune a molte altre medie ( ma nom xo e x0,5) La media delle medie parziali ponderata con la numerosità dei gruppi riproduce Popolazione stratificata, sotto popolazioni, ciascuna con la sua numerosità. Sommando le numerosità si riproduce la numerosità della popolazione d’interesse.

CAPITOLO 6:

Approfondimenti sui valori

medi Tre sono i criteri più noti che possono guidare nella scelta e nella costruzione del valore medio opportuno per sintetizzare un v.s. quando X è quantitativo.

  1. Proprietà formali : si sceglie il valore medio di sintesi in base alle proprietà statistico-matematiche di cui esso gode.
  2. Ottimizzazione : sappiamo che sintetizzando la v.s. in un unico valore medio si incorre in una perdita di informazioni. Quando è possibile esprimere tale perdita con un’opportuna funzione dei dati -per intenderci, una formula contenente le – si può scegliere il valore medio che rende minima tale funzione, cioè il più piccolo possibile. Seguendo questo criterio, si minimizza la perdita di informazioni, ovvero si ottimizza il valore medio.
  3. Invariante : Tra le informazioni che vanno perdute nel passaggio dalla v.s. al valore medio può sussistere un particolare aspetto di X che è importante mantenere inalterato nella sintesi. Si esprime allora tale aspetto con una funzione dei dati (una formula) e si sceglie il valore medio che sintetizza la v.s. lasciando invariata tale funzione. Il valore medio costruito secondo questo criterio è detto media alla Chisini.

Le proprietà della media aritmetica : Se ciò che interessa il valore medio di sintesi sono le suo proprietà algebrico-matematiche, si deve scegliere la media in un insieme chiamato classe delle medie di potenza. Tale serie di proprietà è di particolare interesse per la sintesi statistica di un fenomeno quantitativo. La media aritmetica appartiene a questa classe, mentre moda, mediana e percentili no. La ragione per cui la media aritmetica è il valore medio di sintesi più utilizzato è che gode di molte proprietà utili:

  1. Analisi dei primi due termini della formula. Se il totale di X fosse diviso in parti uguali fra le N unità di U , a ciascuna unità toccherebbe una quota di totale parti a. Allora la media aritmetica equidistribuisce il totale di X sulle N unità di U

CAPITOLO 7: Variabilità In questo capitolo verranno considerati solo i fenomeni quantitativi (discreti e continui), cioè quelli che generano variabili statistiche completamente numeriche e che sono sintetizzabili con la media aritmetica.

Nell’immaginario popolare la Statistica è spesso associata alla famosa poesia di Trilussa:

…te tocca un pollo all' anno: e, se nun entra ne le spese tue, t'entra ne la statistica lo stesso perche' c'e' un antro che ne magna due.

U N X : quantitativo  Descrivere il comportamento di X su U  Associare a  Sinonimi: dispersione, spread  Def: Tendenza a variare di X a manifestarsi su U con valori molteplici e differenti. Al crescere della variabilità serve sempre più statistica.  Variabilità = scopo della Statistica. Complessità che va affrontata statisticamente

Infatti, la media aritmetica fra 0 (polli mangiati dal protagonista della poesia) e 2 (polli mangiati dall’ antro ) è proprio 1 (1 pollo a testa). Nella situazione descritta la media aritmetica svolge molto male il suo lavoro di valore medio di sintesi, poiché da un’indicazione contraria alla realtà. Trilussa, non essendo uno statistico, si è fermato alla media aritmetica. Con strumenti statistici più opportuni, anche una situazione difficile come quella della poesia può essere descritta più correttamente. Vedi es. a pag. 83.  in concreto, i valori di sintesi con maggiore capacità descrittiva sono:  La mediana  La frequenza cumulata relativa della modalità 0  La moda con frequenza relativa.

Che cosa rende difficile la sintesi di una siffatta variabile statistica e la descrizione del comportamento di X su U? Qual è l’aspetto caratteristico di questa U che non riesce a cogliere? Si tratta della variabilità o dispersione di X , che è l’attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U , con modalità fra loro diverse e distanti. La situazione della poesia è di massima variabilità ; X manifesta solo due modalità fra loro massimamente distanti, ossia niente e tutto.

La variabilità (accanto alla numerosità) è ciò che rende necessario il ricorso alla strumentazione statistica per l’analisi e la comprensione del comportamento del fenomeno su U. È di fatto ciò che si cerca di descrivere e spiegare statisticamente. La variabilità di X quantitativo è quindi un aspetto essenziale nella descrizione statistica del suo comportamento su U , che però necessita il supporto di misura e analisi della variabilità.

La misura (assoluta) della variabilità di X (su U ) è un indice sintetico calcolato sulla v.s. con le seguenti caratteristiche. Proprietà di un indice di variabilità :  Assume valore 0 in assenza di variabilità , cioè nella situazione limite in cui X si manifesta sulle N unità di U con un’unica modalità, generando una v.s. costante (o degenere ).  Assume valori positivi () quando X (più realisticamente) si manifesta su U con modalità molteplici e differenti, cioè in caso di variabilità.  Assume valori positivi e via via più grandi all’aumentare della variabilità.

Un modo semplice ed intuitivo per costruire un indice con queste proprietà è confrontare fra loro le modalità con cui X si manifesta su U. Seguendo questa logica, la più semplice misura di variabilità, che chiamiamo all’inglese range , si ottiene confrontando la più piccola e la più grande fra le modalità osservate. Range di X. Il range è una misura assoluta di variabilità, infatti:  Vale 0 se la v.s. è degenere, cioè quando X si manifesta con un’unica modalità (sempre la stessa) e perciò  Assume valori positivi quando X si manifesta con più modalità diverse e perciò. In questo caso il valore assunto dal range cresce all’aumentare della differenza tra , cioè all’aumentare della variabilità di X. Il range è però una misura di variabilità grossolana. Intanto è molto sensibile alla presenza di valori anomali, ossia quando è estremamente piccola o troppo grande. Inoltre, il range è basato solo su 2 fra le k modalità osservate, quelle estreme, mentre il resto della v.s. è ignorato. Seguendo questa logica di confronto delle modalità, possiamo migliorare un po’ le cose prendendo la differenza fra i due quartili, superiore ed inferiore, di X , ossia quelli con cui si costruisce il box-plot  per un fenomeno almeno ordinale, i seguenti 5 numeri danno una descrizione sintetica dell’intera v.s.:

  1. Minimo:
  2. 1° quartile (o quartile inferiore ):
  3. Mediana (2° quartile):
  4. 3° quartile (o quartile superiore ):
  5. Massimo:. In questo modo si ottiene un’altra misura di variabilità chiamata differenza interquartile che si indica con IQR (dall’inglese interquartile range ).

Quanto più X è variabile, tanto più elevato è il valore IQR e più alto (o largo) appare il box-plot.