










































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica introduttiva alla statistica, esplorando i concetti fondamentali e i metodi di analisi utilizzati per la trattazione quantitativa dei fenomeni osservabili. Il processo logico della statistica, dalla rilevazione dei dati all'elaborazione e alla trasformazione in informazioni utili per la comprensione e la presa di decisioni. Vengono approfonditi concetti chiave come la distribuzione di frequenza, la media, la varianza e la stima dei parametri, fornendo una base solida per l'analisi statistica.
Tipologia: Dispense
1 / 82
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











































































Scegliere una notazione è il primo passo nella formalizzazione , cioè verso una rappresentazione formale astratta e coerente.
quantitativa dei fenomeni osservabili, totalmente o parzialmente, nella realtà sociale, in natura o in laboratorio, su internet, mercati finanziari...
Pensiero statistico: un processo logico Trattazione quantitativa : si intende la realizzazione del processo logico di: osservazione analisi comprensione che si realizza attraverso: rilevazione di dati* elaborazione (strumenti statistici) trasformazione dei dati in informazioni (decisioni:diffusione e comunicazione).
Pensiero statistico: Astrazione
I fenomeni d’interesse per la statistica sono detti fenomeni statistici. Sono i fenomeni che si presentano con una molteplicità di manifestazioni , che è la caratteristica che determina la necessità di metodi statistici per il trattamento quantitativo di fenomeni il fenomeno tende a variare. (Il fenomeno è complesso). Unità statistiche: supporti fisici o teorici delle diverse manifestazioni del fenomeno statistico. È presso le unità statistiche che è possibile osservare e registrare le manifestazioni del fenomeno d’interesse. Popolazione statistica o universo: insieme delle unità statistiche sulle quali interessa studiare il fenomeno.
Esempio: Fenomeno demografico Classificazione dicotomica: 2 sole modalità contrarie ed esaustive. Entrambi i dati/fenomeni hanno natura qualitativa
Notazione: popolazione o universo statistico = U (è un insieme ): realtà su cui si basa un determinato fenomeno/ collettivo delle unità statistiche su cui si manifesta ed è osservabile un: fenomeno statistico= X , Y, W, A, B… ecc. (è un concetto ) singola manifestazione/modalità del fenomeno; indicato con la corrispondente lettera minuscola= x , y, w, a, b… (può essere molte cose, anche infinito) numerosità di U = N (cioè dimensione della popolazione, numerosità; è un numero ). In certi casi è la N è virtualmente infinita (es. nella produzione industriale, la popolazione statistica sono tutti i possibili pezzi prodotti da una determinata macchina).
Esempi altre pop statistiche: U: giorni del mese di febbraio X: temperatura max a Milano Linate
U: mercati dei titoli di stato italiani Y: quotazione all’apertura di venerdì 25\02\
U: stock alla chiusura libreria Feltrinelli Z: prezzo copertina
Manifestazione/modalità x: si tratta di un attributo o di una categoria (talvolta ordinabile); può anche essere un numero o un insieme di numeri (interi o reali a seconda che si conti o si misuri) Molti fenomeni statistici X hanno: o diversa natura o diversa strumentazione statistica.
Numerosità o dimensione di U: si tratta del numero di unità statistiche che compongono la popolazione statistica di riferimento. Notazione : N. I fenomeni di interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite in cui N è un numero intero positivo (in simboli: ). È comunque possibile pensare a fenomeni statistici presenti su popolazioni infinite , cioè composte da un numero virtualmente infinito di unità statistiche (). Es. popolazioni infinite: X = numero di italiani affetti da HIV. U = collettivo di italiani sieropositivi passati, presenti e futuri.. Talvolta la dimensione N di U pur essendo finita è però talmente elevata che ai fini dell’analisi statistica è conveniente pensarla infinita su U di numerosità N sono presenti le manifestazioni x del fenomeno X. I fenomeni non sono tutti uguali e individuarne correttamente la natura è la premessa per selezionare gli strumenti statistici adatti all’analisi.
Trattare quantitativamente un fenomeno statistico significa condurre le seguenti fasi:
1. Osservarne le manifestazioni , ossia recarsi fisicamente presso le unità statistiche per registrare le diverse manifestazioni del fenomeno si creano così i dati. Questa fase consiste nella rilevazione di X su U. 2. Organizzare il risultato della rilevazione. Di solito esso è un insieme confuso di N più o meno diverse manifestazioni di x di X. Quando N è grande, il risultato è piuttosto inutile se non lo si organizza attraverso tabelle e grafici in modo da renderlo più leggibile. Questa fase è la strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza. 3. Elaborare i dati strutturati. Qui inizia l’analisi vera e propria del fenomeno. L’obiettivo è quello di far emergere più chiaramente dai dati le informazioni che interessano e di comprendere i meccanismi che determinano le diverse manifestazioni del fenomeno su quella popolazione, cioè sul suo variare. Si tratta di sintetizzare i dati attraverso la costruzione di indici e valori sintetici e di studiarne le eventuali relazioni (statistiche) con altri fenomeni. 4. Comunicare i risultati. I risultati sono inutili se non vengono comunicati.
La dimensione dell’insieme dei dati di partenza è strategica ai fini dell’analisi statistica del fenomeno. Se la rilevazione è stata esaustiva di U (si dice anche censuaria ) e si dispone di tutti gli N dati osservati presso tutte le unità statistiche, la Statistica ha la funzione di descrivere il comportamento di X su U. Gli strumenti di analisi statistica adeguati a questo scopo formano la Statistica descrittiva , che si classifica in: Monovariata o univariata , che ha per oggetto un solo fenomeno singolarmente rilevato e come obiettivo la descrizione sintetica del suo comportamento su U. Bivariata , quando l’oggetto è una coppia di fenomeno congiuntamente rilevati sulla stessa U e l’obiettivo è l’individuazione e lo studio delle (eventuali) relazioni tra i due. Multivariata/inferenza statistica , se i fenomeni rilevati sulla stessa U sono più di due e l’obiettivo è descriverne il comportamento congiunto e studiarne le relazioni, congiuntamente e per lo più in sottoinsiemi (coppie, terne ecc.) si generalizza sulla realtà. Si fanno previsioni (obiettivo complesso che richiese strumentazione sempre più complessa). Quando i dati sono completi possiamo costruire degli indicatori statistici (= strumento base per produrre informazione statistica). Quando abbiamo dati parziali , capire il fenomeno statistico è rischioso (rischio della generalizzazione). Nell’ambito della ricerca biomedica/economica si utilizza la statistica causale
CAPITOLO 3: Rilevazione Definizione di rilevazione : la rilevazione di X su U è il processo di creazione dei dati. In genere consiste nel recarsi fisicamente presso le unità statistiche per osservare e registrare le diverse manifestazioni di x su X.
I fenomeni, come già detto, non sono tutti uguali e definirne la natura è il prerequisito per l’individuazione della strumentazione statistica adatta all’analisi. Ci serve cioè una classificazione dei fenomeni statistici. La prima distinzione riguarda nomi e numeri , cioè fra: Fenomeni qualitativi : Si manifestano nella popolazione osservata attraverso attributi o categorie , qualità appunto. Fenomeni quantitativi : Si manifestano nella popolazione osservata attraverso i numeri , quantità appunto.
Per certi tipi di statistica è necessario che le manifestazioni del fenomeno analizzato possano essere ordinate. Le manifestazioni dei fenomeni quantitativi possono essere sempre ordinate poiché fra i numeri esiste una relazione d’ordine naturale. Per i fenomeni qualitativi è importante la sotto-classificazione che li distingue in base alla possibilità di ordinarne le manifestazioni. Fenomeni (qualitativi) ordinali : Sono i fenomeni che pur essendo qualitativi, si manifestano con attributi e categorie che si possono ordinare secondo un qualche criterio oggettivo e convenzionalmente accettato; è naturale. Fenomeni (qualitativi) categoriali : Sono tutti i fenomeni qualitativi per i quali non abbiamo un criterio oggettivo (ma solo personale e variabile) per ordinarne le categorie con cui si manifesta.
Fra i fenomeni quantitativi invece una sotto-classificazione importante ai fini dell’analisi statistica è fra: Fenomeni (quantitativi) discreti : Sono i fenomeni quantitativi che possiamo contare , enumerare. Fenomeni (quantitativi) continui : Sono i fenomeni quantitativi che si possono misurare , una volta scelta un’opportuna unità di misura ( scelta da chi raccoglie i dati) e con la disponibilità del corretto strumento di misurazione. Le manifestazioni di un fenomeno (quantitativo) continuo sono intervalli e la caratteristica della enumerabilità , tipica dei fenomeni discreti, scompare in favore della caratteristica della continuità.
Categoriale Qualitativo Ordinale Fenomeno statistico Discreto (si conta) Quantitativo Continuo (si misura)
Il pensiero statistico va al di la del calcolo! ESEMPIO: X quantitativo continuo x intervallo Quanto spazio a disposizione avete per scrivere in classe/casa? unità statistica: piano vs postazione x: lunghezza del lato lungo quantitativo continuo (misura) strumento & unità di misura: o “ad occhio” x= 45 cm o righello x=45.5 cm o misuratore ottico digitale x=45,8347 cm Qual è la misurazione “vera” x ∈ R (numeri tra 45/46) X ∈ [45,46] X ∈ 45 |– 46 Intervalli: X continuo x: xl |– xL l minuscolo: limite inferiore // L maiuscolo: limite superiore
Processo di creazione dei dati RILEVAZIONE: osservazione e registrazione (di X su U) = DATI Domanda X Menu di possibili risposte Scala delle mobilità Strumenti tipici della rilevazione questionari e scale di modalità. L’insieme delle caselline previste per ogni domanda/fenomeno del questionario costituisce la scala delle modalità o scala di rilevazione. La scala delle modalità con cui si rileva X è l’insieme di tutte le diverse manifestazioni di X osservabili su U.
Qualità dei dati livello di analisi statistica Natura di x Tipo di Scala (SdM) Strumenti Statistici
Per soddisfare la nostra definizione di scala delle modalità è necessario che siano rispettati due principi generali : Esaustività : la scala delle modalità con cui si effettua la rilevazione deve essere esaustiva , ossia deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U. Mutua esclusività delle k modalità : la scala con cui si effettua la rilevazione deve prevedere solo modalità che si escludono a vicenda, senza possibilità di confusione o sovrapposizioni.
Anche per le scale di modalità, la prima importante distinzione è fra: Scala qualitativa : in una scala qualitativa le modalità sono attributi o categorie, qualità appunto. Scala quantitativa : in una scala quantitativa le modalità sono numeri, quantità appunto.
Fra le scale qualitative un’importante sotto-classificazione distingue fra: Scala (qualitativa) ordinale : è una scala qualitativa nella quale gli attributi o le categorie di cui consta possono essere ordinati secondo un qualche criterio oggettivo o convenzionalmente accettato. SI ordinamento (es. W: anno di corso: I, II, III, >III.) Scala (qualitativa) sconnessa/ non ordinale : è una scala qualitativa nella quale gli attributi o le categorie di cui consta non ammettono un ordinamento oggettivo ma solo un ordinamento casuale o personale. NO ordinamento Un interessante tipo di scala sconnessa è la cosiddetta scala dicotomica o binaria che consta di 2 sole modalità, esaustive ed esclusive (Es. X: frequenza in presenza, Y: genere)
Per le scale quantitative la sotto-classificazione distingue rispetto all’origine (cioè da dove si parte): Scala (quantitativa) rapporto : è una scala quantitativa nella quale l’origine è il numero 0 con significato assoluto, cioè quando 0 indica l’assenza del fenomeno. Dette anche scale Likert. La divisione fra modalità (tra due numeri) offre informazione statistica. Scala (quantitativa) non rapporto : è una scala quantitativa nella quale l’origine (in genere ancora lo zero) non sia assoluta, ma convenzionale , cioè scelta secondo un qualche criterio. NO / (utilizzate spesso con fenomeni fisici). La divisione fra modalità NON offre informazione statistica. Esempi: Z: # di esami registrati z =
scale quantitative di tipo rapporto T: tempo trascorso in università sett scorsa (min) t∈R Scala quantitativa di tipo NON rapporto : X: temperatura (°C) di domani (2022 & previsione 2023). 2022: 11º C // 2023: 22ºC 22/11= 2 (non è informazione statistica) Si può affermare che domani è prevista temperatura doppia (2volte) rispetto allo scorso anno? No perché scala non
Sconnessa Qualitativo Ordinale Scala di modalità Rapporto (origine assoluta)
X: consumo di cioccolato hai consumato cioccolato nelle ultime 48h? Sdm dicotomica (SI/NO, qualitativa, sconnessa, senza ordinamento) Studenti: 1 2 3… 111 112 x: NO SI SI… NO SI (scala di 112 SI/NO assortiti).
Il risultato della rilevazione do X su U fornisce i cosiddetti dati grezzi (data set). L’analisi statistica procede per sintesi successive : l’obiettivo è far emergere via via dai dati informazioni utili a descrivere e spiegare il comportamento di X su U.
La prima basilare sintesi consiste nel dare una struttura ai dati grezzi, organizzandoli in tabelle e grafici in modo da renderli più leggibili. In linguaggio tecnico noi parleremo di distribuzione di frequenze e variabili statistiche.
Effettuando la semplice operazione di conteggio delle modalità di X che si ripetono in U , i dati grezzi vengono organizzati in una tabella, vengono sintetizzati. L’intera tabella, cioè il complesso delle k coppie “modalità, frequenza” prende il nome di variabile statistica descrittiva (“far parlare i dati”). Sintesi successive Perdita/guadagno
Frequenza assoluta: la frequenza assoluta di ciascuna modalità osservata è il numero di unità statistiche che, fra le N osservate, manifesta quella modalità di. Indicheremo la frequenza assoluta con. Distribuzione di frequenze assolute: è l’insieme delle k frequenze di X su U. La distribuzione di frequenze (assolute) si costruisce per conteggio e consente di organizzare i dati grezzi in una forma tabellare: Frequenze(assolute).
.. Distribuzione di frequenze (assolute) ..
N Somma delle frequenze (assolute) (riproduce la numerosità N di U )
La colonna delle modalità ha a che fare con il fenomeno e dunque, a seconda della natura del fenomeno e della tipologia di scala utilizzata, può contenere attributi, categorie, numeri o intervalli. La colonna delle frequenze (assolute) ha invece a che fare con le unità statistiche e dunque con la popolazione U. Le frequenze (assolute) sono sempre numeri interi e con somma pari a , qualunque sia la forma assunta dalla corrispondente modalità (categoria, numero o intervallo). Il complesso della tabella costituisce la variabile statistica (detta anche serie o seriazione statistica ).
Variabile statistica: è un insieme di coppie del tipo “modalità, frequenza”.
Da questo momento indicherà indifferentemente sia il fenomeno oggetto di interesse (prima della rilevazione) sia la corrispondente variabile statistica (v.s.) dopo la rilevazione e strutturazione dei dati grezzi. Nota : organizzare i dati e renderli più leggibile fa perdere l’informazione circa l’ordine con cui sono stati rilevati. In sostanza ogni livello di elaborazione fa emergere dei dati e viceversa.
Le frequenze assolute non sono confrontabili fra popolazioni di numerosità diversa. Esse sono assolute e quindi direttamente influenzate dalla numerosità N. Se l’obiettivo è confrontare le distribuzioni di frequenze di X in due o più popolazioni con numerosità diversa, occorre depurare le frequenze assolute dall’influenza di N costruendo le frequenze relative. Es. L’anno scorso 92 SI. Posso affermare che lo scorso a.a erano maggiori i consumatori di cioccolato rispetto alla classe di quest’anno? La risposta è no, perché le quantità assolute non sono ne confrontabili né valutabili.
(Valutazione È tanto o poco 92? = non lo si può dire senza le frequenze relative/ indicatori relativi). Confronti Indicatori relativi [relativi a (divisi per) ciò che disturba il confronto] nel nostro caso ciò che disturba il confronto è N, quest’anno 112, l’anno scorso?. Valutazioni Indicatori normalizzati [“ricondotti” in (0,1)]
Posso affermare che lo scorso a.a erano maggiori i consumatori di cioccolato rispetto alla mia classe di quest’anno? NO (scorso a.a. N=178, Si=92) quindi 92/178=0,51 (51% dello scorso anno a.a)
Frequenza relativa/ indicatori relativi: associata alla modalità , è il rapporto (divisione) fra la frequenza assoluta di e la numerosità. Indicheremo la frequenza relativa con. In formule:
Quindi, ogni volta che l’obiettivo è il confronto, è necessario costruire grandezze relative, cioè dei rapporti in cui al denominatore andrà posta la grandezza che disturba e impedisce il confronto della quantità posta al numeratore. Le frequenze relative sono quantità adimensionali e pertanto sono sempre confrontabili.
Le frequenze relative sono rapporti particolari con il denominatore che rappresenta il totale del numeratore. Risultano sempre comprese fra 0 e 1 e la loro somma è pari ad 1.
Le percentuali sono le frequenze relative moltiplicate per 100. Sono sempre comprese fra 1 e 100 e la loro somma è pari a 100. La colonna delle frequenze relative costituisce la distribuzione di frequenze relative di X su U. Con la costruzione della distribuzione di frequenze relative abbiamo effettuato un’ulteriore sintesi dei dati che ora sono maggiormente informativi riguardo al peso che ciascuna modalità ha in U. La distribuzione di frequenze relative è confrontabile fra popolazioni con dimensioni diverse.
Fenomeno e Sdm “almeno ordinali” Frequenze assolute, frequenze relative e percentuali sono costruibili per qualunque tipo di fenomeno X. Quando il fenomeno di interesse è almeno ordinale (qualitativo o quantitativo) possiamo aumentare il livello di analisi e costruire un ulteriore tipo di distribuzione di frequenze. Es. U: voi N= X: consumo di cioccolato Quante volte hai consumato cioccolato nelle ultime 48h?
Scala di tipo rapporto perché lo 0 ha significato assoluto, oggettivo e non convenzionale. (es. ci ha consumato due vote ha consumato la metà di chi ha consumato – il rapporto offre informazione statistica). Quando c’è l’ordinamento significa “almeno”, o “non di più”
Quando X è almeno ordinale è una buona pratica costruire la v.s. ordinando in senso crescente le modalità osservate , partendo dal minimo e arrivando al massimo cioè.
ragionevole, cioè argomentabile, sostenibile e convincente. Nel nostro caso adottare un’ipotesi significa proporre un modo per ripartire la fra gli infiniti valori dell’intervallo. Due sono le ipotesi comunemente emesse.
Con l’ipotesi del valore centrale si attua una sostanziale discretizzazione della v.s.: si supera il problema dell’ignota distribuzione di frequenze all’interno degli intervalli, ma si perde la natura continua rappresentata dagli intervalli. In molti casi tale perdita non è grave e l’ipotesi del valore centrale è allora adottata per la sua semplicità.
Il secondo aspetto su cui è necessario soffermarci quando abbiamo a che fare con fenomeni continui riguarda il fatto che gli intervalli possono avere ampiezza diversa. Ampiezza : l’ampiezza dell’intervallo è la differenza fra l’estremo superiore e l’estremo inferiore. Quanto più un intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio. Un’informazione importante è quanto è denso al proprio interno, un intervallo: a parità di frequenze un intervallo più ampio sarà meno denso di uno più stretto. La densità di frequenza di un intervallo è la frequenza dell’intervallo depurata dall’influenza dell’ampiezza.
Notazione : : densità di frequenza
Densità dell’intervallo :
Quando X è continuo, accanto alle distribuzioni di frequenze (assolute, relative o percentuali, cumulate) è costruibile la distribuzione di densità di frequenza. La densità di frequenza sono numeri reali e sono sempre positive, ma non hanno limite superiore. Il loro valore non ha significato intrinseco e la loro somma non ha alcun significato. Le densità di frequenza danno un’idea dell’addensamento delle frequenze all’interno degli intervalli e sono utili tutte le volte che le diverse ampiezze degli intervalli rendono fuorviante l’interpretazione delle frequenze: a parità di frequenza un intervallo ampio è meno denso di un intervallo più stretto.
Densità di frequenza relativa:
Quando X è un fenomeno continuo le modalità sono intervalli. Ponendole sulle ascisse del diagramma di identificano dei segmenti.
Adottare l’ipotesi del valore centrale si traduce nella discretizzazione della v.s. attraverso i valori centrali degli intervalli. Una volta ricondotti al caso discreto si procede alla rappresentazione grafica a bastoncini. Se invece si adotta l’ipotesi della distribuzione uniforme, si presenta la natura continua del fenomeno e l’obiettivo di associare la frequenza a tutti gli infiniti punti dell’intervallo, in modo che sia uniformemente distribuita, si raggiunge rappresentando la frequenza come un’ area. Sull’intervallo rappresentato sulle ascisse da un segmento si innalza un rettangolo di aree pari a o se si vogliono rappresentare le frequenze relative.
Cosa si deve mettere sulle ordinate per ottenere rettangoli di area pari a? Il nostro rettangolo ha base pari a (ampiezza dell’intervallo ) e ha area pari a. L’altezza è pari a , cioè la densità di frequenza.
Per rappresentare la distribuzione di frequenze assolute, sotto l’ipotesi di una distribuzione uniforme, si pongono gli intervalli sulle ascisse e le densità di frequenza sulle ordinate.
Se invece si vogliono rappresentare le frequenze relative, cioè rettangoli di aree , si pongono sulle ordinate le densità di frequenza relative. Il diagramma che si ottiene è a rettangoli accostati e prende il nome di istogramma o diagramma areale.
L’area totale sottesa all’istogramma è: Pari a N se si rappresentano le frequenze assolute sulle ordinate) Pari a 1 se si rappresentano le frequenze relative sulle ordinate) Sull’istogramma sono automaticamente rappresentate come aree anche le frequenze cumulate , assolute o relative a seconda che le aree dei rettangoli dell’istogramma rappresentino. L’istogramma permette allora il calcolo delle frequenze cumulate per qualunque valore del fenomeno continuo X , interni ed esterni agli intervalli osservati. Il calcolo avviene sotto l’ipotesi della distribuzione uniforme, cioè l’ipotesi adottata per costruire l’istogramma stesso.
L’istogramma è l’unica rappresentazione grafica sensata quando la v.s. si presenta con gli intervalli di ampiezza diversa. Il termine istogramma va riservato però a diagrammi come quello descritto sopra, in cui l’area ha un significato preciso, che nel nostro caso è interpretabile come frequenza.
Rappresentazione Grafica della vs:
Per poter confrontare abbiamo bisogno delle frequenze relative Discretizzazione diagramma a bastoncini
Manteniamo la continuità, e procediamo in maniera equa e uniforme senza privilegiare nessun impunto.
unico valore sintetico
CAPITOLO 5: Valori medi L’obiettivo ora diventa quello di spingere la sintesi della v.s. fino all’individuazione di un unico valore che da solo ci dia un’idea del comportamento di X su U e del suo ordine di grandezza. Questo è in sostanza il concetto di valore medio. La sintesi è estrema. Si tratta infatti di passare da un’intera distribuzione di frequenza (su k modalità) a un singolo valore, il valore medio. Si intuisce che, salvo in casi di interesse più teorico che pratico, non è sensato pretendere di costruire un singolo valore medio perfettamente rappresentativo dell’intera variabile statistica. La complessità della realtà richiede di procedere per gradi, costruendo valori medi differenti, capaci di cogliere ed evidenziare di volta in volta un differente aspetto del comportamento di X su U.
Moda Di fronte ad una v.s. viene naturale scorrere la colonna delle frequenze e soffermarsi sulla modalità con frequenza maggiore.
Definizione: la moda o norma di una v.s. è la modalità a cui è associata la frequenza più elevata fra le k osservate, cioè la modalità più osservata.
effettua il suo lavoro di sintesi dell’intera v.s. in maniera molto semplice ed è tanto più informativa quanto più elevata è la frequenza corrispondente, cioè il numero di unità statistiche che rappresenta. La moda è un valore medio di sintesi calcolabile per X qualunque (qualitativo e quantitativo, categoriale od ordinale, discreto o continuo). è immediatamente individuabile e non serve un computer. Quando la v.s. è data sotto forma di tabella basta scorrere la colonna delle frequenze e individuare la più elevata. La modalità corrispondente è la moda. Quando la v.s. è rappresentata graficamente, la frequenza più elevata si individua ad occhio, è la barra più alta/più lunga in un diagramma a torta ecc. La modalità corrispondente è la moda. Un accorgimento particolare è necessario nel caso di X continuo, con modalità che sono intervalli. Se gli intervalli sono di ampiezza differenze, la frequenza, sia assoluta che relativa, è influenzata dall’ampiezza degli intervalli e dunque perde la sua carica informativa per l’individuazione di.
Intervallo modale: chiamiamo intervallo modale quello a cui è associata la densità più elevata fra le osservate.
È convenzione diffusa far coincidere la moda con il valore centrale dell’intervallo modale. Talvolta la v.s. è priva di moda o è difficile individuare una modalità che spicchi fra le rimanenti in quanto a frequenza associata. In tali casi la moda non è un buon valore medio e non svolge adeguatamente il proprio compito di indicatore sintetico del comportamento di X su U.
Inoltre, talvolta la v.s. si presenta con più di una moda. Si parla in tal caso di fenomeno bi-modale (tri-modale… plurimodale).
Mediana Concentriamoci sui fenomeni almeno ordinali (qualitativi e quantitativi). Quando X è almeno ordinale, è possibile istituire relazioni d’ordine fra le sue modalità e possiamo porci domande basate sull’ordinamento: quanti sono inferiori a…? quanti sono almeno pari a…? quanti non superiori a…? Per i fenomeni almeno ordinali, oltre alla moda, un’ulteriore sintesi consiste nel selezionale fra le k manifestazioni ordinate quella che occupa una posizione speciale nell’ordinamento. Particolarmente informativa è la posizione centrale.
Definizione: la mediana di X è la modalità che, nell’ordinamento, occupa una posizione centrale.
#: un numero, e quindi fenomeno quantitativo, discreto (si conta) Mettiamo in ordine i dati rispetto alla risposta data, cioè agli esami conseguiti. Mettere in ordine significa trovare la posizione nell’ordinamento di ciascun soggetto. Xo,5 = modalità che occupa la posizione centrale La metà che sta a destra manifesta modalità superiori (numeri più alti), la metà che sta sinistra manifesta modalità inferiori. Info: metà (50%) dei non iscritti al I anno fra voi ha almeno 6 esami registrati sul libretto (l’altra metà non più di 6). Notazione: : mediana
Quando X è quantitativo continuo le modalità sono intervalli. In questo caso, scorrendo le frequenze cumulate relative, laddove si raggiunge ed eventualmente si supera 0,5 si individua un intervallo che chiameremo intervallo mediano. Per individuare la mediana all’interno di un intervallo mediano si devono avanzare delle ipotesi, ossia quella del valore centrale o quella della distribuzione uniforme. Secondo questa seconda ipotesi, la mediana si identifica attraverso la seguente formula:
Dove: : è l’estremo inferiore dell’intervallo mediano : è la frequenza cumulata (assoluta o relativa) dell’intervallo precedente : è l’ampiezza dell’intervallo mediano.
È espressa nella stessa unità di misura con cui X si manifesta su U. Ci da un’informazione sintetica dell’ordine di grandezza di X su U.
Alcuni chiamano questa formula media ponderata perché vi appaiono le modalità ponderate (moltiplicate per) con le frequenze ed è divisa per la somma dei pesi della ponderazione ( N se si pondera con le oppure 1 se so pondera con le ). A volte il risultato ottenuto da queste formule non è neanche uno dei possibili valori di X previsti dalla scala di rilevazione.
Media dei dati aggregati: Media dei dati disaggregati: Informazione statistica: ordine di grandezza medio con cui parla il fenomeno & stessa unità di misura di X su U
Se X è quantitativo continuo (xi: xl –| xL) e le sue modalità sono intervalli (insieme di numeri), la media è in genere calcolata con l’ipotesi del valore centrale xi.* Cos’è il valore centrale?
xi:* Somma degli estremi, inferiore e superiore, diviso 2. 25,49 = Km che in media vengono percorsi calcolati su dati raggruppati. xi • pi* x centrale per frequenze relative
VALORE MEDIO •unico valore sintetico (indicatore statistico) •evidenzia un particolare aspetto (medio) del comportamento di X su U
X 0 : moda X0,5: mediana
Es. Esperimento statunitense: quanti partner sessuali desideri per i prossimi 30 anni? Notability
X0, X0,5: valori medi più robusti X0, X0,5: info complementari
Proprietà di : Internalità: non è tipica della media aritmetica. Deve essere compreso tra il valore più piccolo e il valore più grande presi in considerazione. Associatività : non è tipica delle media aritmetica ma che la moda e la mediana non hanno
Equidistribuzione/ mantenimento del TOT: tipica della media aritmetica Annullamento degli scarti (ponderati) : tipica della media aritmetica
Mantenimento : sostituendo ai dati veri la media si mantiene il parametro descrittivo. Proprietà di equi distribuzione/mantenimento : Solo
Proprietà associativa: Comune a molte altre medie ( ma nom xo e x0,5) La media delle medie parziali ponderata con la numerosità dei gruppi riproduce Popolazione stratificata, sotto popolazioni, ciascuna con la sua numerosità. Sommando le numerosità si riproduce la numerosità della popolazione d’interesse.
CAPITOLO 6:
Approfondimenti sui valori
medi Tre sono i criteri più noti che possono guidare nella scelta e nella costruzione del valore medio opportuno per sintetizzare un v.s. quando X è quantitativo.
Le proprietà della media aritmetica : Se ciò che interessa il valore medio di sintesi sono le suo proprietà algebrico-matematiche, si deve scegliere la media in un insieme chiamato classe delle medie di potenza. Tale serie di proprietà è di particolare interesse per la sintesi statistica di un fenomeno quantitativo. La media aritmetica appartiene a questa classe, mentre moda, mediana e percentili no. La ragione per cui la media aritmetica è il valore medio di sintesi più utilizzato è che gode di molte proprietà utili:
CAPITOLO 7: Variabilità In questo capitolo verranno considerati solo i fenomeni quantitativi (discreti e continui), cioè quelli che generano variabili statistiche completamente numeriche e che sono sintetizzabili con la media aritmetica.
Nell’immaginario popolare la Statistica è spesso associata alla famosa poesia di Trilussa:
…te tocca un pollo all' anno: e, se nun entra ne le spese tue, t'entra ne la statistica lo stesso perche' c'e' un antro che ne magna due.
U N X : quantitativo Descrivere il comportamento di X su U Associare a Sinonimi: dispersione, spread Def: Tendenza a variare di X a manifestarsi su U con valori molteplici e differenti. Al crescere della variabilità serve sempre più statistica. Variabilità = scopo della Statistica. Complessità che va affrontata statisticamente
Infatti, la media aritmetica fra 0 (polli mangiati dal protagonista della poesia) e 2 (polli mangiati dall’ antro ) è proprio 1 (1 pollo a testa). Nella situazione descritta la media aritmetica svolge molto male il suo lavoro di valore medio di sintesi, poiché da un’indicazione contraria alla realtà. Trilussa, non essendo uno statistico, si è fermato alla media aritmetica. Con strumenti statistici più opportuni, anche una situazione difficile come quella della poesia può essere descritta più correttamente. Vedi es. a pag. 83. in concreto, i valori di sintesi con maggiore capacità descrittiva sono: La mediana La frequenza cumulata relativa della modalità 0 La moda con frequenza relativa.
Che cosa rende difficile la sintesi di una siffatta variabile statistica e la descrizione del comportamento di X su U? Qual è l’aspetto caratteristico di questa U che non riesce a cogliere? Si tratta della variabilità o dispersione di X , che è l’attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U , con modalità fra loro diverse e distanti. La situazione della poesia è di massima variabilità ; X manifesta solo due modalità fra loro massimamente distanti, ossia niente e tutto.
La variabilità (accanto alla numerosità) è ciò che rende necessario il ricorso alla strumentazione statistica per l’analisi e la comprensione del comportamento del fenomeno su U. È di fatto ciò che si cerca di descrivere e spiegare statisticamente. La variabilità di X quantitativo è quindi un aspetto essenziale nella descrizione statistica del suo comportamento su U , che però necessita il supporto di misura e analisi della variabilità.
La misura (assoluta) della variabilità di X (su U ) è un indice sintetico calcolato sulla v.s. con le seguenti caratteristiche. Proprietà di un indice di variabilità : Assume valore 0 in assenza di variabilità , cioè nella situazione limite in cui X si manifesta sulle N unità di U con un’unica modalità, generando una v.s. costante (o degenere ). Assume valori positivi () quando X (più realisticamente) si manifesta su U con modalità molteplici e differenti, cioè in caso di variabilità. Assume valori positivi e via via più grandi all’aumentare della variabilità.
Un modo semplice ed intuitivo per costruire un indice con queste proprietà è confrontare fra loro le modalità con cui X si manifesta su U. Seguendo questa logica, la più semplice misura di variabilità, che chiamiamo all’inglese range , si ottiene confrontando la più piccola e la più grande fra le modalità osservate. Range di X. Il range è una misura assoluta di variabilità, infatti: Vale 0 se la v.s. è degenere, cioè quando X si manifesta con un’unica modalità (sempre la stessa) e perciò Assume valori positivi quando X si manifesta con più modalità diverse e perciò. In questo caso il valore assunto dal range cresce all’aumentare della differenza tra , cioè all’aumentare della variabilità di X. Il range è però una misura di variabilità grossolana. Intanto è molto sensibile alla presenza di valori anomali, ossia quando è estremamente piccola o troppo grande. Inoltre, il range è basato solo su 2 fra le k modalità osservate, quelle estreme, mentre il resto della v.s. è ignorato. Seguendo questa logica di confronto delle modalità, possiamo migliorare un po’ le cose prendendo la differenza fra i due quartili, superiore ed inferiore, di X , ossia quelli con cui si costruisce il box-plot per un fenomeno almeno ordinale, i seguenti 5 numeri danno una descrizione sintetica dell’intera v.s.:
Quanto più X è variabile, tanto più elevato è il valore IQR e più alto (o largo) appare il box-plot.