


































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
riassunto delle lezioni e del libri
Tipologia: Appunti
1 / 42
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



































La statistica è una scienza che permettere di raccogliere, analizzare ed interpretare i dati. Siamo nell’era dei big data , e proprio per questo è necessario saper fare una selezione delle informazioni utili. In Italia chi produce statistica è l’ISTAT , che si occupa di svariati campi (ad esempio statistiche sull’occupazione, sui redditi, demografia etc.). La statistica è una scienza dei dati , è l’insieme di metodologie e tecniche per la conoscenza quantitativa, l’analisi e la comprensione di uno o più fenomeni (osservati nella realtà sociale, in natura, in laboratorio o al computer) , singolarmente o congiuntamente considerati, che si presentano nella realtà con un insieme di diverse manifestazioni, osservabili totalmente o parzialmente. È multidisciplinare , infatti si può applicare a vari campi come sociologia, politica, economia, salute pubblica, medicina. Quindi la statistica si occupa della trattazione quantitativa dei fenomeni. Per trattazione quantitativa intendiamo la realizzazione del seguente processo logico : Osservazione : raccolgo i dati Analisi : elaboro il dato raccolto Conoscenza (comprensione) : trasformo i dati in informazioni Decisioni : dopo questo processo logico potrò prendere decisioni L’operazione di raccolta dei dati a fini statistici è chiamata rilevazione , o anche osservazione e registrazione. I fenomeni d’interesse per la statistica prendono il nome di “fenomeni statistici” , ed essi si manifestano in molteplici modi. In termini tecnici ci si riferisce a ciò parlando di tendenza (del fenomeno ) a variare. I supporti delle diverse manifestazioni del fenomeno statistico sono detti unità statistiche. È presso le unità statistiche che è possibile osservare e registrare le manifestazioni del fenomeno di interesse, ossia rilevare i dati. L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato popolazione statistica o universo (U) di riferimento. Il numero di unità statistiche che compongono la popolazione statistica di riferimento è chiamato numerosità o dimensione di U ; la notazione che useremo è N (quindi non la si può
usare per indicare i fenomeni). I fenomeni d’interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite (N è un numero intero e positivo). Talvolta la dimensione N di U, pur essendo finita, è talmente elevata che conviene pensarla come infinita ai fini dell’analisi statistica.
I fenomeni non sono tutti uguali e definirne la natura correttamente è il pre-requisito all’individuazione della strumentazione statistica adatta alla raccolta e all’analisi dati. Il fenomeno statistico può essere classificato in qualitativo o quantitativo. I fenomeni qualitativi si manifestano nella popolazione osservata attraverso attributi o categorie (ad esempio il genere, la squadra tifata, il titolo di studio): le modalità di risposta sono quindi espresse in parole. Per i fenomeni qualitativi è importante la sotto- classificazione , che li distingue in base alla possibilità di ordinarne le manifestazioni.
La scala delle modalità con cui si rileva X è l’insieme di tutte le diverse manifestazioni di X osservabili su U. La scala delle modalità con cui si effettua una rilevazione avere le proprietà di :
o Scala ordinale: Gli attributi o le categorie possono essere ordinati secondo un qualche criterio oggettivo o convenzionalmente accettato. Esempi: Titolo di studio, Livello di felicita Una scala qualitativa ordinale ammette relazioni di uguaglianza (=) o differenza (≠), maggiore (>) o minore (<)
Una scala quantitativa rapporto ammette le operazioni di uguaglianza , disuguaglianza , di ordinamento , di somma e sottrazione , di moltiplicazione e divisione.
Trattare quantitativamente uno o più fenomeni statistici significa condurre le seguenti fasi:
Quando N è un numero grande il risultato della rilevazione è un insieme confuso di N modalità xi di X che non aiuta al raggiungimento del nostro scopo, cioè la descrizione del comportamento di X su U. Il risultato della rilevazione fornisce quindi dati grezzi. L’analisi statistica procede per sintesi successive: l’obiettivo è far emergere un passo alla volta dai dati informazioni utili a spiegare il comportamento di X su U. La prima sintesi consiste nel dare una struttura ai dati grezzi , organizzandoli in tabelle e grafici in modo da renderli leggibili.
Effettuando l’operazione di conteggio delle modalità di X che si ripetono in U, i dati grezzi vengono organizzati in una tabella. Il numero di volte in cui una modalità xi è stata rilevata in U si chiama frequenza (assoluta). La somma delle frequenze assolute riproduce la numerosità N di U.
Se il nostro obbiettivo è confrontare le distribuzioni di frequenza di X di due o più popolazioni con numerosità diversa occorre depurare le frequenze assolute dall’influenza di N costruendo le frequenze relative
Le quantità assolute non sono né confrontabili né valutabili. Per fare ciò è necessaria costruzione di grandezze relative , che sono rapporti in cui al denominatore si pone la dimensione che disturba e impedisce il confronto della quantità che poniamo al numeratore. Si tratterà poi di valutare ogni volta che l'interrogativo statistico è del tipo “è tanto o poco?”. In questo caso si richiede la normalizzazione : il procedimento di trasformazione di una quantità statistica assoluta in una percentuale. Per illustrarla in generale chiamiamo I una qualunque misura statistica assoluta , di una qualche caratteristica del comportamento di X su U. Il valore minimo , chiamato Imin, è il valore che I assumerebbe in assenza di ciò che stiamo misurando di X. Il valore massimo , chiamato Imax, è il valore che I assumerebbe nel caso che X presenti al livello massimo ciò che stiamo misurando. È possibile trasformare I in percentuale, normalizzandolo.
Le frequenze cumulate assolute sono numeri interi compresi fra 0 e N , mentre quelle relative sono comprese tra 0 e 1. La prima frequenza cumulata coincide con le frequenze della modalità più piccola; l’ultima frequenza cumulata coincide con la numerosità N di U se parliamo di frequenze cumulate assolute, coincide con 1 se parliamo di frequenze cumulate relative. Fra le frequenze e le corrispondenti frequenze cumulate esiste una corrispondenza biunivoca : data una distribuzione è possibile passare all’altra e viceversa. Se conosciamo le frequenze possiamo ottenere le cumulate e se conosciamo le cumulate possiamo ri-ottenere le frequenze non cumulate. Si tratta di formule ricorsive.
Se X è continuo le modalità xi sono intervalli. Questo ci porta a dover affrontare due aspetti:
Dalle distribuzioni di frequenza ( assolute, relative, % e cumulate ) si possono costruire grafici. I grafici sono un’alternativa alle tabelle : non si tratta di una ulteriore forma di sintesi, ma solo di una diversa presentazione, preferibile in fase di interpretazione e comunicazione dei risultati di ricerca, soprattutto poi quando K è grande. La tipologia e l’interpretazione della rappresentazione grafica è molto diversa a seconda del carattere del fenomeno (ad esempio ordinale, nominale, continuo, discreto etc.).
L’area totale sottesa all’istogramma è pari a N se si rappresentano le frequenze assolute fi (φi sulle ordinate); pari a 1 se si rappresentano le frequenze relative pi (φi /N sulle ordinate). È bene infine sottolineare che in questo caso si sta facendo uso di un vero e proprio piano cartesiano. L’istogramma è la rappresentazione grafica sensata quando la v.s. si presenta con intervalli di ampiezza diversa. Per una rappresentazione grafica di quello scritto sopra guarda iPad. CAPITOLO 5: I VALORI MEDI In questo capitolo vogliamo spingere la sintesi della v.s. fino all’individuazione di un unico valore che da solo ci dia un’idea del comportamento di X su U e del suo ordine di grandezza. Si tratta quasi di una sintesi estrema: passare da un’intera distribuzione di frequenza a un singolo valore, il valore medio.
La moda ( la indicheremo con x 0 , letto x con zero ) o norma di una variabile statistica è la modalità a cui è associata la frequenza più elevata tra le k osservate, cioè la modalità più osservata. È calcolabile per qualsiasi X (qualitativa o quantitativa, categoriale o ordinale, discreta o continua) Ѐ tanto più informativa quanto più elevata è la frequenza corrispondente , cioè il numero di unità statistiche che rappresenta. A livello di presentazione e comunicazione dei risultati è buona pratica associare alla moda di X la corrispondente frequenza ( relativa o percentuale ) che ne aiuta l’interpretazione e rappresenta una misura della sua capacità di descrivere sinteticamente il fenomeno su quella popolazione. La moda è un valore medio di sintesi calcolabile per X qualunque. Quando la v.s. è data sotto forma di tabella basta scorrere la colonna delle frequenze e individuare la più elevata. Quando la v.s. è rappresentata graficamente, la frequenza più elevata si individua a occhio. Un accorgimento particolare va effettuato nel caso X fosse continua , quindi con modalità che sono intervalli. In questo caso la frequenza (sia assoluta che relativa) è influenzata dall’ampiezza degli intervalli: è allora necessario utilizzare le densità di frequenza per individuare la moda. L’intervallo a cui è associata la densità di frequenza più elevata si chiama intervallo modale. È poi convenzione diffusa far coincidere la moda x 0 con il valore centrale dell’intervallo modale. Talvolta la v.s. è priva di moda o è difficile individuare una modalità che spicca fra le rimanenti in quanto a frequenza associata. In tali casi la moda non è un buon valore medio e non svolge adeguatamente il compito di indicatore sintetico del comportamento di X su U. Talvolta si presenta con più di una moda, quindi fenomeno bi-modale.
È una sintesi di caratteri che sono almeno su scala ordinale (quindi o qualitativi ordinali o quantitativi). Il significato è quel valore che bipartisce in due la distribuzione, ovvero quel valore che ha alla sua sx il 50% delle osservazioni ed alla sua dx l’altra 50%. Per dirla in termini tecnici: il 50% di U manifesta modalità xi ≤ x0.5, l’altro 50% modalità xi ≥ x0. Si può dire quindi che la mediana di X è la modalità che nell’ordinamento crescente occupa la posizione centrale. Per indicarla useremo la notazione x0. Per il calcolo della mediana ci vengono in soccorso le frequenze cumulate: una volta costruita una distribuzione di frequenza delle frequenze cumulate relative prendiamo la modalità che supera il 50%. Per quanto riguarda i fenomeni quantitativi continui va fatto un discorso diverso: Ricordiamo che le modalità in questo caso sono composte da intervalli: scorrendo le frequenze cumulate relative, laddove si raggiunge o si supera 0.5, si individua un intervallo chiamato intervallo mediano. Una volta fatto ciò non sappiamo però la distribuzione all’interno degli intervalli: non ci resta che adottare quindi un assunto iniziale , per esempio quello del valore centrale o della distribuzione uniforme. FORMULA PER IL CALCOLO DELLA MEDIANA PER MODALITÀ INTERVALLARI: nota bene ; la frazione può diventare φ in quanto lo sposti al denominatore. nota bene ; in caso venissero usate frequenze assolute N/2 diverrebbe 0.5 e il tutto sarebbe diviso per φ/N sull’iPad trovi una rappresentazione grafica con l’istogramma e la spiegazione matematica
Finora abbiamo effettuato la sintesi della variabile statistica privilegiando una modalità rispetto alle altre.
CAPITOLO 6: LE PROPRIETÀ DELLA MEDIA ARTIMETICA La ragione per cui la media è il valore medio di sintesi più utilizzato risiede nel fatto che gode di molte proprietà utili.
𝒉 𝒋=𝟏
j che va da 1 a h dove h sono il numero di gruppi presenti nella popolazione Questa proprietà esiste per aiutarci in quei casi in cui abbiamo i dati aggregati ma non i dati individuali. Formalmente si tratta di considerare U di numerosità N, suddivisa in un certo numero (ci riferiremo al numero con h) di sottopopolazioni (che chiamiamo Uj), ciascuna di numerosità Nj, con j=1, …, h e ∑ 𝒌 𝒋=𝟏𝑵𝒋 = 𝑵 Esempio: innanzitutto calcolo il valore centrale : (400+180)/2= 290, successivamente lo moltiplico per le frequenze relative. Una volta fatto ciò per ogni modalità sommo i risultati che mi sono usciti , trovando in questo caso 468.535 e 489.808.
Faccio quindi una nuova tabella, in cui scrivo le numerosità parziali delle due sottopopolazioni, le quali poi sommerò. Una volta fatto ciò calcolo la media ponderata. tecnicamente se moltiplichi i valori centrali per le frequenze relative e poi li sommi dovrebbe uscirti (in sto caso non esce bene per via di degli arrotondamenti) lo stesso totale Internalità, omogeneità e associatività sono le principali proprietà soddisfatte da tutte le medie appartenenti alla classe delle medie potenziate. Tra esse la media aritmetica è la più nota e la più utilizzata perché gode di alcune proprietà esclusivamente sue.
Il fatto che solo la media annulli la somma degli scarti ponderati conferisce alla media il ruolo di baricentro della v.s. e quindi ne rappresenta una sintesi della tendenza centrale.
Una misura di variabilità più raffinata e quindi meno sensibile agli eventuali valori anomali numeri è la deviazione standard di x ( chiamata anche scarto quadrato medio ). Si tratta della misura di variabilità più nota ed utilizzata. La sua notazione è σ. Consiste nel confrontare le modalità di X con un unico valore fisso, scelto come polo di confronto. 𝜎 = √
𝑘 𝑖= 1
𝑘 𝑖= 1
La deviazione standard elevata al quadrato (cioè, eliminando la radice quadrata) è la varianza di X. Si noti che la formula corrisponde anche la media aritmetica degli scarti al quadrato. Risponde in parte alle caratteristiche della variabilità (non ha la stessa unità di misura) La devianza invece è N moltiplicato per sigma. Ha gli stessi difetti della varianza ed inoltre è un totale e non una media.
La deviazione standard e la varianza sono misure assolute di variabilità, cioè, sono influenzate dalla visione di grandezza. Di conseguenza non sono né valutabili né confrontabili Per confrontare la variabilità di X su due diverse popolazioni, occorre costruire una misura di variabilità relativa → costruzione di un indice relativo. La misura di variabilità relativa più note utilizzata è il coefficiente di variazione che si costruisce ponendo la deviazione standard a rapporto con la media aritmetica 𝑐𝑣 =
Di seguito indichiamo le caratteristiche del coefficiente di variazione:
La variabilità rispetto alla media la si calcola in termini percentuali, con la seguente formula: 𝑐𝑣 = 𝜎 𝑥 e successivamente la si moltiplica per 100 PARTE II: STATISTICA BIVARIATA CAPITOLO 9: TABELLE A DOPPIA ENTRATA. In questa seconda parte ci concentriamo sulla rilevazione congiunta di una coppia di fenomeni statistici sulla stessa U; li indicheremo con X e Y. Il nostro obbiettivo diventa la descrizione del comportamento congiunto di X e Y su U e l’analisi eventuale della relazione statistica esistente fra i due fenomeni. Due fenomeni X e Y sono osservati congiuntamente (insieme) su ciascuna delle N unità che compongono la popolazione di interesse U. Il risultato è un insieme di N coppie del tipo (x, y). N coppie (X, Y ).