








































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Un'introduzione completa ai concetti fondamentali della statistica, esplorando metodi di analisi dei dati e tecniche di rappresentazione grafica. Il documento copre argomenti come la definizione di unità statistica, caratteri qualitativi e quantitativi, frequenze, distribuzioni di frequenza, misure di tendenza centrale (media, mediana, moda) e misure di variabilità (scarto quadratico medio, differenza interquartile). Inoltre, vengono presentati esempi pratici e grafici per illustrare i concetti chiave.
Tipologia: Appunti
1 / 48
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!









































SCIENZE POLITICHE
Statistica Definizione : scienza che ha per oggetto lo studio dei fenomeni collettivi suscettibili di misurazione e di descrizione quantitativa. Ci sono dei fenomeni descrivibili quantitativamente e la scienza che, appunto, si occupa di scriverli con i numeri è la statistica. Basandosi sulla raccolta di un grande numero di dati inerenti ai fenomeni in esame, partendo da ipotesi più o meno direttamente suggerite dall’esperienza o da analogie con altri fenomeni già noti, mediante l’applicazione di metodi matematici fondati sul calcolo delle probabilità, si perviene alla formulazione di leggi di media che governano tali fenomeni, dette leggi statistiche Oggetto : studio dei fenomeni attraverso caratteri (o variabili) osservati su un aggregato di elementi → ciascuno degli elementi dell’aggregato si chiama unità statistica o soggetto di studio. Ad esempio, se vogliamo misurare la nostra altezza, l’unità statistica siamo noi stessi. Rilevazione : abbiamo individuato le unità statistiche e i caratteri che ci interessa rilevare, e andiamo effettivamente a fare la rilevazione, che può essere:
Variabili e la loro classificazione Variabile : caratteristica o fenomeno che varia da unità statistica a un’altra. Per esempio, se tra di noi, avessimo tutti un diploma superiore, non sarebbe una variabile perché dovrebbe acquisire peculiarità diverse per ogni unità. Può essere:
tal caso per la misurazione delle modalità verrà utilizzata una scala nominale , in cui l’unica operazione possibile è l’identificazione di due modalità come uguali o diverse. Sempre considerando variabili categoriali, a volte esiste un ordine naturale fra le modalità. In tal caso per la misurazione delle modalità verrà utilizzata una scala ordinale, con la quale è possibile non solo valutare se due modalità sono fra loro uguali o diverse ma anche stabilire se una modalità è ‘‘maggiore’’ o ‘‘minore’’ rispetto ad un’altra. Quando si utilizza una scala nominale si parla anche di carattere sconnesso Quando invece si fa ricorso ad una scala ordinale si utilizza il termine carattere ordinabile
elevato, la rappresentazione dei dati mediante la matrice dati non e efficace nell’ottica di fare sintesi e illustrare i risultati. Si dovrà pertanto ricorrere alla rappresentazione mediante le distribuzioni di frequenze. È necessaria un po’ di simbologia. n = n° unità statistiche rilevate X = carattere k = n° modalità xi = modalità ( i= 1, …, k). Il pedice varia da uno a k. ni = frequenze assolute. La frequenza assoluta è n° unità statistiche che presentano la modalità i_esima oppure n° di volte in cui la modalità i_esima si manifesta. È la stessa cosa detta in modo diverso. Esempi : Genere ni X 1 = M n 2 = devo contare quante volte questa modalità (maschio) si ripete nell’elenco→ Quantitativo, continuo, scala di rapporti → Per comprendere gli estremi dovremo scrivere 60 – I 70. → Quando abbiamo quantitativo continuo di solito rappresentano in classi, bisogna calcolare l’ampiezza della classe calcolando la differenza tra l’estremo superiore e quello inferiore Densità di frequenza : date dal rapporto fra le frequenze relative e l’ampiezza delle classi, che corrispondono alle frequenze (o frazioni di frequenza) relative associate ad un intervallo unitario. Uguale a quindi a: ni ai
Carattere peso X (in kg) Classi peso ni Ni ai di 48 - 55 21 21 7 3 55 - 60 25 46 5 5 60 - 70 14 60 10 1. 70 - 90 40 100 20 2 = 100 Distribuzione frequenze : due colonne, una modalità l’altra della frequenza Genere ni Fi M 11 0. F 9/20 0. Grafico a torta ➔ Per quanto riguarda i caratteri qualitativi (siano essi sconnessi o ordinabili), una tipologia molto diffusa di rappresentazione grafica è data dai grafici ‘‘a torta’’ (o grafici a settori circolari). In tale tipo di grafico ad ogni modalità del carattere corrisponde una fetta della torta (o settore circolare appunto), la cui area dipende dalla frequenza relativa associata alla modalità stessa. In questo modo vengono dunque rappresentate le frequenze relative o percentuali. Grafico a barre ni
M F x Ascisse : le modalità dei caratteri Ordinate : le frequenze ➔ Un grafico utile per la rappresentazione dei caratteri qualitativi e di più semplice realizzazione (perché non richiede il calcolo degli angoli per definire le ampiezze delle fette, come accade nel caso precedente) è il grafico a barre. Tale grafico viene realizzato riportando le modalità assunte dal carattere su un asse orizzontale e le frequenze assolute (o all’occorrenza, le frequenze relative) su un asse verticale. Verranno quindi disegnate delle barre (dei rettangoli), tutte con base di uguale dimensione e la cui altezza sarà pari alla frequenza assoluta (o relativa) corrispondente. Nel caso di caratteri qualitativi ordinabili, le modalità saranno poste sull’asse seguendo il loro ordine naturale. Esempio X ni ai di 48 - 55 21 7 3 55 - 60 25 5 5 60 - 70 14 10 1. 70 - 90 40 20 2 ni 5 3 2
n° figli 48 55 60 70 90
Sempre sbagliato 629 0.555 * Quasi sempre sbagliato 55 0. Totalmente sbagliata 74 0. Assolutamente non sbagliata 375 0. = 1133 = 1
Da una tabella a doppia entrata possiamo tirare fuori informazioni univariate. La parte centrale sono le frequenze congiunte e le informazioni bivariate. Possiamo fare un grafico, bisogna recuperare informazioni sull’atteggiamento religioso e poi costruire la distribuzione della frequenza univariata. Frequenze condizionate delle opinioni dato l’atteggiamento, quindi quando dico “dato l’atteggiamento”, sto bloccando quest’ultimo. Questa è una univariata perché non c’è più la variabile atteggiamento e mi concentro o solo sui fondamentalisti o solo sui liberali. Distribuzioni condizionate relative di atteggiamento data opinione → fisso l’opinione, avrò sempre opinioni sbagliate.
Sempre sbagl. QSS TS ANS 416 629
26 55
213 629 =^
Diploma 4 8 → posizione 5 e 8 Laurea 12 20 → posizione 9 e 20 (posizione centrale considerando il totale) = 20 Moda : laurea Mediana : P1 = 20/2 = 10 ; 20/2 + 1 = 11 = laurea. Il titolo di studio laurea spezza a metà. Nel caso del qualitativo è giusto ma in maniera approssimativa. Media aritmetica La media aritmetica è la misura di sintesi più nota e più impiegata fra quelle che rilevano la tendenza centrale. Rappresenta l’intensità che spetterebbe a ciascuna unità se tutte avessero la medesima quantità, mantenendo costante il totale delle intensità: in questa accezione il suo utilizzo ha senso in modo particolare quando si ha a che fare con caratteri trasferibili, ovvero con caratteri per i quali si può pensare di trasferire un certo ammontare da una unità statistica ad un’altra.
mentre se si considera una distribuzione di frequenze, allora l’espressione precedente diventa: xi ni xi – x con trattino sopra (xi – x con trattino) x ni 0 4 - 1.45 - 5. 1 7 - 0.45 - 3. 2 6 0.55 3. 3 2 1.55 3. 4 1 2.55 2. x medio = 1. Foto tel per somma algebrica Carattere quantitativo continuo Peso X ni ai di Ni 48 - 55 21 7 3 21 da posizione 1 a 21 55 - 60 35 5 7 56 da posizione 22 a 56 (abbiamo trovato dove cade la mediana) 60 - 70 14 10 1.4 70 70 - 90 30 20 1.5 100 Moda = la classe 55-60, si definisce classe modale. Quando ho un carattere quantitativo guardo le densità di frequenza. La densità più alta è quella a cui corrisponde la moda. Graficamente è la barra che va più in su. Mediana = calcolo sempre la posizione centrale n + 1 2 Me = hi + ( n 2 −^ Ni^ −^1 )^ ×^ ai ni =^55 +^ ( 100 2 −^21 )^ ×^ 5 35
Altezza (in cm) ni Ni 150 - 160 22 22 160 – 170 28 50 → posizione 23 e 50 170 - 180 32 82 → posizione 51 e 82 180 – 200 18/100 100
101 2
Z = reddito completo Z medio = (x+y) medio = 1940+650 = 2590 euro Qui sono presenti valori abbastanza grandi; in generale la media aritmetica è più sensibile alla presenza di eventuali outlier, o valori anomali. Outlier = outlier si intende un valore osservato particolarmente grande o particolarmente piccolo rispetto agli altri. Si fa presente che talvolta un outlier può essere il risultato di un errore nella rilevazione e pertanto un’accurata analisi di tali valori è da considerarsi un’importante operazione preliminare da effettuare in ogni applicazione. Box-plot Rappresentazione grafica di 5 indici di posizione. Min Q1 Me Q3 max Sintetizza sia il centro sia la variabilità di una distribuzione. Il box (scatola) contiene il 50% centrale della distribuzione, dal primo al terzo quartile. La mediana è rappresentata da una linea che attraversa il box. Le linee che si estendono a partire dalla scatola sono chiamate whiskers1 ; esse si estendono fino al massimo e fino al minimo a meno che nella distribuzione siano presenti osservazioni outlier rappresentate in maniera differente nel grafico. Esempio box plot riferito alla distribuzione dei tassi criminalità e ottenuto attraverso il software SPSS: ➔ Il whisker superiore e la metà superiore del box sono più lunghi di quelli della metà inferiore indicando, in questo modo, che la coda destra della distribuzione è più lunga di quella sinistra. Il diagramma, quindi, riflette l’asimmetria positiva della distribuzione dei tassi di criminalità Differenza interquartile e outlier Q3 - Q1 = la differenza tra i due numeri, il terzo e il primo quartile, si chiama differenza in interquartile Un’osservazione viene definita outlier se ricade a più di 1:5 x (IQR - Inter Quartile Range ) al di sopra del terzo quartile oppure a più di 1:5_(IQR) al di sotto del primo quartile: Q3 + 1.5 (IQR) Q1 – 1 - 5 (IQR) Esercizio Altezza (in cm) ni ai di Ni 130 – 140 6 10 0.6 6
Moda = classe 160 - 170 (classe con densità più alta) Mediana = classe 140 - 160.
1 2
130 140 152 160 170 xi La mediana è proprio quel valore che divide a metà: primo e secondo blocco = 6, il terzo = 4 e il quarto = 8. 6+6 = 12 e 4+8 = 12 (divisione perfettamente a metà). Quartili Q1 → P(Q1) = n+1/4 = 6. Q1 = 140 cm - graficamente il primo quartile lascia a sinistra il 25% Q3 → P(Q3) = n+1/4 (3) = 18.
n 4
10 8
Media aritmetica xi ni xini 135 6 810 150 10 1500 65 8 13200 = 3630 x medio = 3630 24 = 151.25 cm se y = 3 + 8 𝑥 ➔ y medio =? y medio = 3 + 8 × ( 151. 25 ) = 1213 cm Box plot Q3 – Q1 = 162.5 – 140 = 22. 1.5(Q3-Q1) = 33. Q3 + 33.75 = 196. Q1 – 33.75 = 106.
➔ Ci piace costruire indici normalizzati , cioè, un indice compreso tra 0 e 1 perché, se sto misurando un qualcosa e so che esso è compreso tra 0 e 1, posso trarre rapidamente determinate conclusioni: più sono vicina a 0 so che c’è minima eterogeneità, più vicina all’1 so che c’è massima eterogeneità. 0 < o uguale E 1 * < o uguale 1
tutti i valori sono uguali; nel secondo caso invece i singoli valori si discostano in modo più o meno intenso dal valor medio, evidenziando una **certa variabilità**. Gli indici di variabilità sono sempre non negativi. In particolare, sono uguali a zero quando tutte le unità osservate assumono la stessa modalita: in tal caso la variabile si dice degenere. Poiché` per gli indici di variabilità non è affatto immediata la determinazione del valore massimo, in questa sede non sarà presentata la loro normalizzazione. Esistono diverse misure di variabilità, classificate in base alla logica con la quale vengono costruite. Nel seguito ci si limiterà a introdurre due classi di indici, gli indici di variabilità globale e gli indici di dispersione , presentando solo quelli più noti nelle due classi.Gli indici di variabilità globale si basano sulla differenza fra valori che occupano particolari posizioni nell’ordinamento. Un esempio è dato dal campo di variazione, definito come: È un indice molto grezzo , che si limita a identificare l’ampiezza dell’intervallo in cui sono compresi i valori osservati. Nell’esempio precedente, relativo alle altezze dei 10 individui, il campo di variazione per il primo gruppo è 0, mentre corrisponde a 190 - 150 = 40cm per il secondo gruppo. La differenza interquartile D.I. invece si ottiene come differenza fra i valori del terzo e del primo quartile: Tale indice fornisce l’ampiezza dell’intervallo in cui è contenuto il 50% delle osservazioni ‘‘centrali’’. Nel caso in cui si presentino dei valori anomali ( outliers ) è preferibile l’utilizzo della differenza interquartile rispetto al campo di variazione, poiché` tale indice non viene influenzato dalle osservazioni ‘‘estreme’’ (particolarmente grandi o particolarmente piccole).
All’interno della classe degli indici di dispersione, l’indice più noto è lo scarto quadratico medio σ (o deviazione standard), che si basa sui quadrati delle differenze tra i valori delle modalità e la loro media aritmetica. Come facciamo a vedere quando questi valori sono diversi, è ragionevole prendere il valor medio e vedere quanto tutti gli altri siano diversi rispetto al valor medio. ➔ elevare al quadrato significa rendere quegli scarti tutti positivi; con quel quadrato tolgo i segni + e – , e in più la proprietà mi assicura che sia minimo Quanto mediamente le x differiscono rispetto la loro media, calcolo per ogni x la differenza dalla loro media, e ne faccio una media. Tale formula, in presenza di una distribuzione di frequenze (xj, ni) con = 1, …k, diventa: Esistono delle formule alternative, che costituiscono un procedimento operativo spesso utile per rendere più agevoli i calcoli: Un indice molto importante legato allo scarto quadratico medio è la varianza. Essa è il suo quadrato , pertanto è definita come: