























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
programma per esame Petrucci statistica sociale integrato con slides
Tipologia: Appunti
1 / 31
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
























La STATISTICA fornisce METODI E STRUMENTI (MODELLI) che permettono di prendere decisioni consapevoli basandosi su informazioni incomplete. Si basa sul METODO INDUTTIVO (dal particolare al generale) e non può prescindere dal contesto. È una scienza che ragiona partendo dai dati. Studia i FENOMENI COLLETTIVI. I fenomeni collettivi riguardano i CARATTERI, che si articolano in modalità e si misurano attraverso le scale. I dati devono diventare INFORMAZIONI.
Quando un problema è risolto, i risultati non si possono dire certi, ma CONFIDENTI.
La STATISTICA DESCRITTIVA in particolare è la scienza che permette di:
R ACCOGLIERE
O RGANIZZARE le informazioni, al fine di pervenire a una o più conclusioni
S INTETIZZARE
A NALIZZARE
Si articola in 4 fasi:
Si parte dal CONTESTO, si fa ASTRAZIONE e si riportano i dati al CONTESTO
Elementi fondamentali: i DATI e l’uso di STRUMENTI DI ANALISI DI TIPO QUANTITATIVO.
In ultimo si passa alla generalizzazione dei risultati, quindi si ESTENDONO I RISULTATI DAL CAMPIONE ALLA POPOLAZIONE (← si fa INFERENZA)
POPOLAZIONE è sinonimo di raggruppamento, anche di cose e oggetti. La sintesi numerica della popolazione è un PARAMETRO. Ogni elemento appartenente alla popolazione è detto INDIVIDUO o UNITA’ STATISTICA. Le caratteristiche di ogni individuo sono dette VARIABILI e si indicano con X.
I diversi valori che può assumere ogni variabile sono detti MODALITA’ e si indicano con x.
CAMPIONE è un sottoinsieme della popolazione. La sintesi numerica del campione è una STATISTICA.
Le variabili possono essere QUALITATIVE o QUANTITATIVE
VARIABILI QUALITATIVE (dette anche NOMINALI o SCONNESSE perché tra le parti non c’è connessione, o CATEGORICHE perché identificano delle categorie) sono quelle che consentono di classificare le unità statistiche sulla base di alcuni attributi (es. colore dei capelli, degli occhi, sesso). Se sono ordinabili si dicono anche CICLICHE.
Non consentono operazioni matematiche tra le modalità.
VARIABILI QUANTITATIVE forniscono invece una caratteristica numerica delle unità statistiche e consentono di eseguire operazioni matematiche.
Sono DISCRETE quando contiamo. Le modalità in questo caso assumono un numero finito o un’infinità numerabile di valori identificabili con l’insieme dei numeri naturali.
Sono CONTINUE quando misuriamo. Le modalità assumono un numero INFINITO di valori, compresi i numeri decimali, quindi non sono numerabili. È possibile trovare un valore anche nell’intervallo tra due valori. Generalmente sono misure fisiche come peso, altezza, tempo, lunghezza.
È il sistema di misura che definisce la tipologia della variabile.
SCALA DI MISURAZIONE DI UNA VARIABILE
Le VARIABILI QUALITATIVE si misurano su SCALA NOMINALE e su SCALA ORDINALE.
La SCALA NOMINALE è il livello più basso della misurazione. Misuro su scala nominale quando i valori che può assumere la variabile (le modalità) sono nomi, etichette, categorie. Non sono possibili operazioni matematiche ma solo CONFRONTI o EQUIVALENZE. L’attribuzione di numeri per identificare le categorie è solo un artificio. I quesiti statistici riguardano le frequenze. Possiamo stabilire se due modalità sono uguali o diverse.
La SCALA ORDINALE (o PER RANGHI) contiene più informazioni di quella nominale, perché tra le modalità è possibile stabilire un ordine, una sorta di gerarchia. Ad esempio il titolo di studio: l’ordinamento è dato dal fatto che è legato a quantità ordinabili come gli anni di studio. Posso ordinare le unità statistiche ma non posso misurare la loro distanza. Posso stabilire relazioni di MAGGIORANZA o di MINORANZA. Possiamo stabilire se due modalità sono uguali o diverse e se una è maggiore o minore dell’altra.
Le VARIABILI QUANTITATIVE si misurano sulla SCALA A INTERVALLI (EQUIVALENTI) e la SCALA DI RAPPORTI.
Ci dicono quante sono le unità del collettivo che presentano la modalità considerata e/o quella precedente. Es.: quanti sono gli individui che hanno un titolo di studio minore o uguale a “media superiore”. Il valore dell’ultima frequenza cumulata coincide sempre con il totale. Ci servirà per calcolare gli INDICI DI SINTESI. Si legge ad esempio “il 20% della popolazione ha AL PIU’ il diploma superiore”. Somma della frequenza assoluta di una specifica modalità con le frequenze assolute delle modalità precedenti.
FREQUENZE CUMULATE RELATIVE: somma consecutiva
FREQUENZE CUMULATE PERCENTUALI:
Quando i dati sono quantitativi, la distribuzione di frequenze si può fare raggruppando le modalità in CLASSI cioè INTERVALLI NUMERICI. Es. età 0- anni, 5-
In questi casi il grafico più usato è LA PIRAMIDE.
Le CLASSI sono caratterizzate da:
Altezza (classi) 1,500 I 1,
1,600 I 1,
Nelle variabili quantitative continue si possono rappresentare come segue:
La barra verticale indica la classe in cui l’estremo è incluso
La barra orizzontale indica che il valore non è incluso.
COME SI COSTRUISCONO LE CLASSI:
PER DETERMINARE L’AMPIEZZA DI UNA CLASSE:
Poi arrotondare il risultato per eccesso.
Le tabelle sono il primo strumento di analisi, poi vengono i GRAFICI.
Si cerca sempre più di dare informazioni in info-grafica, per aiutare anche i non addetti ai lavori a recepire i dati in modo più semplice. (sito ISTAT).
Le rappresentazioni grafiche hanno lo scopo di descrivere una distribuzione, di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di una o più variabili. Devono sempre essere intestati e devono sempre contenere un titolo e una fonte.
Gli elementi necessari sono: figure, linee e segmenti, superfici o aree, solidi, simboli convenzionali.
La prima cosa da fare è capire di che natura è la variabile che vogliamo rappresentare:
VARIABILI GRAFICO Qualitative sconnesse o nominali Torta, barre orizzontali (o nastri) Qualitative ordinali Barre verticali Quantitative discrete Bastoncini, barre verticali Quantitative continue e discrete in classi
Istogramma
Serie storiche Linee
Istogrammi: distribuzioni in classi: NON ESISTONO ISTOGRAMMI SENZA DISTRIBUZIONI IN CLASSI. L’istogramma si usa SOLO per:
Si differenziano dai diagrammi a barre perché:
Se ho classi di ampiezza diversa, la frequenza è pari all’area della barra (base * altezza). Quindi sfrutto il concetto di densità della frequenza perché la spalmo sull’intero segmento che rappresenta la classe di appartenenza.
= densità di frequenza
= frequenza associata alla modalità i
= ampiezza della classe (lunghezza del segmento)
È importante usare SEMPRE la DENSITA’ sulle ordinate (al posto della frequenza) per ricordarci di considerare come informazione l’area del rettangolo. La frequenza assoluta si indica solo nel caso in cui le ampiezze sono uguali.
Le forme di distribuzione sono importanti perché rappresentano l’andamento della nostra variabile e sono essenzialmente 4:
Cartogrammi: un cartogramma è una carta geografica sulla quale sono rappresentati i dati statistici riferiti ad un fenomeno osservato rispetto ad un territorio. (es. tasso di disoccupazione).
SINTETIZZARE NUMERICAMENTE I DATI
Dopo aver sintetizzato i dati con tabelle e grafici dobbiamo individuare un valore numerico in grado di rappresentarli e lo facciamo attraverso le
IMPORTANTE: se ho invece dati discreti, faccio la somma degli estremi delle classi (estremo inferiore e estremo maggiore) e divido per due. Una variabile discreta, per sua natura ha delle discontinuità (es. nr di figli: non posso avere un dato continuo; avremo classi da 0-2, da 2-4, ecc. ma da 2 a 3 figli non c’è niente, quindi ho un punto di discontinuità).
CARATTERISTICHE della MEDIA:
PROPRIETA’ della MEDIA ARITMETICA:
In statistica tutte le volte che si fanno delle differenze si utilizza il termine “scarto”.
L= numero complessivo dei gruppi
g= un generico gruppo
= media del gruppo g
Significa che la media aritmetica totale della popolazione può essere calcolata come media delle medie parziali dei singoli gruppi, ponderate per la numerosità dei gruppi, se questi gruppi hanno la stessa numerosità.
Esempio: calcolare l’altezza media di un’aula, supponendo di conoscere l’altezza media delle donne e l’altezza media degli uomini. Abbiamo quindi 2 gruppi: L=
MEDIA TOTALE:
Questa proprietà prevede che si conoscano le medie dei gruppi che costituiscono il collettivo.
La PONDERAZIONE sta nel fatto che la numerosità di un gruppo/il totale mi dice quanto pesa un gruppo rispetto ad un altro. Il contributo dei gruppi ha un peso diverso rispetto al totale.
La media aritmetica si può calcolare solo quando la variabile è quantitativa. In caso di variabile QUALITATIVA si usa la MODA: è la modalità che si presenta con la frequenza più alta. In generale le distribuzioni possono:
Non rende conto dell’andamento di una variabile, quindi è meno informativa della media.
MEDIANA (M)
E’ l’indice di posizione che si utilizza per dati quantitativi o qualitativi su scala ordinale. È il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e divide il collettivo in due sottoinsiemi di uguale numerosità. Se il nr di osservazioni è pari, la M è la media delle due osservazioni centrali. È definita ROBUSTA perché non è influenzata dai valori estremi. Interpreta il significato dividendo la popolazione in due parti uguali 50% e 50%.
La mediana si trova con la posizione , ma la posizione non è la mediana, bensì il posto che occupa la mediana. Una volta trovato il posto dobbiamo vedere che valore occupa quel posto.
SE NR OSSERVAZIONI DISPARI : la mediana è il valore che occupa esattamente la posizione centrale della distribuzione:
M= (N+1)/
Con la formula trovo la posizione che occupa la mediana.
Es. ho 9 osservazioni, quindi n=9. La Mediana sarà nella posizione (9+1)/2, cioè sarà il valore corrispondente alla posizione numero 5.
In questo caso ho una numerosità del collettivo PARI, quindi devo identificare i due valori centrali, quindi 16/2 e 16+1/2, dunque 8 e 9. L’ottavo e il nono valore li trovo in corrispondenza della frequenza cumulata 10, e di conseguenza in corrispondenza di x=6.
Quando ho poche osservazioni posso disaggregare la distribuzione anziché fare la tabella di frequenza
La tabella mi dice che le prime 10 unità hanno un valore della x non superiore a 6 e dalla 7 alla 10 hanno un valore pari a 6. Questo mi permette di dire che i valori in ottava e nona posizione hanno un valore della x pari a 6.
QUANDO USARE LA MEDIA E QUANDO LA MEDIANA
FORME DELLA DISTRIBUZIONE:
Negli altri due casi userei la mediana, perché è robusta e quindi non influenzata dai valori estremi come la media.
QUARTILI: sono quei valori che dividono una distribuzione ordinata in senso crescente in 4 parti di uguale numerosità. La mediana è uno dei quartili, precisamente quello che divide in due la distribuzione: il quartile nr 2.
= divide la distribuzione in due parti: il 25% del valore sarà inferiore o uguale al primo quartile, il 75% sarà maggiore o uguale al primo quartile. Esprime il primo 25% del collettivo. N*0.
= divide la distribuzione in due parti uguali: 50% e 50%. Esprime il primo 50% del collettivo.
= divide la distribuzione in due parti: 25% e 75%. Esprime il primo 75% del collettivo. N*0.
PRIMO QUARTILE metodo di calcolo:
osservazioni. Di conseguenza il mio collettivo non sarà più 13 ma 6. A questo punto faccio la semisomma dei due valori centrali e trovo la soluzione.
TERZO QUARTILE : considero il collettivo dopo la mediana, sempre escludendola.
La modalità in corrispondenza della quale la frequenza cumulata percentuale supera la soglia del 50% coincide con la modalità mediana.
MEDIA DISTRIBUZIONE DI FREQUENZA IN CLASSI : (esercizio NB)
Es: il voto preso all’esame
voto preso all’esame
distribuzione di frequenza
valore centrale distribuzione
574/25= 22,96 in media questi 25 studenti hanno preso 22,96 all’esame.
INTERVALLO INTERQUARTILE (IQR)
O differenza interquartile è la differenza (o scarto) tra il terzo quartile e il primo. Non è altro che quel segmento in cui posso osservare il 50% delle mie informazioni relative ai valori centrali della distribuzione, perché la mediana è compresa. Al di fuori di questo intervallo osservo le code. Quindi ci dà un’idea di come sono distribuiti i valori nella fascia centrale delle nostre osservazioni. Es per avere dati più verosimili sul reddito. In realtà è una misura di dispersione.
Se i valori sono continui, le modalità sono suddivise in classi. In questo caso si va ad individuare la CLASSE MEDIANA. Per individuarla dobbiamo utilizzare le frequenze cumulate e andare a vedere il 25%, il 50% e il 75% a quale classe corrisponde.
I valori centrali intorno alla mediana stanno nell’intervallo interquartile.
L’intervallo interquartile può anche assumere un valore pari a zero, se il primo e il terzo quartile corrispondono allo stesso valore.
BOX PLOT
O diagramma a scatola e baffi è un grafico che consente di rappresentare una distribuzione mediante 5 numeri. Sintesi dei 5 numeri.
La dispersione, o variabilità è l’attitudine di un collettivo ad assumere diverse modalità di un carattere.
Se le unità statistiche assumono modalità molto diverse avrò una alta variabilità, altrimenti sarà bassa.
Si misura la variabilità rispetto ad una misura di tendenza centrale.
La variabilità si può misurare con diversi tipi di indicatori, ognuno dei quali deve rispettare alcuni requisiti:
LE MISURE DI DISPERSIONE O VARIABILITA’ SONO:
Il RANGE ignora la distribuzione dei dati ed è influenzato dai valori estremi. Si ritiene idoneo a rappresentare la variabilità dei dati rispetto alla media solo se rispetta la seguente regola:
Xmin ≤ (media campionaria) ±(range/2) ≤ Xmax
Cioè se la media ± il range/2 non va oltre i valori minimo e massimo
Es. Xmin è 100, Xmax è 1000, media 628,33, range 900
100 ≤ 628,33 ± 450 ≤ 1000 il risultato è maggiore del limite superiore, quindi non rispetta la regola.
La VARIANZA rappresenta la distanza media di ciascuna osservazione dalla
con sigma al quadrato.
Siccome la somma di tutte le deviazioni dalla media è zero, perché le deviazioni sopra la media si compensano con quelle sotto la media, per ottenere un valore positivo si utilizza la deviazione media al quadrato quindi la varianza è una misura al quadrato cioè il quadrato degli scarti, delle differenze dalla media. Divido il totale ottenuto per il nr delle osservazioni.
Il numeratore della Varianza, quindi la formula che sta sopra la linea della frazione è detta DEVIANZA ed è la somma dei quadrati delle deviazioni dalla media. È un indice di dispersione.
In questo modo ottengo la varianza, quindi un valore al quadrato che è difficile da interpretare (es. euro al quadrato se calcoliamo lo stipendio medio), quindi metto questo totale sotto radice quadrata e trovo lo SCARTO QUADRATICO MEDIO sqm o DEVIAZIONE STANDARD rappresentato con σ. Significa che gli individui considerati prendono uno stipendio medio x con una variabilità di y, dove y è il valore rappresentato dallo sqm.
FORMULA SEMPLICE VARIANZA: sommo il quadrato di tutte le x e lo divido per N, poi dal totale ottenuto sottraggo la media al quadrato.
distribuzione centrale simmetrica media Sqm o deviazione standard Asimmetrica Mediana Intervallo interquartile
Nella statistica descrittiva univariata studio una variabile per ogni singola unità statistica; nella statistica bivariata studio due variabili sulla stessa unità statistica. Es. peso e altezza, colore occhi e capelli, zona geografica e reddito, ecc.
Tra due variabili quantitative si possono fare due tipi di analisi:
Quindi si può essere interessati a
PRIMO STEP : rappresentazione grafica con diagramma a dispersione (o scatterplot )
SECONDO STEP : calcolo ed interpretazione del coefficiente di relazione lineare ( p (rho) )
TERZO STEP : stima dell’ equazione della retta dei minimi quadrati che esprime la relazione lineare tra le due variabili → retta di regressione lineare
È un grafico che mostra la relazione tra due variabili quantitative misurate sulla medesima unità. In esso ogni unità rappresenta un punto avente per coordinate le due modalità (x e y). Le unità di misura possono essere diverse. Sull’asse delle x metto la variabile esplicativa e su quella delle y la variabile risposta. Es. vogliamo analizzare la relazione tra il capitale investito per una campagna pubblicitaria e la durata dello spot. Il cap. investito è la variabile esplicativa e la durata è la variabile risposta. Capire qualcosa sulla base di. “Sulla base di” è la variabile esplicativa.
Tipo di relazione osservabile:
Per misurare la relazione tra le variabili uso un artificio: sposto il mio centro origine in corrispondenza della media delle due variabili, dunque traccio due assi, la cui origine è nella media di x e nella media di y; faccio una sorta di traslazione rigida, poi calcolo gli scarti cioè quanto sono distanti i punti da questa origine: vedo quanto sono dispersi rispetto a questo baricentro.
In questo modo realizzo 4 quadranti, attraverso i quali posso osservare come si muovono gli scarti.