Scarica Appunti statistica (scienze politiche) e più Appunti in PDF di Statistica solo su Docsity!
Statistica
Professoressa Barbara Pacini
Università di Pisa
a.s 2021/
Il processo statistico si divide in cinque fasi :
- Definizione degli obbiettivi = descrivere le caratteristiche del fenomeno, verificare le ipotesi, esplorare le relazioni tra i vari aspetti del fenomeno etc.
- Raccolta e organizzazione dei dati.
- Analisi dei dati ed elaborazione metodologica.
- Presentazione e interpretazione dei dati.
- Utilizzo dei risultati dell’indagine. CENSIMENTO = indagine su tutta la popolazione (Attualmente il censimento è fatto su una parte campionaria ma è necessario poter generalizzare) CAMPIONE = porzione di popolazione Tutte le volte che gli individui vengono selezionati senza variare le condizioni, l’indagine viene distorta. Anche se facciamo un indagine volontaria distorgo la valutazione perchè applico un’autovalutazione. Può esserci anche un errore non campionario ma questo errore può essere tenuto sotto controllo. Ex. Mancate risposte, risposte date sbagliate etc. STATISTICA DESCRITTIVA INFERENZA STATISTICA Comprende i dati statistici elementari ottenuti grazie la sintesi numerica, le tabelle, i grafici etc. I risultati vengono descritti senza fare nessuna confusione generale sulla popolazione. I tempi sono più lunghi rispetto all’inferenza statistica ma i risultati sono più sicuri. Ex. Vengono esaminati 50 studenti e il risultato riguarda solo loro. Vengono ricavati dei dati osservando un campione e vengono poi generalizzati sull’intera popolazione. I tempi di indagine vengono ridotti ma i risultati non saranno mai certi. Osservando un campione non si potrà conoscere con esattezza l’intero. Per essere più precisi nell’indagine deve subentrare il caso, cioè tutti devono avere la probabilità di essere selezionati in modo da non distruggere la selezione. Anche in questo caso si è soggetto comunque ad errori di campionamento. Particolare —> generale PARAMETRO Ex. Risultati delle elezioni Obbiettivo conoscitivo. Dato esteso alla generalità. Dato reale (il campione non può equivalergli perfettamente). Percentuale campionaria su cui viene effettuata l’indagine vera e propria.
Più allargo la porzione su cui eseguo l’indagine più la stima assomiglierà al parametro ma non posso allargare troppo perchè altrimenti i tempi sarebbero eccessivamente lunghi e non sarebbe più una stima. Ex. ERRORE CAMPIONARIO = il parametro è diverso dalla stima per via delle selezione casuale. (a seconda del campione che seleziono ho stime diverse.) qualitative sconnesse le qualità non possono essere messi in ordine di preferenza ordinarie possono essere messi in ordine di preferenza ex soddisfazione VARIABILI VARIABILITÀ CAMPIONARIA VARIABILITÀ NATURALE Può essere arginata selezionando bene il proprio campione ma non può essere eliminata. Vari individui avranno sempre caratteristiche diverse che mutano con il tempo quindi questa variabilità non può essere né arginata né eliminata.
STIMA
Ex. Proiezione elettorale A B Spesa mensile media A = spesa media mensile delle 25 milioni di famiglie italiane (parametro) B = spesa media mensile delle 20 mila famiglie analizzate (stima) Quantitative Discrete = conteggio (n° naturali) Continue = valori intermedi e mutabili (n° reali) Qualitative Sconnesse = le qualità non possono essere Ordinarie = possono essere messe in ordine di preferenza (ex. soddisfazione)
Posso analizzare tutta la matrice o anche un singolo sottogruppo di mio interesse (ex. Ragazzi tra i 20 e i 19 anni) e si parlerà comunque di frequenza assoluta e relativa anche se entrambe riferite ad un sottogruppo. Distribuzione di frequenza semplice : 3 + 2= 5 —> numerosità complessiva (somma delle unità statistiche della matrice) Si può calcolare anche una frequenza relativa che deriva da quella assoluta Fr = Fa / Nc ex. Fr (M) = 2/5 = 0,4 (40%) Fr (F) = 3/5 = 0,6 (60%) Fr (X) + Fr (Y) = 1 (100%) ex. Fr (M) + Fr (F) = 0,4 + 0,6 = 1 Trattandosi di una distribuzione di frequenza semplice la variabile considerate sempre una. Può essere costruita anche una frequenza cumulata che si divide in assoluta e relativa in base a quella da cui parte (si somma la frequenza considerata a quelle precedenti). 4 F 20 5 M 18 ID Genere Anni Modalità di genere Frequenza assoluta M 2 F 3 Dispositivo (variabile) F.A F.R Computer 4 0, Smartphone 4 0, Tablet 2 0, Vari 2 0, Giudizio F.A F.R F.C.A F.C.R Insoddisfatto 3 0,25 3 0, Abbastanza insoddisfatto 4 0,33 7 0, Abbastanza soddisfatto 2 0,17 9 0, Soddisfatto 3 0,25 12 1 Totale 12 1
É possibile fare una tabella di distribuzione di frequenza unitaria anche con variabili quantitative se non ci sono troppi dati altrimenti sarebbe inutile. Per questo motivo non si può fare con le variabili quantitative continue altrimenti che non vengono divise in classi. Ex. Variabile quantitativa discreta : Ex. Variabile quantitativa continua : Se sono interessata più ad una fascia che ad un'altra posso suddividerla ulteriormente in classi più piccole, anche se questo complica i calcoli. AMPIEZZA = differenza tra estremo superiore e inferiore Ex. 10 - 5 = 5 15 - 10 = 5. ( in questo caso le classi sono equiampie ) ( L’ultima classe non può essere aperta quindi se voglio utilizzare il tasto devo ipotizzare un massimo) Schema : N. Esami F.A 1 1 2 2 3 1 4 3 5 1 6 4 Ore di studio F.A 5 -/ 10 5 10 -/ 15 2 15 -/ 20 4 20 -/ 25 1 Ore di lezione F.A F.R F.C.A F.C.R 0 -/ 5 1 0,08 1 0, 5 -/ 10 3 0,25 4 0, 10 -/ 20 4 0,33 8 0, 20 -/ 30 3 0,25 11 0, 30 —> 1 0,08 12 1
- DIAGRAMMA AREALE : l'area di ciascun settore circolare deve essere proporzionale alla frequenza relativa a quell'aspetto della variabile Questo tipo di grafico è più efficace se le modalità della variabile sono poche. Le variabili quantitative sono associate a due tipologie di grafici : Giudizio n F Insoddisfatto 3 0, Abbastanza insoddisfatto 4 0, Abbastanza soddisfatto 2 0, soddisfatto 3 0, 0 1 2 3 4 insoddisfatto abb. insoddisfatto abb. soddisfatto soddisfatto giudizio
insoddisfatto abb. soddisfatto abb.insoddisfatto soddisfatto
- ISTOGRAMMA : Si hanno degli intervalli di valori (classi) e in corrispondenza di esse viene rappresentato un rettangolo con altezza proporzionale alla loro frequenza ≃ Diagramma a barre (nell'istogramma però essendo le classi continue rettangoli sono attaccati). Le classi possono essere sia di stessa ampiezza siete ampiezza diversa. Frequenza può essere sia assoluta che relativa e può, in alternativa, essere rappresentata la densità di frequenza. Ampiezza = 10 - 5 = 5 etc. Densità di frequenza = n / d = 5 / 5 = 1 ; 2 / 5 = 0,4 etc. —> Rilevante soprattutto quando le classi hanno ampiezza diversa. n = a x d (l’area di ciascun rettangolo è la sua frequenza assoluta) Istogramma ci permette di capire se siamo davanti ad una distribuzione di frequenza simmetrica o asimmetrica. Distribuzione simmetrica con forma a campana Il comportamento dell'istogramma è speculare a destra sinistra dell'asse di simmetria. Questa è una situazione con istogramma unimodale simmetrico con un picco centrale che rappresenta la classe in cui abbiamo la massima frequenza. Ore di studio n d 5 -/ 10 5 1 10 -/ 15 2 0, 15 -/ 20 4 0, 20 -/ 25 1 0, 5 10 15 20 25
Misure di tendenza centrale Un primo punto di sintesi può essere fornito organizzando i dati statistici statistici elementari in tabelle o rappresentazioni grafiche. La sintesi è però maggiore se noi calcoliamo delle misure sintetiche che con un unico valore rappresentano un insieme di dati (perdita di informazione). Se prendiamo in considerazione le misure di tendenza centrale, dove viene cercato una misura sintetica rappresentativa del centro della distribuzione, le forme sono tre:
- MEDIA : se si parla di media abbiamo a che fare necessariamente di variabili quantitative. La media aritmetica si divide a sua volta in: media calcolata sulla popolazione e su un campione. La media standard viene effettuata sulle variabili quantitative discrete, per le variabili quantitative continue cambia il procedimento. 𝜇 = (20 + 19 + 24 + 43 + 12) / 5 = 118 / 5 = 23, 4 3 5 1 6 4 Esami n 0 1 2 3 4 0 1,5 3 4,5 6 esami
In statistica la media viene calcolata con dati forniti o con la matrice dei dati o con la distribuzione di frequenza, in entrambi i casi il risultato non cambia ma cambia il metodo per calcolare. Se utilizziamo la matrice di frequenza dobbiamo prima moltiplicare ogni “n” per la variabile considerata poi sommare il tutto e dividere per “N”. 𝜇 = (1x1) + (2 x2) + (3x1) + (4x3) + (5x1) + (6x4) /12 = 49 /11 = 4, Esistono anche alcune proprietà della media :La media equiripartisce l'ammontare complessivo = corrisponde ad un valore ipotetico che se attribuito tutte le unità statistiche corrisponde all'ammontare globale.
- La somma delle differenze di ciascuna delle modalità della variabile e la media è uguale a zero.
- Rispetto a trasformazioni lineari della variabile è possibile non ricalcolare la media ma applicare ad essa la stessa trasformazione.
- La media complessiva di un insieme di valori può essere ottenuta anche come media calcolata su sottogruppi ponderati per dimensione. La media aritmetica ponderata si utilizza se non tutti i dati su cui facciamo la media hanno lo stesso peso (ex. Media ponderata rispetto ai cfu). Per calcolare una media quando abbiamo variabili quantitative continue dobbiamo trovare un punto medio nelle classi. Ex. 0 -/ 5 —> 2,5 perchè : (0+5) / 2
- MEDIANA : La mediana può essere calcolata sia per variabili quantitative sia per variabili qualitative purché i dati siano suscettibili di ordinamento. La mediana è il valore o attributo che occupa il posto centrale nella successione ordinata (centro fisico). Ma di una variabile quantitativa è necessario mettere in ordine crescente i dati. Se il numero di dati è pari si cerca il posto intermedio e si prende il valore precedente e successivo poi si fa la media dei due valori. Ex. 1 2 2 3 4 4 |4 5 6 6 6 6 𝜇 = (4 + 4) / 2 = 4 —> la mediana è 4 Il numero di dati è dispari si seleziona il valore centrale ed esso corrisponde alla mediana. Ex. 1 2 4 4 5 6 7 7 8 9 —> la mediana è 5 Esami n 1 1 2 2 3 1 4 3 5 1 6 4
- VARIANZA : misura delle differenze rispetto alla media aritmetica. (Se si calcola la varianza campionaria dobbiamo dividere per n-1) Piazza a un'unità di misura elevata al quadrato quindi sia necessario confrontarla con la media prima è necessario trasformarla in una deviazione standard.
- DEVIAZIONE STANDARD : In statistica la deviazione standard è un indicatore di dispersione di una distribuzione di valori. È anche detto scarto quadratico medio ed è indicata con la lettera greca sigma σ perchè viene calcolata facendo la radice della varianza. Ex. X = 12, 13, 15, 20 𝜇 = 15 σ2 = (12-15) ^2 (13-15)^2 + (15-15)^2 + (20 -15)^2 = ( -3)^2 + ( -2)^2 + (0 )^2 +(5)^2 = 9+4+0 +25 =
La devianza dalla media è quindi di circa 3 punti. Se abbiamo una distribuzione simmetrica di frequenza osservabile dai grafici che risultano “a campana”, media e varianza possono essere usate per costruire degli intervalli tipici di valori nei quali si aspettiamo ritrovare una certa percentuale di unità statistiche. 68% —> 𝜇 +— σ 95% —> 𝜇 +— 2σ regola empirica della distribuzione normale (a campana) 99,7% —> 𝜇 +— 3σ La varianza e conseguentemente la deviazione standard hanno alcune proprietà:
- Proprietà di linearità della media = Se i singoli dati di una media vengono aumentati di un certo valore la media cambia ma non cambiano le differenze tra i vari dati 𝜇 = (a+bx) = b + b 𝜇 σ2 (a+bx) = b^2 σ2(x)
4. Z-SCORE : Lo Z Score non ha unità di misura, è un punteggio standardizzato che calcola la distanza di ciascun valore dalla media in unità di deviazione standard. Z = (X -𝜇) / σ La proprietà di linearità permette di introdurre una trasformazione nei dati utili per interpretare un insieme di dati tenendo conto delle posizioni relative delle diverse unità statistiche rispetto alla media.Permette di relativizzare la posizione dei singoli all'interno di una distribuzione di frequenza o di poter fare i confronti tra varie distribuzioni di frequenza. Grazie allo Z-score posso vedere se un'unità statistica presenta un'anomalia forte o debole rispetto al valore medio. Z > 0 —> L’unità statistica ha una posizione superiore alla media, il valore Z indica di quanto. Z < 0 —> ta statistica ha una posizione inferiore alla media, il valore Z indica di quanto. La media di Z è sempre nulla (𝜇 =0); la varianza è unitaria (σ2 = 1).
- PERCENTILI E QUARTILI : Forniscono una misura di posizione e sono una misura robusta. Per calcolare i percentile si deve dividere la successione in 100 parti per i quartili si deve dividere la successione in quattro parti. Ex. 1 - 2 - 2 -3 - 4 - 4- 4 - 5 - 6 - 6 - 6 - 6. Q1 = (2+3) / 2 = 2, Q2 = Me = (4+4) / 2 = 4 Q3 = (6+6) / 2 = 6 L’intervallo o scarto interquartile è la differenza tra il terzo il primo quartile, indica la differenza tra i due valori che limitano il 50% dei casi centrali della successione e valuta la dispersione solo del centro della successione. IQR = Q3 - Q IQR deve essere maggiore o uguale a 0, quando è zero non vuol dire che non c'è variabilità nella successione ma solo nella parte centrale. Con i valori : min, Q1 , Me, Q3, max; è possibile creare un box plot. Il box plot può essere simmetrico se al centro presenta due rettangoli uguali, altrimenti può presentare una simmetria positiva (rettangolo di destra più grande) o negativa (rettangolo di sinistra più grande).
- Più r si avvicina a zero, più la correlazione lineare è debole.
- Un valore r positivo è indice di una correlazione positiva, in cui i valori delle due variabili tendono ad aumentare in parallelo.
- Un valore r negativo è indice di una correlazione negativa, in cui il valore di una variabile tende ad aumentare quando l'altra diminuisce.
- I valori 1 e -1 rappresentano le correlazioni "perfette", una positiva e l'altra negativa. Due variabili perfettamente correlate mutano insieme a velocità fissa. In questo caso, si dice che hanno una relazione lineare perché, se inseriti in un grafico a dispersione, tutti i punti di dati possono essere collegati tra loro tramite una linea retta. Casi limite : P=1 (si hanno tutti i punti su una retta che punta in alto); β0 = 𝜇y (si hanno tutti i punti su una retta perpendicolare all’asse di Y. CORRELAZIONE SPURIA = Correlazione che sembra esserci tra due variabili ma non c'è o è diversa se ne inserisco una terza. Il criterio dei minimi quadrati ordinari permette di minimizzare gli errori al quadrato e di trovare una funzione che minimizza la somma dei quadrati delle distanze tra i dati osservati e quelli della curva che rappresenta la funzione stessa. La retta di regressione è il modello utilizzato in statistica per studiare con una retta la relazione tra due variabili. Yi = β0 + β1 xi = (𝜇y - β 1 𝜇x) + (p σy / σx * xi ) Ex. Yi = 2,81 + 0,09 xi (il primo dato si riferisce al numero e di esami sostenuti da chi non studia il secondo a quanto aumenta il numero di esami per ogni ora di studio).
- DISTRIBUZIONI DI FREQUENZA DOPPIE : è possibile farla solo tra variabili qualitative ed è necessario mantenere la correlazione tra le variabili e l'individuo che ha espresso la preferenza. I valori in colonna e quelli in riga
Totali di riga
Totali di colonna
Nelle celle sono inserite le frequenze assolute congiunte. Variabile Y Variabile X
non devono necessariamente essere dello stesso numero. Oltre alle frequenze assolute è possibile costruire delle frequenze relative di due tipi:
- Congiunte : si divide il numero nella cella (n) per il totale (N)
- Condizionate : si divide il numero nella cella per la il totale di riga (Y condizionata a X) o di colonna (X condizionata a Y). Le variabili X e Y si dicono statisticamente indipendenti quando le distribuzioni relative di Y condizionate a X sono tutte uguali fra loro (righe) e viceversa nel caso di X condizionata condizionata Y. La rappresentazione grafica di una tabella di distribuzione di frequenza doppia è il “diagramma a barre affiancate” Per valutare l'indipendenza statistica senza creare le distribuzioni relative condizionate esiste la “condizione generale di indipendenza” , se non c'è indipendenza questa formula non deve valere per almeno una cella. n ij = (ni * nj) / N
- n ij / N —> frequenza relativa congiunta
- n ij / n. —> frequenza condizionata Y\X
- n ij / n.j —> frequenza condizionata X\Y Le situazioni limite che si possono incontrare sono: X e Y statisticamente indipendenti oppure una perfetta dipendenza di X da Y o di Y da X (l’unico caso in cui sono entrambe dipendenti e nelle tabelle quadrate). È la variabile con meno modalità che può dipendere perfettamente dall’altra.
Le procedure inferenziali estendono le statistiche campionarie alla popolazione e per questo sono soggette ad errore; l’errore non si può eliminare ma si può ridurre selezionando il campione in maniera adeguata. Campione Nel campione probabilistico deve essere nota la possibilità di entrare a far parte del campione per ciascuna unità della popolazione; dato un disegno di campionamento è nota la probabilità di inclusione associata ad un campione di n.elettori. ERRORE DI CAMPIONAMENTO : parametro — stima (l’unico caso in cui può essere quantificato sono le proiezioni elettorali) PROBABILITÁ : Frequenza di lungo periodo con cui il risultato è osservabile, è la misura della possibilità che accada qualcosa. —> frequenza relativa 0 ≤ P(e) ≥ 1 (lo 0 corrisponde ad un evento impossibile mentre l’1 ad un evento certo). ESPERIMENTO CASUALE : Azioni che hanno un esito incerto ma prevedibile in base a delle regolarità di comportamento osservabili nel tempo. Legge dei grandi numeri stabilisce che all'aumentare del numero di ripetizioni di un esperimento casuale la frequenza relativa con cui si osserva un certo esito è sempre più vicina alla sua probabilità. Ex. Dal lancio di una moneta può uscire testa o croce, inizialmente i numeri sono altalenanti ma nel lungo tempo si vedrà il 50 % e 50%. Si parla di probabilità assegnate ad eventi (insieme di possibili esiti di un esperimento). Lo spazio campionario invece è l'insieme di tutti i possibili risultati di un esperimento. Per assegnare una misura di probabilità si può utilizzare: il metodo empirico (frequenza relativa osservata su un numero finito di esperimenti) o il metodo classico (rapporto tra un numero di casi favorevoli a un certo evento il numero di casi possibili). ESPERIMeNTO : Selezione di un campione da una popolazione. Data la composizione della popolazione si vuole assegnare una probabilità a eventi (modalità di variabili statistiche a cui siamo interessati). Ex. Inattivi Occupati Disoccupati M 10 50 20 80 F 30 60 10 100 40 110 30 180 Probabilistico (^) Selezione casuale delle unità Non probabilistico (^) Campione autoselezionato o di comodo
P (M) = 80 / 180 = 0,
P (F) = 100 /180 = 0,
Calcoliamo così la probabilità marginale di genere; probabilità che estraendo a caso un individuo questo sia maschio o femmina. P (forza lavoro) = (110+30) / 180 = 0,78. —> somma di eventi disgiunti P (MoF) = (10+50+20+60) / 180 = 0,78 —-> regola della somma (riguarda due eventi qualsiasi non disgiunti) P(EoF) = P(E) + P(F) —> somma di eventi sigiunti
- P(EoF) = Probabilità della somma logica P(EoF) = P(E) + P(F) - P(EeF) (regola della somma logica)
- P(EeF) = Probabilità congiunta o all’inserzione P(EeF) = P(EeF) / P(F)
- P(E|F) = Probabilità condizionata P(E|F)= P(E|F)P(F) o P(F|EP(F)** (regola del prodotto) Prendo dalla struttura nota della popolazione le probabilità di estrarre un campione con certe caratteristiche si ricavano sfruttando la frequenza relativa. Questo è possibile perché le variabili in gioco hanno un numero preciso di modalità. Spesso in realtà le variabili statistiche lette in ambito probabilistico sono variabili casuali; assumono cioè una determinata modalità per effetto del caso. Per effetto del caso noi estrarremo una determinata unità statistica le cui modalità possono variare in funzione dell'unità che abbiamo effettivamente estratto. VARIABILI CASUALI
- DISTRIBUZIONE DI PROBABILITÀ Per costruire la distribuzione di frequenza si considera solo X e P(X). Prima è necessario fare una tabella di distribuzione di una variabile discreta che ha tutte le caratteristiche di una distribuzione di frequenza relativa. X n P(X) 0 18 0, 1 72 0, 2 54 0, 3 36 0, Discrete = variabili quantitative discrete e variabili qualitative (numero finito di valori assumibili). Continue =Variabili quantitative continue (numero infinito di possibili modalità).