


















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di tutto il corso di statistica sociale + esercizi di Excel svolti e spiegati
Tipologia: Appunti
1 / 26
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



















1 LEZIONE, 27 Settembre Cosa studieremo? -Statistica descrittiva univariata (uno per volta: indici, grafici, tabelle). -Statistica descrittiva bivariata (due variabili, riguarda lo studio della relazione tra due fenomeni, la relazioni tra due variabili, come uno influenza l’altro o come sono collegate fra loro: x ed y) -Inferenza statistica (insieme di tecniche che mi consente di inferire, estrapolare, i risultati da un campione a tutta una popolazione. Essendo un corso pratico si usa Excel, foglio di calcolo, per inserire dati statistici specifici, (libro: statistica l’arte della scienza e di imparare dai dati, oppure: metodologie per le scienze economiche e sociali) la statistica trasforma i dati in informazione, diversa dalla matematica che però è uno strumento della statistica, noi usiamo l’aritmetica (nel portaleunipa.it nella sezione didattica ci sono i file didattici nell’insegnamento “Statistica sociale, Daria Mendola”, usare anche elearning). Esame: Prova intermedia (7 a 11 novembre) su elearning + prova finale: test e orale fatte nello stesso giorno in base a quanti lo fanno, altrimenti si calendarizza (se ci si presenta alla prova finale nei tre appelli subito alla fine del corso il test della prova finale sarà più leggero); il test intermedio e finale contano il 40% del voto, l’orale il 60 %). Cosa sono i dati, come si generano e le fonti. La matrice dei dati è la forma standard di come si organizzano i dati statistici. Il dato statistico è un’informazione presa da un collettivo, la popolazione per esempio, e il modo in cui lo raccogliamo è cruciale perché ci consente di passare al concetto di variabile per mezzo della misura: dal concetto attraverso la misura si genera la variabile (il modo schematizzato con cui registro l’info, può essere una variabile dicotomica, quindi risposta sì o no, oppure in maniera più articolata con una variabile numerica o quantitativa). Per ogni concetto si definisce una misura secondo la scala: scala nominale quando i valori sono qualitativi e sconnessi perché non hanno un ordinamento (per ex: ordinare secondo il colore di capelli, non c’è un ordine nella classifica); scala ordinale nel caso dell’istruzione, una qualifica precede l’altra, è comunque un ordine qualitativo ma ha un ordinamento intrinseco. Queste due scale per quanto riguarda l’analisi qualitativa. Per l’analisi quantitativa si usano: scala per intervallo e scala per rapporti , è importante il numero 0 e il modo in cui varia nelle scale, se lo 0 è naturale/assoluto c’è un’assenza di ciò che misuro, significa che non c’è il dato quindi la variabile si misura nella scala per rapporto ; se lo 0 è convenzionale/relativo , come la temperatura, quindi relativo, si misura con la scala a intervallo. La scala ad intervalli è così chiamata perché posso misurare la distanza, quindi l’intervallo, fra le variabili, che ha senso; il rapporto non ha significato invece, per ex: l’anno 0 non è assenza di tempo rispetto all’anno 1 ma solo un punto convenzionale. Altra distinzione è fra le variabili discrete e variabili continue. Discrete : possono assumere un numero tale che fra una modalità e l’altra non sono possibili altri valori (per ex: o ho 1 figlio o 2, ecc. non posso avere mezzo figlio o un quarto di figlio, e così via). Continue : può assumere tutti gli infiniti numeri fra due valori considerati (peso, altezza, ecc… sono variabili continue). Come si sistemano i dati? Secondo la matrice dei dati: modo di organizzare le informazioni su base statistica.
2 LEZIONE, 4 Ottobre Distribuzione di un carattere e sua rappresentazione tabellare : guardando i soli dati non capiamo cosa ci dicono, abbiamo bisogno di strumenti per sintetizzare, capire: le rappresentazioni tabellari cioè organizzare dati in una tabella compatta, i grafici e gli indici di sintesi, queste 3 cose spesso vanno fatte tutte insieme. In particolare, parliamo di distribuzioni unitarie e di frequenza , di frequenze relative , percentuali e cumulate e delle funzioni di Excel. Abbiamo diversi tipi di variabili, quindi un fenomeno può corrispondere a più tipi di variabili. Le distribuzioni statistiche descrivono il modo in cui uno o più caratteri si manifestano, o distribuiscono in un collettivo, il collettivo è l’insieme delle unità statistiche, su ogni unità statistica si possono misurare più fenomeni. Il modo in cui questo carattere si articola costituisce la distribuzione statistica; se consideriamo due caratteri assieme parleremo di distribuzione doppia , più di due multipla , quando si elencano le modalità di un carattere si parla di distribuzione unitaria. Distribuzione di frequenza : a sinistra la variabile, a destra la frequenza, perché si chiama si frequenza? Perché sono il numero in cui il carattere si è verificato, le modalità sono i valori che la variabile può assumere nel collettivo. Distribuzione di frequenza assoluta : N maiuscolo numero di volte in cui la modalità di un carattere viene osservata in un collettivo. X= variabile, X1,X2,X3...= modalità (il sesso), in questo caso X1 maschio, X2 femmina, in generale Xj per indicare una generica modalità, con n minuscolo e il pedice j indichiamo la frequenza assoluta, con X1 avrò n1, con X2 avrò n2 e così via. N maiuscolo è n1+n2= 20 (in base ai dati da noi presi in esempio in cui n1 è 8 maschi e n2 è femmine. Frequenza relativa : anziché fare la somma fra n potrei voler dire che il 40 % sono maschi e il 60% femmine, trasformale le frequenze significa prima costruire le frequenze relative e poi le percentuali facendo il rapporto della frequenza relativa ( fj ) e la frequenza assoluta: in questo caso 8/20=0,40 e 12/20= 0, Tabella di distribuzione di frequenza : associamo ad ogni modalità la sua frequenza assoluta; la frequenza relativa che indichiamo con fj è il rapporto fra nj (frequenza assoluta)/N. Frequenza cumulata: sommare le frequenze assolute e relative calcolate, la frequenza cumulata ha senso solo se la variabile è almeno ordinale. TABELLA DELLA RESIDENZA: la variabile è il comune di residenza ed è una variabile sconnessa/nominale con le frequenze, l’altra è sui titoli di studio e sono variabili ordinali quindi in ordine e possono essere cumulate. Possiamo cumulare anche le frequenze relative non solo quelle assolute. Distribuzioni in classi di valori : si raggruppano le modalità in classi di valori, sono identificate in valore minimo e valore massimo, sono valori contigui (TABELLA ETA); due criteri nelle modalità esaustività e la non sovrapponibilità. La densità di frequenza è il rapporto tra frequenza assoluta e l’ampiezza della classe, si indica con hi = ni/ai (TABELLA CLASSE). Tutte le volte che in statistica rapportiamo cose è per renderle comparabili 3 LEZIONE 5 ottobre LAVORO SUL FOGLIO GREZZO: formato csv: formato che viene letto da tutti i software statistici, occupa poca memoria, possono esserci segni di punteggiatura, trattini ecc., concentrandoci su una riga ci sono tutte le info staccate da una virgola, noi dobbiamo farle
grafici. Misure di sintesi : sono le medie , che esprimono valutazioni su intensità media di un fenomeno o su una posizione, noi faremo moda , mediana , percentili e come si fanno con Excel. LE MEDIE : misure che esprimono attraverso un solo valore “rappresentativo” la variabile di interesse (qual è il dato prevalente di una distribuzione o qual è il valore centrale o il suo baricentro), è un modo per sintetizzare dei dati, ma esistono altre medie e rispondono a esigenze diverse, in particolare ci sono tante medie perché cambiano le variabili -non posso fare le medie sul comune di residenza- oppure perché non è la media l’informazione richiesta (se andiamo al ristorante e prendiamo tutti una pizza tranne uno con gli spaghetti all’aragosta non paghiamo dividendo il conto perché una persona ha speso più fra tutti) se c’è troppa differenza fra i dati non è consigliata la media. Una distinzione importante è quella fra medie di posizione -che non richiedono operazioni algebriche- e analitiche - che vanno calcolate con operazioni algebriche sulle modalità e richiedono dei caratteri quantitativi-. La moda è una media di posizione , è la modalità più frequente (tabella del genere è di tipo dicotomica); la individuo osservando le colonne di frequenza. La moda, dal momento che non richiede calcolo, può essere sempre individuata, che sia quantitativa o qualitativa, bisogna guardare la densità di frequenza , non la frequenza assoluta (come in tutti gli altri casi), quando cerchiamo la moda nelle classi di valori. C’è la moda su Excel ma solo per valori quantitativi. La moda fornisce informazioni solo su una caratteristica e non sulla intera distribuzione, dipende solo dalle frequenze e acquista validità solo se vi è una prevalenza di una modalità/intensità; si può applicare su tutti i tipi di carattere. LA MEDIANA : altro indice di posizione che si identifica è la modalità della distribuzione di una variabile che sia almeno ordinabile che sta al centro, è preceduta e seguita dallo stesso numero di termini (quando è dispari è facile identificare la parte centrale, ma quando sono pari bisogna raggruppare le due mediane centrali quindi prese come se fossero un unico dato). Il calcolo della mediana è possibile solo per caratteri quantitativi, o codificati come quantitativi, o qualitativi ordinabili (titoli di studio). LAVORO SU EXCEL : prendiamo il file ripulito, mettiamo in ordine, scegliamo la variabile età e mettiamola nella tabella pivot, nella cella di destra denominiamone una con scritto “classi d’età” e raggruppiamo da 19-21 (mettendo prima un apostrofo così che excel lo legga) così da formare la prima classe d’età, così via con le altre. Nella terza cella mettiamo 26 + (significa “ed oltre”) non ci interessa l’altro dato ma ad excel bisogna dirlo dove si chiude quindi creiamo due colonne accanto in cui scriviamo: l’estremo superiore e l’estremo inferiore delle classi calcolate. Adesso copiamo le età dalla cella B del “Foglio di lavoro ripulito” nel foglio 1 all’interno di una cella libera; nella cella H selezioniamo digitiamo “=FREQUENZA” e selezioniamo tutta la cella delle età, dopo pigiamo nella tastiera “; oppure ,” (in base a cosa richiede il nostro dispositivo) e selezioniamo tutti gli estremi superiori, premiamo invio e così troviamo le frequenze assolute delle classi dichiarate. Adesso facciamo le frequenze cumulate, relative e relative percentuali (Virginia a casa fare minuti di spostamento che non hai fatto in aula). Calcoliamo la media: =MEDIA( si seleziona la colonna che contiene i dati su cui voglio la media e si fa invio Calcoliamo la mediana: =MEDIANA (selezioniamo la colonna e invio
Calcoliamo la moda: =MODA ( selezioniamo la colonna dei dati e invio Quindi moda e mediana sono valori di posizione, la media aritmetica è l’unica che richiede il calcolo. Da fare per casa il numero medio, modale e mediano dei gruppi familiari , della variabile conforto, della variabile quanto mi è mancata l’interazione tra colleghi e della variabile quanto molto di ciò che mi accade è dovuto al caso. La mediana presenta un problema: il comando mediana excel funziona solo sui numeri perché non è un software statistico allora o si ricodifica la variabile in formato numerico si incolla la colonna da un’altra parte e metto trova e sostituisci oppure guardo le frequenze relative cumulate percentuali e vedo dove cade il 50% (vedere foglio2 con i cfu). 5 LEZIONE, 18 ottobre Dopo la moda, la mediana e la media aritmetica, andiamo a trovare i percentili. Cosa sono, a cosa servono, come si calcola e cosa significa il numero trovato come risultato: queste sono le domande a cui dobbiamo rispondere. Quantili : la mediana fa parte di questa macrocategoria di medie di posizione, nello specifico poi ci sono: quartili, decili, quintili e percentili, dividono in 4, 5, 10… parti uguali, le divide in gruppi di numerosità uguale, partendo dalla mediana dividono due parti, se divido in quartili la distribuzione è divisa in 4 parti, se ho 40 persone i quartili sono gruppi che formano 4 gruppi da 10, è costante il numero di persone dentro ogni gruppo dopo aver ordinato. I percentili fanno la stessa cosa dividendo in 100 però per individuarli si segue una strategia analoga a quella usata per il calcolo della mediana. Il comando excel è INC.QUARTILE (A2:A100;1) -1 è il primo quartile, 2 è il secondo quartile, ecc.- (copiare foto dei quartili sulla lavagna, i quartili staccano gruppi di uguale numerosità, la mediana sta nel secondo quartile perché lascia dietro e avanti il 50%). LAVORO SU EXCEL : iniziamo facendo le sostituzioni in quelle variabili non quantitative andando a sostituire la variabile (acqua) con un numero (1): andiamo in home, trova e sostituisci e sostituiamo tutto, il lavoro va fatto per ogni variabile. Adesso clicchiamo due volte nella cella conteggio dell’interazione colleghi (che ho già), “mostra valori come” e scegliamo percentuale del totale complessivo, ovvero le relative percentuali, posso sempre passare da una visualizzazione all’altra. Adeso faccio le cumulate percentuali. Un modo alternativo nelle variabili qualitative è costruire le cumulate percentuali e capire dove cade il 50% in modo da trovare la mediana che, su excel, con questo tipo di variabili, non può essere calcolata; in questo caso è 4 la mediana perché nel 4 ricade il 60,78% e dietro si lascia il 50%. Lavoriamo sul foglio in cui inseriamo il dato “ molto di quello che mi accade è dovuto al caso ” corretto però perché c’erano prima “Sì sempre” e “si sempre”, mettiamo “ordina e filtra”, selezioniamo solo queste due variabili e sostituiamo entrambi i termini con “Sempre” e cosi creiamo una tabella pivot con i dati corretti. Diamo i numeri in base all’ordinamento delle variabili, creiamo una cella di codifica numerica. Adesso selezioniamo la colonna, “lente di ingrandimento e sostituisci”, per trovare e sostituire il valore “trova sempre” e sostituiamo con la codifica data “1” tutto, le variabili saranno numeriche una volta fatto il lavoro su ognuna. A questo punto, avendo tutti i dati numerici, posso trovare mediana, media e moda. Adesso prendiamo il voto del diploma, lo mettiamo in un foglio nuovo e calcoliamo il
rispetto al minimo che io trovo). La media aritmetica ha sempre l’unità di misura dei dati. Relazione tra tipo di variabile e tipo di media : v. qualitativa sconnessa (moda), qualitativa ordinale (moda, percentili, media aritmetica), quantitativa discreta, quantitativa continua. Scelta tra media aritmetica e mediana: la media aritmetica è sensibile ai valori estremi della distribuzione perché nella formula inserisco tutti valori della variabile; la mediana non è sensibile ai valori estremi perché si focalizza sul centro della distribuzione. Quindi se la tua distribuzione ha outlier (un valore estremo, lontano dagli altri) presta attenzione. La scelta di fare la mediana e non la media dipende dall’osservazione della distribuzione. VARIABILITA’ : un indice di variabilità fa 0 quando c’è perfetta omogeneità cioè se la misurazione è la stessa, non esiste una variabilità negativa. Può esserci un modo attraverso gli indici che ci dicono quanto una variabile è vicina o distante alla media. La variabilità esprime la tendenza delle unità di un collettivo ad esprimere modalità diverse del carattere; un indice di variabilità deve soddisfare due requisiti : deve assumere il valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere; deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità. Per un carattere quantitativo le principali misure sono: campo di variazione ( range ), la differenza interquartile (box-plot), indici basati sullo scostamento della media ( deviazione standard e coefficiente di variazione ), la concentrazione (ma noi non lo faremo). Intervalli di variabilità-disuguaglianza : il range o campo di variazione tiene conto della distanza che c’è tra il più alto valore osservato e il più piccolo valore osservato, tra il terzo e il primo quartile quindi R=max(x)-min(x). La differenza interquartilica/range interquartile ci fa sottrarre il Q3-Q1 , essendo una misura di disuguaglianza in qualche modo elimino gli estremi della distribuzione quindi la variabilità non tiene conto dei valori estremi. La deviazione standard o scarto quadratico : più i valori sono distanti dalla media più c’è variabilità (guardare formula di sigma minuscolo), più sono vicini minore è la variabilità; scarto quadratico meno perché io misuro lo scarto, al quadrato e divido per la media. Con questa formula misuro quanto i dati sono sparpagliati attorno alla media, fa 0 se e solo se le Xi sono tutte uguali fra loro; il modo per calcolarlo su Excel: =DEV,ST.P(A2:A100). Proprietà della deviazione standard : 0<(o =) sigma<+infinito, è espresso nella stessa unità dei dati, fa zero solo in assenza di variabilità ed è un “minimo”. LAVORO SU EXCEL FOGLIO NUOVO MATRICE : Scrivo le variabili dei prezzi della pizza, applico il totale e poi il range facendo:=MAX(B1:B5) -cioè selezionando le 5 variabili- il tutto sottratto quindi scrivo – (meno) MIN(B1:B5). Dopo calcolo la differenza interquartilica , cioè IQR: =INC.QUARTILE(B1:5;3)- INC.QUARTILE(B2:B6;1). Ora calcoliamo la deviazione standard : facciamo tre colonne, una con (xi- media) ed un con (xi-media)^2 e una con la media aritmetica. Dopo facciamo la sottrazione tra il primo valore, x1, e la media, blocchiamo la media con il dollaro premendo FN ed F4, trasciniamo le celle in modo da avere la somma e come ultimo valore 0 (il procedimento excel è quindi: =B1, cioè la cella in cui ho il prezzo della prima pizza, meno la media selezionata e bloccata con il simbolo del dollaro facendo FN e F4, trasciniamo in verticale le celle e avremo i risultati) così troviamo la (xi-media). Adesso la media al quadrato , procedimento excel: =G2, cioè la media trovata prima, elevata al quadrato, quindi scriviamo ^2, trasciniamo le celle in verticale anche qui e avremo i risultati. Ora dobbiamo trovarci la deviazione standard : in una cella mettiamo: =H8/5, cioè il
risultato della media al quadrato trovato diviso 5, le variabili, e dopo, usando questo risultato in un’altra cella mettiamo =RADQ(J2) cioè facciamo la radice quadrata del risultato ottenuto ed ecco trovata la deviazione standard. Il processo più semplice per trovare la deviazione standard è: =DEV.ST.P(B1:B5) cioè selezionando le variabili, otterremo lo stesso risultato. Cosa fare a casa: calcolare media, moda, mediana, range, differenza interquartile e deviazione standard di: Età anni compiuti, nucleo familiare, numero minuti spostamento. 7 LEZIONE, 25 ottobre La varianza : un indice basato sugli scostamenti dalla media aritmetica, rapporto tra devianza e le osservazioni (vedere formula sigma al quadrato). La devianza : il numeratore della varianza si chiama così, è la somma degli scarti al quadrato (vedere formula di Sigma). La varianza e la devianza standard sono indici che risentono dell’unità di misura e dell’ordine di grandezza dei dati. Il confronto della variabilità tra collettivi diversi o variabili diverse risulta compromesso. Per confrontare la variabilità di due distribuzioni per il carattere X (con media positiva, perché gli indici di variabilità possono avere valori negativi) può essere utilizzato il coefficiente di variazione : CV=sigma/Media aritmetica cioè X MOLTIPLICATO per 100. Quindi il coefficiente di variazione si usa o se le variabili hanno un’unità di misura diversa o se si vogliono confrontare due variabili con la stessa unità di misura con una media molto diversa fra loro. Il concetto di variabilità per caratteri qualitativi : omogeneità e eterogeneità ; la distribuzione di un carattere qualitativo si dice massimamente omogenea quando tutte le unità del collettivo presentano la stessa modalità del carattere. Una distribuzione non omogenea è detta eterogenea ; il massimo livello di variabilità si ottiene nel caso in cui tutte le modalità hanno la stessa frequenza, lo stesso numero di rispondenti. L’indice di eterogeneità di Gini è un indice per il cui calcolo basta ragionare sulle frequenze relative, cioè fj o fi: 1- la sommatoria delle frequenze relative al quadrato, nel caso di assenza di variabilità l’indice assume il valore 0, massima omogeneità (guardare foto formula); assume il suo valore massimo, cioè quando c’è la massima eterogeneità (cioè grande variabilità) ed è k-1/k dove k è il numero di modalità -1 (E1=indice di massima eterogeneità). LAVORO SU EXCEL : calcolo la frequenza relativa, poi la frequenza relativa al quadrato, dopo E1 facendo la differenza tra 1-la somma delle frequenze relative al quadrato, e il massimo teorico di E1 con la formula di k-1/k. Calcolare la eterogeneità assoluta e relativa, quindi sia indice con uno che con il suo massimo teorico per: colonna J (i lavori), colonna D (comune di residenza). 8 LEZIONE, 26 ottobre Rappresentazione grafica di una distribuzione : i vantaggi delle rappresentazioni grafiche sono intanto la visualizzazione immediata dell’andamento del fenomeno efficace “descrizione” dei dati che sono più facilmente memorizzati; poi grazie al grafico in sintesi abbiamo la possibilità di confrontare più distribuzioni; è la forma più divulgativa di dati statistici rispetto a quanto consentito dalla tabella; inoltre ha delle potenzialità investigative , riesce ad evidenziare dei casi “anomali” dovuti ad errori nei dati o a effettivi casi particolari. In un grafico devono sempre essere presenti: titolo , il carattere e le modalità in base a cui
non hanno senso perché ha i decimali e, nei CFU, non serve; quindi, clicchiamo sull’asse x con il tasto destro, “formato asse” e selezioniamo “larghezza bin”, digitiamo “15” e così vedremo i numeri nell’asse x disposti in classi di valori NON decimali da (0-15), (15-30), ... Per fare un grafico temporale, in questo caso, abbiamo utilizzato i dati sui suicidi in Italia dal 2017 al 2021, il procedimento è lo stesso, anche qui NON serve la tabella pivot, dunque, basterà scegliere il grafico idoneo alla variabile -grafico a linee spezzate-. 9 LEZIONE, 2 novembre I caratteri quantitativi discreti modalità con numeri ma collegati all’idea di conteggio vengono rappresentati da grafici ad aste o grafici a segmenti. L’idea è che questo grafico adeguato esprima sulla linea verticale le frequenze assolute, sulla linea orizzontale le modalità, su di esse viene tracciato un segmento alto quanto la frequenza osservata. Su Excel questo grafico non è presente quindi, per avere questa rappresentazione simile, si usa un diagramma a colonne. LAVORO SU EXCEL : facciamo la Pivot del nucleo familiare, inserisci grafico a colonne, ma sappiamo che non è tecnicamente adeguato perché noi abbiamo singoli valori non un insieme di valori come se fosse una variabile continua, quindi si cerca di ridurre il più possibile l’ampiezza delle colonne cliccando tasto destro, formato serie di dati, larghezza spaziatura, mettiamo “500”, più aumenta più le linee si stringono quindi mettiamo il numero più alto possibile per far diventare questa colonna simile al segmento del grafico idoneo. Una distribuzione è simmetrica quando modalità equidistanti dall’asse di simmetria, quindi anche equidistanti dalla mediana/media, hanno la stessa frequenza, altrimenti sarà asimmetrica. Abbiamo simmetria positiva -in cui scende la frequenza quando sale la x- e negativa -quando invece al crescere della x cresce la frequenza-. Se la distribuzione è simmetrica media e mediana coincidono, hanno esattamente lo stesso valore. La distribuzione unimodale si dice simmetrica se coincidono media, moda e mediana; ma se la media>mediana>moda è asimmetrica positiva , se media<mediana<moda è asimmetrica negativa , Box-plot o scatola a baffi : si costruisce a partire da alcune medie di posizione, i quartili, ed è particolarmente informativo sulla forma della distribuzione e sulla variabilità e anche media e mediana. Si costruisce: sia in verticale che in orizzontale, la lunghezza è determinata dal valore minimo e massimo osservato nei nostri dati, la scatola parte dal primo quartile e finisce alla fine del terzo. LAVORO SU EXCEL : seleziono la colonna nucleo familiare, inserisci grafico, scelgo box plot-scatola baffi, “ok” e spunta il grafico, lo copiamo e incolliamo in un foglio pulito, mi trovo il primo quartile, il terzo ed il secondo, la media e la mediana che mi coincide con il primo quartile. POST ITINERE 10 LEZIONE, 15 novembre II PARTE: statistica descrittiva bivariata. Cosa faremo: l’associazione di 2 variabili qualitative, sono associate se si presentano frequentemente insieme; distribuzione doppia di frequenza; interdipendenza tra variabili quantitative. Lo studio si divide in: studio osservazionale -in cui si osservano contemporaneamente più soggetti ma NON è possibile studiare la causa di un fenomeno, non c’è ipotesi di dipendenza- e studio sperimentale -svolto nel tempo, è possibile individuare una causa (per
esempio gli studi longitudinali) -. Si parla di associazione quando la relazione interessa le variabili qualitative. Serve a dire se una variabile tende a manifestarsi insieme all'altra, contemporaneamente. Si parla di correlazione quando la relazione interessa le variabili quantitative. Accade la stessa cosa delle variabili qualitative, cambiano gli strumenti. Tipi di relazioni bivariate (sia qualitative che quantitative)
Se due variabili sono indipendenti la frequenza congiunta è sempre uguale a: ASSOCIAZIONE FRA CARATTERI QUALITATIVI SCONNESSI : l’indice di associazione è il CHI- QUADRATO V DI CRAMER : Ci serve per stabilire l’ambiente della relazione cioè se il legame è forte o debole. 12 LEZIONE, 22 novembre Interdipendenza perfetta tra x e y se a ogni modalità dei due caratteri corrisponde una e una sola modalità dell’altro e viceversa. Nella realtà non si ottengono mai ovviamente, ma ci consentono di studiare altre tabelle. Si calcolano le Fteo e su paragonano a quelle oss (osservate), Il quadrato ci serve per evitare che Foss sottratto a Fteo faccia 0 (tranne nel caso in cui Fteo sia uguale a Foss). Lo scarto è rapportato alle F teoriche per capire se Foss meno Fteo è tanto o poco rispetto a quanto ci aspettavamo. La x^2 ci dice se c’è relazione, infatti parliamo di: V è maggiore e uguale a 0 V è minore e uguale a 1; è usato questo, è una sorta di frequenza di trasformazioni di x^2 per avere il privilegio. Se V=0 indipendenza tra x e y Se V=1 perfetta dipendenza o interdipendenza
L’indice del chi quadrato ha a che fare con l’ipotesi di verifica di indipendenza fra due caratteri qualitativi sconnessi; il teorema dimostra che se le variabili x e y sono indipendenti la frequenza è pari alla somma dei totali di riga e colonna fratto n. Questo indice stabilisce se c’è indipendenza o dipendenza fra le variabili, se uguale 0 indipendenza, se maggiore di 0 dipendenza. Il chi quadrato ha delle caratteristiche: non distingue caratteri sconnessi da ordinali, non ci consente di commentare sulla direzione della relazione, possiamo solo dedurre la sua esistenza (tabella 8.15 su reddito familiare e felicità, non ci consente di dire se all’aumentare del reddito aumenta la felicità, possiamo solo rispondere con sì o no alla domanda “C’è associazione?”). Il chi quadro è una misura di interdipendenza, studia l’associazione, quindi, x e y sono interscambiabili e, di conseguenza, è indifferente il modo in cui disporre le modalità e le variabili su righe e colonne. Il chi quadro dipende dalla numerosità del collettivo n e dal numero dei due caratteri H e K, al crescere di n tende ad assumere valori sempre più alti , anche se la forza della relazione è la stessa. Al crescere del numero di modalità tende ad assumere valori sempre più alti , anche se la forza della relazione è la stessa analizzando le distribuzioni condizionate di riga si osserva che la proporzione dei casi nelle celle è identica (lo stesso se costruita in colonna), infatti, la seconda tabella è stata costruita quadruplicando le frequenze congiunte. Con la V di Cramer risolviamo il problema del chi quadro. (Vedere esercizi excel e descrivere passaggi, valutare una relazione tra titolo di studio e livello della partecipazione culturale, vedere video). LAVORO SU EXCEL: relazione tra livello di ansia e residenza, facciamo la tabella Pivot delle due variabili dopo averle copiate e incollate in un foglio pulito, ci ricopiamo sotto la tabella Pivot per praticità e facciamo le somme di colonna e di riga per trovare i totali; poi ci siamo creati la tabella delle frequenze teoriche facendo il prodotto fra i totali di riga e totali di colonna fratto n. cioè il totale complessivo. Poi abbiamo applicato la formula del chi quadrato facendo (osservate-teoriche)^2 /teoriche per ogni modalità; sommando le quantità ottenute abbiamo un chi quadro di 38, il chi quadro va letto in modo binario: o è 0 o non è 0, in questo caso non è zero non c’è dipendenza. Dobbiamo trasformare il chi quadro per ottenere il V di Cramer: la radice del chi quadro fratto il totale complessivo, tutto diviso min (righe -1 *colonne-1) ottenendo 0,34 (debole legame fra le variabili). Relazione tra variabili quantitative: utilizziamo per queste variabili il diagramma di dispersione (scatterplot) se x e y sono scala intervalli o a rapporti; se x aumenta e y aumenta c’è relazione positiva, se aumenta x e diminuisce y c’è una relazione negativa, se x aumenta e y aumenta o diminuisce c’è assenza di relazione. Nell’asse orizzontale sta la x e nell’asse verticale y. Ogni punto è un’unità statistica che si colloca nel piano in base alle variabili. La disposizione dei punti (la nuvola ) mi dice quale associazione è più stretta; se la nuvola è compatta l’associazione è maggiore perché la nuvola è stretta, i punti sono tutti vicini. Le
non sono disposti come li immaginavamo nel primo e terzo quadrante, questo perché questa covarianza è molto bassa anche se positiva. 13 LEZIONE, 23 novembre Si parla di interdipendenza tra variabili quantitative, associazione se sono variabili qualitative. Similitudine e differenza fra varianza e covarianza : le formule sono simili, la varianza però misura la variabilità , la covarianza misura invece la correlazione , la dipendenza e dunque relazione. LA COVARIANZA E I VALORI CHE PUO’ ASSUMERE SONO : Quindi la covarianza varia all’interno di questo intervallo. Più spesso, quindi, si lavora dentro la correlazione che prende il nome di correlazione lineare di Bravais e Pearson si indica con la ro (greco) ed è il rapporto fra la correlazione e il suo massimo. Se ro è uguale a +1 c’è massima correlazione (positiva) , graficamente viene fuori quando rappresentati x e y questi sono perfettamente allineati; per ogni valore x c’è uno e un solo valore di y, questo dal lato dei legami positivi; analogamente anche nei legami negativi se abbiamo ro che è uguale a -1 la covarianza ha raggiunto il suo minimo valore ma comunque c’è massima correlazione (negativa). Sia -1 che 1 rappresentano una stretta relazione. Tuttavia, la correlazione, può assumere tutti i valori fra -1 e 1, se sono vicini a 0 , sia dal lato positivo che negativo, c’è un legame debole ; abbiamo 0 quando una delle due variabili non varia e quindi non c’è correlazione si chiamano variabili incorrelate (la nuvola è molto sparpagliata). I valori vicini a -1 e 1 rappresentano invece un’alta correlazione. Dire che il coefficiente di correlazione è 0 non significa che sono indipendenti ma che non è lineare, dunque, che non formano una retta. LAVORO SU EXCEL : con la matrice dati 3 vediamo le varie correlazioni fra dati ipotizzati, la formula è “ CORRELAZIONE (E: E; F: F)” quindi selezioniamo le due celle di riferimento, intervallate dal “;” e premendo invio troviamo il valore di correlazione. I DATI ANOMALI (OUTLIERS): i dati di correlazione sono molto suscettibili agli outliers. Un outlier si identifica facilmente nel grafico perché si trova a parte; l’outlier può essere o frutto di un errore di dati o un dato reale di una persona che si distacca dalle altre, per questo è sempre opportuno guardare i dati prima di analizzarli, dunque, facciamo un grafico per vedere se ci sono outliers e in caso eliminiamo questo dato e si analizza a parte. Regressione lineare semplice : spesso siamo interessati a legami unidirezionali in cui è la x che impatta la y e non viceversa, x e y entrambe variabili quantitative. Se si trova un legame unidirezionale in cui x aiuta a prevedere y possiamo agire sulla x per migliorare la y, relazioni di questo tipo si chiamano di tipo regressivo e richiede che sia x e y siano quantitative. X è detta variabile esplicativa e la y variabile risposta , x è esplicativa della variabile osservata. In questa relazione studiamo: la relazione funzionale e statistica tra due variabili , cioè se riesco a trovare una funzione matematica che espliciti quanto al variare di x vari y; il modello viene detto di “regressione lineare semplice” perché esprimiamo solo con una retta ( lineare ) e con una sola variabile risposta y ( semplice ), inoltre studiamo i coefficienti di regressione e determinazione. Dobbiamo trovare noi una retta che descriva al meglio possibile una relazione tra x e y, cioè un legame funzionale. Noi cerchiamo una relazione lineare statistica fra x e y. La relazione funzionale è lineare se possiamo scrivere: B 0 è l’ intercetta e B 1 x il coefficiente angolare.
La funzione statistica prevede che ci sia una variabilità rispetto alla matematica, quindi, viene sommato un termine di errore (+epsilon) che differenzia la funzione statistica dalla matematica; gli scostamenti tra ciò che osservo e gli scostamenti della retta si chiamano epsilon , quindi l’errore. In quanto i dati si osservano da un modello ideale teorico, la retta che descrive la relazione tra le due variabili epsilon è= valore osservato y - valore previsto dalla funzione matematica: può essere uno scarto positivo o uno scarto negativo in base al tipo di errore. Se la media degli errori non è 0 gli errori sono sistematici, allora c’è qualcosa che non va, gli errori casuali hanno media pari a 0. Il criterio che scegliamo in statistica per costruire una nuvola che descriva la funzione è il criterio dei minimi quadrati consiste nel ricercare le stime di B 0 e B 1 che rendono minima la somma degli errori al quadrato , questo criterio ci permette di ragionare sull’errore (considerare gli errori al quadrato serve perché se li sommo hanno già media 0, se li prendo al quadrato non si compensano gli errori per eccesso e difetto, questo garantisce che la retta sia la più esatta nei punti). La variabilità di Y si mantiene costante al variare dei valori di X, la variabile di X è una variabile deterministica scarto ed è misurata senza errori. 14 LEZIONE, 30 novembre Stima puntuale dei coefficienti di relazione : Sono dei coefficienti ai minimi quadrati , in pratica la pendenza della retta che soddisfa il criterio dei minimi quadrati è data da cov(x,y)/var(x); il suo segno dipende da quello della covarianza. Il teorema dimostra che la retta minimizza la somma degli errori al quadrato (per errori intendiamo la differenza tra il valore osservato e il valore stimato dal modello, gli errori possono essere positivi e negativi). Tra tutte le infinite rette troviamo la più piccola possibile, la funzione di perdita , questo è l’obiettivo dei minimi quadrati. Significato statistico di B1 : esprime quanto varia in media Y per ogni variazione unitaria di x, significa che, se abbiamo x punteggio al test sull’ansia e y numero di errori commessi al test, stimiamo che all’aumentare di un punto del livello d’ansia, cioè di una variazione unitaria di x, ci aspettiamo in media che si commettano 2,4 errori in più nel test sull’attenzione. LAVORO EXCEL : copiamo le celle attaccamento well being in un’altra pagina, facciamo la correlazione con la formula fatta “CORRELAZIONE” e così abbiamo la misura di interdipendenza, in questo caso possiamo pensare sia una dipendenza di attaccamento da well being che l’opposto, troviamo la covarianza tra X e Y facendo la formula “COVARIANZA P.” selezionando le due celle di riferimento e poi premendo “invio”, troviamo in seguito la varianza di X facendo “VARIANZA P.” e selezionando la cella della variabile X, troviamo la media sia delle X che delle Y sempre con la solita formula “MEDIA” e selezioniamo prima la X poi le Y; fatto questo troviamo B1 facendo
Si può dimostrare che il coefficiente di determinazione corrisponde al quadrato del coefficiente di correlazione lineare: LAVORO SU EXCEL : facciamo il quadrato del coefficiente di correlazione trovato, oppure, clicchiamo nel grafico sui punti con il tasto destro, “aggiungi linea di tendenza”, spuntiamo la sezione con scritto “visualizza il valore con R quadro”. 15 LEZIONE, 1 dicembre Rango : numero che esprime una posizione in una graduatoria, una variabile ordinale è sempre trasformabile in un rango; il rango può essere assegnato in forma decrescente o in forma crescente dipende da come viene più comodo leggere i dati. La misura di Spearman ha a che fare con il confronto di graduatorie per capire se le due variabili sono o meno associate , se due variabili sono correlate ci aspettiamo gli stessi risultati, se c’è correlazione ma di tipo inversamente proporzionale le graduatorie delle variabili sarebbero opposte (chi è primo in una è ultimo nell’altra, chi è secondo è penultimo e così via). L’indice di Spearman si basa sulle differenze tra i ranghi della i-esima unità e di (La differenza la chiamiamo d con i pedice): l’indice fa 1 quando sono perfettamente identiche, -1 quando sono perfettamente discordanti l’indice fa 0 quando non c’è alcuna associazione. Quando due o più valori di X o di Y sono identici e pertanto hanno lo stesso rango, si può procedere in due modi: attribuendo alle unità appaiate un RANGO MEDIO , pari alla media delle loro posizioni ipotetiche; oppure, attribuendo alle unità lo STESSO RANGO e poi alla unità successiva il rango che effettivamente le compete. LAVORO SU EXCEL : file updating e shifting, facciamo l’indice di Spearman trasformiamo le variabili in ranghi, facciamo il rango medio di X “RANGO.MEDIA” e selezioniamo il primo valore della X, il riferimento cioè dal primo valore di X all’ultimo valore di X (tutta la della variabile X) e poi assegniamo l’ordine “0”, adesso facciamo la stessa cosa per trovare il rango della Y. Dopodiché troviamo la differenza tra i ranghi facendo la sottrazione fra i ranghi X e i ranghi Y; troviamo le differenze fra ranghi al quadrato elevando i risultati della differenza fra ranghi precedentemente ottenuti alla seconda. Ora troviamo il numeratore della nostra formula facendo “
tra il numeratore e il denominatore trovati”. 16 LEZIONE, 6 dicembre Tre snodi chiave: descrivere=generalizzare, quello che osservo= quello che rappresenta, quello che è= quello che può essere. L’inferenza statistica : insieme di tecniche che ci consente, sotto precise ipotesi e condizioni, di fare inferenze su un campione della popolazione, alla intera popolazione; consente di tenere conto della variabilità del fenomeno di un interesse nella popolazione ma anche di quantificare la fiducia che vogliamo/possiamo accordare alle informazioni desunte dal campione. Si fa, dunque, inferenza quando si opera, sotto condizioni statistiche, ergo scientifiche, una estensione dal particolare al generale, dalla parte al tutto. Le generalizzazioni però non sono certe ma soggette ad incertezza , ad errore… ecco perché la facciamo in termini probabilistici. Concetti primitivi nella probabilità: la prova (è un esperimento che ha due o più possibili risultati), l’evento (si intende uno dei possibili risultati della prova), la probabilità (è la misura del grado di fiducia sul verificarsi di un evento). Probabilità: grado di fiducia relativo al verificarsi un evento. L’esperimento campionario : si dice campione un aggregato di unità statistiche appartenenti ad una certa popolazione e selezionate mediante un esperimento di un campionario (generalmente collegato ad una procedura di randomizzazione), solo possibile quando la popolazione è virtualmente infinita. Spazio campionario : l’insieme di tutti i possibili eventi elementari viene chiamato spazio campionario indicato dal simbolo omega in maiuscolo ( Ω ). Tipi di eventi: rappresentati dai diagrammi di Eulero Verne, gli eventi si indicano con le lettere maiuscole dell’alfabeto.