






















































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti delle lezioni di statistica con immagini (e alcuni esempi fatti dal Prof.). Le lezioni sono state tutte riascoltate. NON sono integrati con il libro.
Tipologia: Sbobinature
1 / 94
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!























































































Lezione I, 26/09/ Informazioni:
Sezione 1.1 - Usare i dati per rispondere a questioni statistiche Dati ed esempi di raccolta dati Cosa serve la statistica? A rispondere alle questioni statistiche. La statistica si applica su dati che sono informazioni di tipo numerico o qualitativo. Dati qualitativi -> possiamo raccogliere delle espressioni verbali o delle etichette che classificano i soggetti in gruppi diversi. Ad esempio se analizzassimo una dieta povera di carboidrati i quesiti a cui la statistica deve rispondere sono:
Beneficio = rende implicita l’idea che una dieta povera di carboidrati faccia bene Cambiamento = non c’é un opinione sulla direzione In psicologia spesso certi effetti non hanno una direzione ovvia… In questo caso posso misurare se una dieta povera di carboidrati ha c’é un cambiamento fisiologico nel soggetto: misuro i parametri fisiologici prima della dieta e successivamente alla dieta. Ciò che mi interessa capire é se sussiste un cambiamento, ma siccome ogni soggetto è diverso ad un altro, qualche soggetto potrebbe avere una direzione diversa da un altro. Però bisogna guardare la massa di dati e vedere se c’é una tendenza. Ma cos’é la statistica? La statistica é una valigetta degli attrezzi che ha degli strumenti che servono per raccogliere i dati (metodologie di campionamento). Definizione di statistica La statistica é la scienza di:
Metodi di conoscenza nell’antropologia umana La statistica si trova nella scienza. Non basta il metodo scientifico, la metodologia, ma c’é bisogno della statistica per dare una validità all’osservazione di tipo probabilistico! Conoscenze non empiriche (non si fondano sull’esperienza):
Conoscenze empiriche:
Metodo scientifico:
situazione critica devo elencare tutte le possibili reazioni (se ne lascio fuori una non é una buona descrizione)
non sono verificabili, ma serve solo a enunciare una relazione
La statistica sono strumenti che servono per collezionare dati, analizzarli e trarre conclusioni. É importante la statistica proprio perchè é intrinseca al metodo scientifico e siccome la psicologia é una disciplina scientifica é necessario conoscere la statistica. Ragioni per usare il metodo statistico Le 3 principali componenti del metodo scientifico declinato in modo statistico sono:
che sia conveniente (come scelgo le persone? come costruisco l’esperimento?);
basati su dati Statistica inferenziale vs statistica descrittiva La statistica può essere divisa in due ambiti:
guidato l’analisi statistica. La statistica inferenziale quantifica l’errore che abbiamo commesso calcolando un numero in un campione piccolo. Sezione 1.2 - Campione vs. Popolazione Noi osserviamo i campioni, ma siamo interessati alla Popolazione Definizione di:
popolazione può essere reale (tutti i bambini dagli 8 ai 10 anni) oppure teorica (popolazione che si genera nel momento in cui immaginiamo una condizione sperimentale o si chiede un opinione circa un comportamento futuro);
raccogliamo in numero elevato per farci un analisi descrittiva. La popolazione é tutto ciò che abbiamo raccolto (ad es. tutti i soggetti indipendentemente dal fanno che facciano parte del gruppo di controllo e del gruppo sperimentale, tutte le scuole, etc…). Esempio fra campione e popolazione : elezioni del 2006 della California Nell’exit poll sono state estratte 3889 persone delle 8,7 milioni che sono andati a votare. Campione -> estratto della popolazione (exit poll); Popolazione -> é una popolazione reale e non teorica Esempio di statistica inferenziale Supponiamo di voler conoscere cosa pensano le persone sul controllo delle armi…
loro effetto di un osservazione naturale/esperimento non potrà che essere casuale. Si diluisce con questo questo effetto sistematico con la randomizzazione.
sperimentali diverse, quindi le statistiche che calcoliamo variano. Bisogna cercare di compensare questa variabilità arrivando alla popolazione con un valore che difficilmente sarà univoco, ma piuttosto una forbice di errore (che rende conto del fatto che quello che facciamo nei campioni può cambiare da campione a campione). Sezione 2.1 - Tipi differenti di dati Variabile: una variabile é qualsiasi caratteristica che viene osservata in uno studio. Osservare significa registrare, misurare in uno studio e quindi la inseriamo in un data set. Le variabili possono essere:
sesso (m/f), tipo di residenza (appartamento, condominio, ecc.), credere nell’aldilà (si/no), …;
Quindi non verifichiamo se una caratteristiche c’é o non c’é, ma la misuriamo. Cosa significa misurare? Creare un legame tra quello che succede nel mondo a un numero. Esempi: età, numero di sillabe, … Per le variabili quantitative dovremmo introdurre delle misure nel campione che ci consentono di descrivere alcune caratteristiche chiave che saranno il centro, cioè un rappresentante ideale prototipico di quel campione (un numero che lo rappresenti) che si chiamerà “centro”. É un valore che dovrebbe stare vicino a tutti i numeri con delle proprietà più o meno complesse e con una variabilità perchè due gruppi con lo stesso centro potrebbero essere diversi per la variabilità nel gruppo attorno a questo centro. Per le variabili qualitative/categoriali/nominali bisogna contare le frequenze, ad esempio “quanti sono sposati? Quanti studenti nel college sono democratici?”. Un centro non basta perchè, nonostante fornisca un valore prototipico, non rende conto di come i valori all’interno del campione si posizione all’interno di questo centro. Se i numeri si posizionano vicino al centro, il centro del campione é rappresentativo per il campione stesso, ma se si posizionano lontano non lo é. Intervallo minimo-massimo si chiama range. Le due popolazioni come redditi sono molto diverse, ma hanno lo stesso centro, cioè mediamente il reddito é lo stesso. Quindi si dovrebbe accompagnare l’informazione con il range, ma non sarebbe una buona misura… In questo caso la nazione B ha lo stesso minimo e massimo delle nazioni A e C. La nazione C ha una dispersione maggiore perchè é una distribuzione uniforme, cioè ci sono tante famiglie che
guadagnano poco come famiglie che guadagnano un po’ di più fino al massimo reddito possibile. La nazione A ha lo stesso range, ma ha una dispersione completamente diversa, ha una variabilità massimo, cioè la maggior parte guadagna o pochissimo o tantissimo. Il centro é uguale per tutte, quindi bisogna descrivere la variabilità (minimo-massimo), ma anche quest’ultima non basta e bisogna introdurre la varianza. Nelle variabili quantitative c’é un ulteriore distinzione:
parte dell’insieme dei numeri naturali. Quindi sono numeri sconnessi tra loro, quantificamente generati da conteggi. Quando sommiamo gli item di un questionario otteniamo un valore che fa parte di una variabile teorica quantitativa, ma discreta. Esempi: numeri di figli, numeri di cuccioli in una famiglia, etc…;
numero infinito non numirabile di modalità numeriche. C’é un arrotondamento. Esempio: altezza. Class Problem # Identifica il tipo di variabile: categoriale o quantitativa.
equivalenti ovvero c’é uno zero fisico e poi c’é la misura in metri
Class Problem # Identifica se le variabili quantitative sono discrete o continue.
misurarlo con un orologio…
Che tipi di operazioni possiamo fare con questo tipo di variabili all’interno del campione? Nelle variabili qualitative /categoriali facciamo i conteggi delle frequenze di persone che si sono incasellate nelle opzioni di risposta, o ancora meglio, le frequenze relative cioè il rapporto tra le unità sperimentali (i soggetti che entrano in una categoria) diviso la somma di tutti i partecipanti. Se moltiplichiamo per 100 otteniamo le percentuali. Se la variabile qualitativa é dicotomica (ci sono solo due categorie esclusive), allora basta riportare in una semplice opposizione la proporzione che rientra in una delle due e l’altra sarà un semplice complemento. Se invece non é dicotomica e presenta varie modalità, allora bisogna usare una tabella di frequenza in cui nelle righe ci sono tutte le modalità possibili e in colonna tutte le frequenze/proporzioni/percentuali. In ultima riga mettiamo il totale. Class problem # Uno stock broker sta seguendo delle azioni e di queste azioni misura se salgono, sono stabili o calano e annota dopo un certo periodo questo risultato.
Dell’istogramma guardiamo il centro, la variabilità e la forma (che si chiamerà simmetria o asimmetria). Possiamo valutare il valore dell’asse x che taglia a metà la forma -> lascia a destra e sinistra il 50%. Questo valore si chiama mediana. Nella gaussiana media e mediana coincidono. Se la figura é asimmetrica media e mediana non sono uguali. Nelle curve asimmetriche le parti esterne si chiamano CODE. Outlier (=valori anomali) -> punti che stanno fuori dalla distribuzione. La rappresentazione grafica aiuta a stabilire la distribuzione esistente in termini di centro, di espressione, forma e di outlier. Gli outlier sono valori molto bassi o alti e hanno delle frequenze limitatissime. Tra l’outlier e gli altri dati c’é un buco, non ci sono osservazioni in mezzo. Fanno parte della coda della curva. Serie temporali (= time plots ), cosa servono? Utilizzati per visualizzare una serie temporale, un insieme di dati raccolti nel tempo. Sull’asse x si mette il tempo, sull’asse y metto valori numeri. Di questi numeri volendo posso fare una sintesi e metto come valore il centro. Da questo grafico posso scoprire dei pattern che possono essere anche uniformi. Lezione III, 03/10/ Section 2.3 - Measuring the Center of Quantitative Data La distribuzione dei dati cos’é? L’elenco di tutte le modalità numeriche o categoriali e la frequenza relativa. Se una variabile é continua possiamo farla a “pezzettini” di larghezza uguale (chiamate classi) e contare quante occorrenze rientrano nelle classi e costruire un istogramma che ci permette di valutare i 3 aspetti della distribuzione che ci interessano: il centro, variabilità e la forma. La forma in particolare é importante per due aspetti: simmetria (esistenza di un asse che separa in due la figura rendendola sovrapponibile) e gli outliers (valori, spesso, presenti nella distribuzione con la particolarità che la loro modalità numerica sull’asse x si stacca dalla montagna di dati verso destra (=simmetria positiva) o verso sinistra (=simmetria negativa)). Il centro e la variabilità saranno quelle variabili quantitative “media” e “varianza”. Media La media é la sommatoria di tutti i valori di una variabile x (sommati tra di loro) diviso le occorrenze totali n. Si può fare se la scala é a intervalli (ad es. likert). Se sono misure strettamente ordinali (come delle etichette che indicano il grado d’accordo di un’informazione) non é detto che siano trasferibili in una modalità quantitativa. La media mette in equilibrio la distribuzione, cioè se ci sono degli outliers allora la media tenderà a seguirli per mettere in equilibrio il sistema che é rappresentato da dei pesi che sono la massa che insiste su ogni classe dell’asse delle x.
Proprietà della media La media é solo per le variabili quantitative perchè si sommano delle quantità e quindi deve esserci una cardinalità nel numero, cioè deve rappresentare la quantità di possesso di una certa caratteristica. Essendo un punto di equilibrio é influenzata da valori anomali. Se ci sono informazioni, anche poco frequenti che cadono molto distante dalla massa di dati, ecco che la media si sposterà, in una quantițà che dipende dalla distanza, per mettere in equilibrio la distribuzione. Nella sua formula da un peso uguale ad ogni informazione. La mediana Un’altra misura di tendenza centrale é la mediana. La mediana, in una serie ordinata di valori (dal più piccolo al più grande) é la modalità numerica che occupa la posizione centrale. É il valore che lascia sopra e sotto di sè il 50% dei casi. La mediana si determina:
mediana é (10+1)/2= 5,5. Si ottiene una posizione intermedia e quindi si fa la media dei nuemri delle posizioni immediatamente prima e dopo;
Esempio Co2 Pollution : 0.3, 0.9, 1.4, 1.8, 1.9, 4.9, 10.8, 18.9 -> la mediana é 1,85. La media, in questo grafico, é molto più grande della mediana. Perchè? Perchè nella distribuzione ci sono degli outliers che “trascinano” la media. Quindi si può dire che gli outliers influenzano la media, ma non la mediana perchè quest’ultima non usa proprietà cardinali dei numeri, ma solo la posizione di ordine. Comparando la media e la mediana Se una distribuzione é perfettamente simmetrica (gaussiana), allora la media e la mediana coincidono perchè se c’é un asse di simmetria la media é trascinata tanto a destra quanto a sinistra. Se la simmetria é a destra (negativa), la media si sposta verso a destra e la mediana sta “sotto” la media. Se la simmetria é a sinistra (positiva), la media si sposta verso sinistra e la mediana sta “sopra” alla media. Skewness -> schiacciamento. Cosa causa questo spostamento della media nelle distribuzioni asimmetriche? Perchè la media punta al punto di equilibrio: se devo mettere in equilibrio una massa di dati sbilanciati (quindi una
Cosa bisogna fare? Si prende o il valore assoluto o il quadrato delle deviazioni. La deviazione standard prenderà il quadrato. Con il quadrato il segno cambiano (sempre positivi). Un altro vantaggio (oltre a rendere positivi tutti i valori) é che se esiste un outlier, questa distanza al quadrato genererà un valore di varianza enorme e quindi potremmo facilmente capire se nelle due distribuzioni può esistere un outlier se la loro variabilità é molto diversa. L’unità di misura diventerebbe al quadrato, ma se faccio la radice del risultato (elimina il quadrato) e si ritorna all’unità di misura della misurazione originaria. Perchè (n -1) e non n? Perchè bisogna aggiustare questa statistica. Se il mio obiettivo fosse solo statistica descrittiva potrebbe essere anche solo n. Ma se il mio obiettivo é la statistica inferenziale (cioè andare al di là del campione) bisogna fare n -1. Passaggi per calcolare la deviazione standard:
La deviazione standard ha come simbolo s. La varianza é la variazione standard senza la radice (quindi sarebbe la media delle devianze al quadrato) e non ha un unità di misura. Se faccio la radice, recupero una misura di dispersione con la stessa unità di misura dei dati originali. Proprietà della varianza
y = (xi * b ) + a xi= tutte le misure La media risente di tutto quello che faccio sulle misure. La media della nuova misura sarà la media originaria a cui applichiamo le stesse trasformazioni trasformazioni. Quindi volendo nella formula qui sopra potremmo sostituire al posto di xi, x medio (x con il trattino sopra). La deviazione standard é resistente alle traslazioni, quindi se sommiamo o togliamo qualcosa la variabilità attorno al centro rimane la stessa di quelle originali. Se moltiplichiamo queste misure per qualcosa questo fattore di scala, che trasforma l’unità di misura, si riflette con un fattore al quadrato. Cosa succede alla varianza? Sostituisco alla x il valore di y nella formula per trovare la deviazione -> b * s (x). Quindi la deviazione di questa nuova misura é la vecchia deviazione standard moltiplicata per la costante che cambiava l’unità di misura. Il punto z É una trasformazione che ha due proprietà. Quando prendo una misura, ci tolgo la media (quindi trovo le deviazioni) e divido queste deviazioni per la deviazione standard della misura originaria, cioè esprimo le distanze dalla media di ogni misura con una nuova unità di misura (che sono le deviazioni standard) e quindi parlerò di quanto un valore del campione é distante dalla media in deviazione standard, allora sto trasformando questa misura in un punto z. Il punto z avrà come media 0 perchè ci tolgo la media diviso la deviazione standard. La deviazione standard del punto z? 1 perchè tolgo la deviazione di prima * 1/la deviazione standard. L’1 in una scala di misura corrisponde all’unità. Quindi nei punti z l’unità di misura nuova sono le deviazioni standard dalla media. Cosa serve questo? Affrontare misure che hanno unità di misure diverse.
Quartiles Generalmente si usano certo i percentili, ma come misura di dispersione si usano i quartili, cioè si divide una distribuzione in 4 parti. Sull’asse delle x troviamo, come abbiamo visto per la mediana, i valori che lasciano sotto di sè:
Il 1 e il 3 quartile sono le due posizione della serie ordinata che lasciano attorno alla mediana il 50% dei casi. Quindi abbiamo due limiti che tagliano la metà centrale di una distribuzione usando solo posizioni ordinali (quindi sono misure resistenti). Come si trovano questi quartili? Come abbiamo fatto la mediana.
sintetizza una serie di numeri con un disegno che é una scatola. I lati di questa scatola sono i quartili e le mediane. Per disegnare il grafico a scatola devo:
Se esistono dei valori del campione che stanno oltre a quei punti sull’asse delle y (che sono i due baffi) li disegno e sono outliers. Se non esistono, il baffo viene addirittura ridotto al valore del campione che più si avvicina al baffo ad indicare che nel campione non ci sono degli outlier. Quindi sull’asse y disegno la mediana e poi ci aggiungo una scatola chiusa (primo e terzo quartile). Questa scatola contiene il 50% centrale dei valori della mia misura. Sull’asse delle x non c’é niente, é un disegno solo per UNA MISURA. Dentro la scatola c’é una linea (che é la mediana) che non é sempre a metà. I baffi (whisckers) sono delle linee che si estendono dalla scatola Q1 e Q3 una volta e mezzo la distanza che c’é tra Q1 e Q3. Comparing distributions Si possono confrontare due box plot.
Il trend é geometrico, ovvero bisogna disegnare i punti e stabilire che tipo di modello é migliore (noi vedremo solo il modello lineare ). Summarizing the Strength of Association: The Correlation, r Stabilito che in un grafico vedo un andamento e che tolga eventuali outliers, come faccio a quantificare la direzione e la forza dell’associazione? Se i punti seguono un’andamento lineare di crescita o decrescita potrei decidere che il mio modello é una retta. Se vedo questo andamento, una misura che quantifica la direzione e la forza dell’associazione é la correlazione. Tutte le coppie (x;y) di ogni misura vanno trasformati in punti z e questi punti z vanno moltiplicati tra di loro, le sommo e le divido per n-1. Questa formula ci restituisce la forza dell’associazione e la direzione. Quando ho coppie coerenti in cui x é sopra le media e y é sopra la media, la loro deviazione dalla media é positiva (quando, invece, sono sotto la media la loro deviazione é negativa) e di conseguenza il loro prodotto, in entrambi i casi, sarà sempre positivo. Quindi quando un coefficiente di correlazione é positivo significa che, se io disegnassi i dati, vedrei un andamento crescente. Se invece invece le coppie sono discordanti, allora un termine della coppia avrà una deviazione positiva e uno negativa e quindi il loro prodotto sarà sempre negativo. Il coefficiente di correlazione varia tra due limiti da -1 a 1. Properties of Correlation
standard;
diagramma di dispersione BISOGNA SCEGLIERE cosa mettere su x (in genere l’esplicativa) e su y la dipendente;
Class Problem 2
Section 3.3 Predicting the Outcome of a Variable Regression Line Bisogna stimare una retta e la stima di una retta in ambito statistico si chiama regressione lineare perchè per la statistica non é un oggetto geometrico, ma é un modello per prevedere con errore una misura. Il nostro scopo non é quello di “fidarci” solo di questa retta che abbiamo tracciato, ma l’obiettivo é quello di proiettare questa retta sulla popolazione facendo una statistica inferenziale. Ora vediamo SOLO l’oggetto retta su un campione e cosa ci consente da fare (la statistica e l’inferenza verrà più avanti). Qui bisogna scegliere x e y cosa sono perchè se inverto i ruoli il modello lineare cambia (non come la correlazione che chi é cosa é indifferente): x -> explanatory variable ; y -> response variable. Regressione Line: An Equation for Predicting the Response Outcome La retta di regressione é un modello matematico lineare.
Bisogna trovare i valori di a e b che rendono minimo questa quantità. Regression Formulas for y-Intercept and Slope The Slope and the Correlation Correlation :
Slope :
quanto x ha un certo valore;
Riassunto delle scorse lezioni… La volta scorsa abbiamo visto il concetto di associazioni per variabili categoriali e per variabili continue. Nel caso delle variabili qualitative categoriali , l’associazione é il cambiamento di frequenza di una certa classe all’interno dei livelli di un’altra variabile indipendente. Nel caso di una variabile continua , l’ associazione esige di un grafico per raffigurare l’andamento concorde o discorde tra le variabili -> possiamo avere un andamento lineare di direzione negativa o positiva. Per le variabili qualitative non abbiamo introdotto nessun indice di forza o di associazione (lo vedremo più avanti), ma per le variabili continue abbiamo visto l’ indice di correlazione. Cos’é? É una statistica , cioè una quantità che si calcola con i valori di un campione (su cui raccogliamo due misure: x e y), trasformiamo queste misure in punti z, facciamo il prodotto delle coppie ordinate, le sommiamo tra di loro e le dividiamo per n-1 e in questo modo otteniamo il coefficiente di correlazione. Questa misura é compresa tra -1 e +1. La correlazione ci consente di definire la forza e la direzione , l’andamento , invece, va studiato con un grafico (dobbiamo disegnare i valori x e y). Se volessimo fare delle previsioni, dovremmo, infine, stimare la retta e usare l’equazione per prevedere il valore y in base ai valori x. La correlazione, quindi, descrive la forza dell’associazione tra due variabili, NON ha unità di misura… infatti i valori x e y vengono “standarizzati”, cioè definiti come distanza dalla media in termini di deviazione standard. Nella formula non c’é ordine tra VD e VI, é una singola formula, NON é una equazione. Nella regressione lineare , invece, quello che ci interessa é la slope (il valore b, il coefficiente angolare / l’inclinazione). Questo coefficiente non può essere letto numericamente come una forza dell’associazione perchè dipende dall’unità di misura. Inoltre, é un coefficiente “strabico”, ovvero é importante decidere che cosa sta x e che cosa sta in y. La retta di regressione serve per fare previsioni. Coefficiente di correlazione (r^2 ) É la riduzione proporzionale dell’errore, nella previsione di y, usando una retta invece che la media. Se disegnassi la relazione tra x e y con un diagramma di dispersione e mi focalizzassi solo su alcuni punti, qual é l’errore di previsione di y usando la media? Perchè uso la media? Perchè la media é l’unico valore che io potrei usare per prevedere un campione e quindi userei una retta non inclinata perchè x non lo conosco (e non mi interessa) e ogni volta dirò y medio.
E di quanto sbaglierei? Nel grafico gli errori della previsione sono le quantità dentro le parantesi. Se io mi limitassi a sommare gli errori (siccome alcuni hanno valori positivi e altri negativi) andrebbero a zero e per questo devo usare, nella varianza, il quadrato. Perchè quella retta passa per y medio? Perchè nella retta di regressione, quando la slope é zero, l’intercetta é y medio? Perché y medio é il miglior punto , é il valore più vicino a tutti gli altri valori. Le distanze dentro le parentesi si calcolano facendo y - y medio. Usando la retta di regressione, quindi, possiamo coprire parte della distanza verticale che c’é tra l’osservazione e la media.