Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica - Michele Grassi, Sbobinature di Statistica

Appunti delle lezioni di statistica con immagini (e alcuni esempi fatti dal Prof.). Le lezioni sono state tutte riascoltate. NON sono integrati con il libro.

Tipologia: Sbobinature

2024/2025

In vendita dal 29/12/2024

corinna.moscardi
corinna.moscardi 🇮🇹

5

(1)

15 documenti

1 / 94

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Lezione I, 26/09/2024!
Informazioni:!
-libro: l’arte e la scienza d’imparare dai dati!
-esame: 20 esercizi a scelta multipla tratti dal libro + 1 domanda plus per prendere la lode!
Sezione 1.1 - Usare i dati per rispondere a questioni statistiche
Dati ed esempi di raccolta dati
Cosa serve la statistica? A rispondere alle questioni statistiche. La statistica si applica su dati che
sono informazioni di tipo numerico o qualitativo.!
Dati qualitativi -> possiamo raccogliere delle espressioni verbali o delle etichette che classificano i
soggetti in gruppi diversi. Ad esempio se analizzassimo una dieta povera di carboidrati i quesiti a
cui la statistica deve rispondere sono:!
-ci sono dei benefici?!
-ci sono dei cambiamenti?!
Beneficio = rende implicita l’idea che una dieta povera di carboidrati faccia bene!
Cambiamento = non c’é un opinione sulla direzione!
In psicologia spesso certi eetti non hanno una direzione ovvia…!
In questo caso posso misurare se una dieta povera di carboidrati ha c’é un cambiamento
fisiologico nel soggetto: misuro i parametri fisiologici prima della dieta e successivamente alla
dieta.!
Ciò che mi interessa capire é se sussiste un cambiamento, ma siccome ogni soggetto è diverso
ad un altro, qualche soggetto potrebbe avere una direzione diversa da un altro. Però bisogna
guardare la massa di dati e vedere se c’é una tendenza.!
Ma cos’é la statistica? La statistica é una valigetta degli attrezzi che ha degli strumenti che
servono per raccogliere i dati (metodologie di campionamento).!
Definizione di statistica
La statistica é la scienza di:!
-progettare uno studio (designing studies);!
-analizzare i dati raccolti, cioè gli esiti numerici o qualitativi delle interviste/misurazioni;!
-trasformazione dei dati in conoscenza e comprensione del mondo o del campione!
Metodi di conoscenza nell’antropologia umana
La statistica si trova nella scienza. Non basta il metodo scientifico, la metodologia, ma c’é
bisogno della statistica per dare una validità all’osservazione di tipo probabilistico!!
Conoscenze non empiriche (non si fondano sull’esperienza): !
-autorità (genitori, governo, Dio);!
-logica> posso collegare dei fatti e dedurre un funzionamento globale del mondo!
Conoscenze empiriche:!
-intuizione -> nasce dall’osservazione del mondo !
senso comune!
misticismo!
-scienza -> si divide in discipline che seguono un metodo scientifico!
Metodo scientifico:!
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e

Anteprima parziale del testo

Scarica Statistica - Michele Grassi e più Sbobinature in PDF di Statistica solo su Docsity!

STATISTICA

Lezione I, 26/09/ Informazioni:

- libro : l’arte e la scienza d’imparare dai dati

- esame : 20 esercizi a scelta multipla tratti dal libro + 1 domanda plus per prendere la lode

Sezione 1.1 - Usare i dati per rispondere a questioni statistiche Dati ed esempi di raccolta dati Cosa serve la statistica? A rispondere alle questioni statistiche. La statistica si applica su dati che sono informazioni di tipo numerico o qualitativo. Dati qualitativi -> possiamo raccogliere delle espressioni verbali o delle etichette che classificano i soggetti in gruppi diversi. Ad esempio se analizzassimo una dieta povera di carboidrati i quesiti a cui la statistica deve rispondere sono:

- ci sono dei benefici?

- ci sono dei cambiamenti?

Beneficio = rende implicita l’idea che una dieta povera di carboidrati faccia bene Cambiamento = non c’é un opinione sulla direzione In psicologia spesso certi effetti non hanno una direzione ovvia… In questo caso posso misurare se una dieta povera di carboidrati ha c’é un cambiamento fisiologico nel soggetto: misuro i parametri fisiologici prima della dieta e successivamente alla dieta. Ciò che mi interessa capire é se sussiste un cambiamento, ma siccome ogni soggetto è diverso ad un altro, qualche soggetto potrebbe avere una direzione diversa da un altro. Però bisogna guardare la massa di dati e vedere se c’é una tendenza. Ma cos’é la statistica? La statistica é una valigetta degli attrezzi che ha degli strumenti che servono per raccogliere i dati (metodologie di campionamento). Definizione di statistica La statistica é la scienza di:

- progettare uno studio (designing studies);

- analizzare i dati raccolti, cioè gli esiti numerici o qualitativi delle interviste/misurazioni;

- trasformazione dei dati in conoscenza e comprensione del mondo o del campione

Metodi di conoscenza nell’antropologia umana La statistica si trova nella scienza. Non basta il metodo scientifico, la metodologia, ma c’é bisogno della statistica per dare una validità all’osservazione di tipo probabilistico! Conoscenze non empiriche (non si fondano sull’esperienza):

- autorità (genitori, governo, Dio);

- logica> posso collegare dei fatti e dedurre un funzionamento globale del mondo

Conoscenze empiriche:

- intuizione -> nasce dall’osservazione del mondo

  • senso comune
  • misticismo

- scienza -> si divide in discipline che seguono un metodo scientifico

Metodo scientifico:

- osservare la natura

- definire bene il problema -> ad es. se devo descrivere il comportamento di un soggetto in una

situazione critica devo elencare tutte le possibili reazioni (se ne lascio fuori una non é una buona descrizione)

- formulazione di ipotesi -> legare i fatti del mondo in un’ipotesi che ha degli enunciati verbali che

non sono verificabili, ma serve solo a enunciare una relazione

- collezionare i dati

- conclusioni

La statistica sono strumenti che servono per collezionare dati, analizzarli e trarre conclusioni. É importante la statistica proprio perchè é intrinseca al metodo scientifico e siccome la psicologia é una disciplina scientifica é necessario conoscere la statistica. Ragioni per usare il metodo statistico Le 3 principali componenti del metodo scientifico declinato in modo statistico sono:

- progettazione esperimento ( design ) -> cercare di capire come raccogliere i dati in un modo

che sia conveniente (come scelgo le persone? come costruisco l’esperimento?);

- descrizione dei dati ( description ) -> statistica descrittiva: sommario dei dati grezzi

- inferenze -> statistica inferenziale: prendere decisioni circa la popolazione, fare previsioni

basati su dati Statistica inferenziale vs statistica descrittiva La statistica può essere divisa in due ambiti:

- descrittiva -> descrive un campione, ma anche la popolazione se riusciamo;

- inferenziale -> va dal campione alla popolazione, deve dire qualcosa circa l’ipotesi che ha

guidato l’analisi statistica. La statistica inferenziale quantifica l’errore che abbiamo commesso calcolando un numero in un campione piccolo. Sezione 1.2 - Campione vs. Popolazione Noi osserviamo i campioni, ma siamo interessati alla Popolazione Definizione di:

- Popolazione (population) -> insieme totale di riferimento del nostro esperimento. La

popolazione può essere reale (tutti i bambini dagli 8 ai 10 anni) oppure teorica (popolazione che si genera nel momento in cui immaginiamo una condizione sperimentale o si chiede un opinione circa un comportamento futuro);

- Campione (sample) -> soggetti o unità sperimentali , é l’unità che produce il valore che noi

raccogliamo in numero elevato per farci un analisi descrittiva. La popolazione é tutto ciò che abbiamo raccolto (ad es. tutti i soggetti indipendentemente dal fanno che facciano parte del gruppo di controllo e del gruppo sperimentale, tutte le scuole, etc…). Esempio fra campione e popolazione : elezioni del 2006 della California Nell’exit poll sono state estratte 3889 persone delle 8,7 milioni che sono andati a votare. Campione -> estratto della popolazione (exit poll); Popolazione -> é una popolazione reale e non teorica Esempio di statistica inferenziale Supponiamo di voler conoscere cosa pensano le persone sul controllo delle armi…

loro effetto di un osservazione naturale/esperimento non potrà che essere casuale. Si diluisce con questo questo effetto sistematico con la randomizzazione.

- variabilità -> caratteristica dei campioni. I campioni variano perchè sono fatti da unità

sperimentali diverse, quindi le statistiche che calcoliamo variano. Bisogna cercare di compensare questa variabilità arrivando alla popolazione con un valore che difficilmente sarà univoco, ma piuttosto una forbice di errore (che rende conto del fatto che quello che facciamo nei campioni può cambiare da campione a campione). Sezione 2.1 - Tipi differenti di dati Variabile: una variabile é qualsiasi caratteristica che viene osservata in uno studio. Osservare significa registrare, misurare in uno studio e quindi la inseriamo in un data set. Le variabili possono essere:

- categoriali: presentano delle categorie/etichette nelle quali incaselliamo i partecipanti. Esempi:

sesso (m/f), tipo di residenza (appartamento, condominio, ecc.), credere nell’aldilà (si/no), …;

- quantitative: viene quantificato il possesso di una certa caratteristica che vogliamo misurare.

Quindi non verifichiamo se una caratteristiche c’é o non c’é, ma la misuriamo. Cosa significa misurare? Creare un legame tra quello che succede nel mondo a un numero. Esempi: età, numero di sillabe, … Per le variabili quantitative dovremmo introdurre delle misure nel campione che ci consentono di descrivere alcune caratteristiche chiave che saranno il centro, cioè un rappresentante ideale prototipico di quel campione (un numero che lo rappresenti) che si chiamerà “centro”. É un valore che dovrebbe stare vicino a tutti i numeri con delle proprietà più o meno complesse e con una variabilità perchè due gruppi con lo stesso centro potrebbero essere diversi per la variabilità nel gruppo attorno a questo centro. Per le variabili qualitative/categoriali/nominali bisogna contare le frequenze, ad esempio “quanti sono sposati? Quanti studenti nel college sono democratici?”. Un centro non basta perchè, nonostante fornisca un valore prototipico, non rende conto di come i valori all’interno del campione si posizione all’interno di questo centro. Se i numeri si posizionano vicino al centro, il centro del campione é rappresentativo per il campione stesso, ma se si posizionano lontano non lo é. Intervallo minimo-massimo si chiama range. Le due popolazioni come redditi sono molto diverse, ma hanno lo stesso centro, cioè mediamente il reddito é lo stesso. Quindi si dovrebbe accompagnare l’informazione con il range, ma non sarebbe una buona misura… In questo caso la nazione B ha lo stesso minimo e massimo delle nazioni A e C. La nazione C ha una dispersione maggiore perchè é una distribuzione uniforme, cioè ci sono tante famiglie che

guadagnano poco come famiglie che guadagnano un po’ di più fino al massimo reddito possibile. La nazione A ha lo stesso range, ma ha una dispersione completamente diversa, ha una variabilità massimo, cioè la maggior parte guadagna o pochissimo o tantissimo. Il centro é uguale per tutte, quindi bisogna descrivere la variabilità (minimo-massimo), ma anche quest’ultima non basta e bisogna introdurre la varianza. Nelle variabili quantitative c’é un ulteriore distinzione:

- discrete: le modalità numeriche che posso raccogliere con il mio strumento di misura fanno

parte dell’insieme dei numeri naturali. Quindi sono numeri sconnessi tra loro, quantificamente generati da conteggi. Quando sommiamo gli item di un questionario otteniamo un valore che fa parte di una variabile teorica quantitativa, ma discreta. Esempi: numeri di figli, numeri di cuccioli in una famiglia, etc…;

- continue: ha un range di valori, ma all’interno di questo range non esiste una misura, c’é un

numero infinito non numirabile di modalità numeriche. C’é un arrotondamento. Esempio: altezza. Class Problem # Identifica il tipo di variabile: categoriale o quantitativa.

- numero di fratelli/sorelle (=siblings) in una famiglia -> quantitativa

- contea di residenza -> qualitativa

- distanze (in miglia) per raggiungere una scuola -> quantitativa. Ha una scala di rapporti

equivalenti ovvero c’é uno zero fisico e poi c’é la misura in metri

- la condizione sposato/non sposato -> qualitativa

Class Problem # Identifica se le variabili quantitative sono discrete o continue.

- quanto tempo ci si mette per fare un test -> continua. Il tempo ha uno zero, é infinito, posso

misurarlo con un orologio…

- numero di persone a una fermata -> discreta. Ha uno zero assoluto

- numero di multe ricevute l’anno scorso -> discreta. Ha uno zero assoluto

- peso del cane -> continua

Che tipi di operazioni possiamo fare con questo tipo di variabili all’interno del campione? Nelle variabili qualitative /categoriali facciamo i conteggi delle frequenze di persone che si sono incasellate nelle opzioni di risposta, o ancora meglio, le frequenze relative cioè il rapporto tra le unità sperimentali (i soggetti che entrano in una categoria) diviso la somma di tutti i partecipanti. Se moltiplichiamo per 100 otteniamo le percentuali. Se la variabile qualitativa é dicotomica (ci sono solo due categorie esclusive), allora basta riportare in una semplice opposizione la proporzione che rientra in una delle due e l’altra sarà un semplice complemento. Se invece non é dicotomica e presenta varie modalità, allora bisogna usare una tabella di frequenza in cui nelle righe ci sono tutte le modalità possibili e in colonna tutte le frequenze/proporzioni/percentuali. In ultima riga mettiamo il totale. Class problem # Uno stock broker sta seguendo delle azioni e di queste azioni misura se salgono, sono stabili o calano e annota dopo un certo periodo questo risultato.

  1. qual’é la variabile di interesse? La variabile qualitativa prestazione di un’azione misurata in 3 modalità (sale, scende o resta stabile).
  2. quale tipo di variabile é? Variabile qualitativa
  3. Aggiungi le proporzioni alla tabella di frequenza. -> bisogna dividere per 40 ogni categoria (up/ same/down). Perchè 40? É il totale di tutte le categorie: 21+7+12= 40. Per trovare la percentuale per ogni frazione (21/40; 7/40; 12/40) bisogna moltiplicare per 100. Sezione 2.2 - Graphical Summaries of Data Finchè le modalità sono poche basta una tabella, ma quando iniziano ad essere 7/8 modalità si fa fatica a capire l’andamento e bisogna quindi inserirli in un grafico. Un grafico o una tabella di frequenza descrive la forma e da questa forma deriva un’intuizione di un centro che però per le variabili qualitative non avrà a che fare con dei conti o dei calcoli, ma

Dell’istogramma guardiamo il centro, la variabilità e la forma (che si chiamerà simmetria o asimmetria). Possiamo valutare il valore dell’asse x che taglia a metà la forma -> lascia a destra e sinistra il 50%. Questo valore si chiama mediana. Nella gaussiana media e mediana coincidono. Se la figura é asimmetrica media e mediana non sono uguali. Nelle curve asimmetriche le parti esterne si chiamano CODE. Outlier (=valori anomali) -> punti che stanno fuori dalla distribuzione. La rappresentazione grafica aiuta a stabilire la distribuzione esistente in termini di centro, di espressione, forma e di outlier. Gli outlier sono valori molto bassi o alti e hanno delle frequenze limitatissime. Tra l’outlier e gli altri dati c’é un buco, non ci sono osservazioni in mezzo. Fanno parte della coda della curva. Serie temporali (= time plots ), cosa servono? Utilizzati per visualizzare una serie temporale, un insieme di dati raccolti nel tempo. Sull’asse x si mette il tempo, sull’asse y metto valori numeri. Di questi numeri volendo posso fare una sintesi e metto come valore il centro. Da questo grafico posso scoprire dei pattern che possono essere anche uniformi. Lezione III, 03/10/ Section 2.3 - Measuring the Center of Quantitative Data La distribuzione dei dati cos’é? L’elenco di tutte le modalità numeriche o categoriali e la frequenza relativa. Se una variabile é continua possiamo farla a “pezzettini” di larghezza uguale (chiamate classi) e contare quante occorrenze rientrano nelle classi e costruire un istogramma che ci permette di valutare i 3 aspetti della distribuzione che ci interessano: il centro, variabilità e la forma. La forma in particolare é importante per due aspetti: simmetria (esistenza di un asse che separa in due la figura rendendola sovrapponibile) e gli outliers (valori, spesso, presenti nella distribuzione con la particolarità che la loro modalità numerica sull’asse x si stacca dalla montagna di dati verso destra (=simmetria positiva) o verso sinistra (=simmetria negativa)). Il centro e la variabilità saranno quelle variabili quantitative “media” e “varianza”. Media La media é la sommatoria di tutti i valori di una variabile x (sommati tra di loro) diviso le occorrenze totali n. Si può fare se la scala é a intervalli (ad es. likert). Se sono misure strettamente ordinali (come delle etichette che indicano il grado d’accordo di un’informazione) non é detto che siano trasferibili in una modalità quantitativa. La media mette in equilibrio la distribuzione, cioè se ci sono degli outliers allora la media tenderà a seguirli per mettere in equilibrio il sistema che é rappresentato da dei pesi che sono la massa che insiste su ogni classe dell’asse delle x.

Proprietà della media La media é solo per le variabili quantitative perchè si sommano delle quantità e quindi deve esserci una cardinalità nel numero, cioè deve rappresentare la quantità di possesso di una certa caratteristica. Essendo un punto di equilibrio é influenzata da valori anomali. Se ci sono informazioni, anche poco frequenti che cadono molto distante dalla massa di dati, ecco che la media si sposterà, in una quantițà che dipende dalla distanza, per mettere in equilibrio la distribuzione. Nella sua formula da un peso uguale ad ogni informazione. La mediana Un’altra misura di tendenza centrale é la mediana. La mediana, in una serie ordinata di valori (dal più piccolo al più grande) é la modalità numerica che occupa la posizione centrale. É il valore che lascia sopra e sotto di sè il 50% dei casi. La mediana si determina:

- se la serie di numeri é pari, la mediana sarà il valore (n + 1)/2. Ad es. se ho 10 numeri la

mediana é (10+1)/2= 5,5. Si ottiene una posizione intermedia e quindi si fa la media dei nuemri delle posizioni immediatamente prima e dopo;

- se la serie é dispari, la mediana sarà il valore (n+1)/2. Ad es. se ho 9 numeri, la mediana sarà

Esempio Co2 Pollution : 0.3, 0.9, 1.4, 1.8, 1.9, 4.9, 10.8, 18.9 -> la mediana é 1,85. La media, in questo grafico, é molto più grande della mediana. Perchè? Perchè nella distribuzione ci sono degli outliers che “trascinano” la media. Quindi si può dire che gli outliers influenzano la media, ma non la mediana perchè quest’ultima non usa proprietà cardinali dei numeri, ma solo la posizione di ordine. Comparando la media e la mediana Se una distribuzione é perfettamente simmetrica (gaussiana), allora la media e la mediana coincidono perchè se c’é un asse di simmetria la media é trascinata tanto a destra quanto a sinistra. Se la simmetria é a destra (negativa), la media si sposta verso a destra e la mediana sta “sotto” la media. Se la simmetria é a sinistra (positiva), la media si sposta verso sinistra e la mediana sta “sopra” alla media. Skewness -> schiacciamento. Cosa causa questo spostamento della media nelle distribuzioni asimmetriche? Perchè la media punta al punto di equilibrio: se devo mettere in equilibrio una massa di dati sbilanciati (quindi una

Cosa bisogna fare? Si prende o il valore assoluto o il quadrato delle deviazioni. La deviazione standard prenderà il quadrato. Con il quadrato il segno cambiano (sempre positivi). Un altro vantaggio (oltre a rendere positivi tutti i valori) é che se esiste un outlier, questa distanza al quadrato genererà un valore di varianza enorme e quindi potremmo facilmente capire se nelle due distribuzioni può esistere un outlier se la loro variabilità é molto diversa. L’unità di misura diventerebbe al quadrato, ma se faccio la radice del risultato (elimina il quadrato) e si ritorna all’unità di misura della misurazione originaria. Perchè (n -1) e non n? Perchè bisogna aggiustare questa statistica. Se il mio obiettivo fosse solo statistica descrittiva potrebbe essere anche solo n. Ma se il mio obiettivo é la statistica inferenziale (cioè andare al di là del campione) bisogna fare n -1. Passaggi per calcolare la deviazione standard:

- Trovo la media;

- Calcolo le deviazioni di ciascuna osservazione dalla media;

- La elevo al quadrato;

- Le sommo tra di loro (sommo le devianze al quadrato);

- Le divido per n-1;

- Faccio la radice.

La deviazione standard ha come simbolo s. La varianza é la variazione standard senza la radice (quindi sarebbe la media delle devianze al quadrato) e non ha un unità di misura. Se faccio la radice, recupero una misura di dispersione con la stessa unità di misura dei dati originali. Proprietà della varianza

  • La varianza ovviamente é sempre positiva, ma può accadere che diventa di nuovo zero. Diventa zero quando ho sempre lo stesso numero (ovvero le misurazioni che faccio sul campione sono tutte uguali). Questo vuol dire che questa misura non cambia e quindi non é una variabile per definizione perchè non varia. É raro che diventi zero, ma si può avvicinare allo zero e questo significa che il campione ha una variabilità molto piccola. Ha la stessa unità di misura della scala originale e quindi esprime una misura di dispersione attorno alla media nell’unità di misura originale. Non é resistente agli outliers perchè é definita intorno alla media (che a sua volta non é resistente agli outliers). Si potrebbe sostituirla ad esempio con la mediana come dispersione, però in questo caso andrebbe fatto il valore assoluto e non il quadrato (non é importante -> non c’é sul libro questa info). Una proprietà della varianza (che riguarda anche alla media) non sono immutabili rispetto a trasformazioni dell’unità di misura. Come posso cambiare la misura? Posso moltiplicare o aggiungere op togliere per una costante. Lo scaling (cioè la trasformazione delle misure) avviene per traslazione (cioè quando aggiungo qualcosa, cioè sposto tutte le misure aggiugendo qualcosa) o moltiplicare per una costante o entrambe le cose.

y = (xi * b ) + a xi= tutte le misure La media risente di tutto quello che faccio sulle misure. La media della nuova misura sarà la media originaria a cui applichiamo le stesse trasformazioni trasformazioni. Quindi volendo nella formula qui sopra potremmo sostituire al posto di xi, x medio (x con il trattino sopra). La deviazione standard é resistente alle traslazioni, quindi se sommiamo o togliamo qualcosa la variabilità attorno al centro rimane la stessa di quelle originali. Se moltiplichiamo queste misure per qualcosa questo fattore di scala, che trasforma l’unità di misura, si riflette con un fattore al quadrato. Cosa succede alla varianza? Sostituisco alla x il valore di y nella formula per trovare la deviazione -> b * s (x). Quindi la deviazione di questa nuova misura é la vecchia deviazione standard moltiplicata per la costante che cambiava l’unità di misura. Il punto z É una trasformazione che ha due proprietà. Quando prendo una misura, ci tolgo la media (quindi trovo le deviazioni) e divido queste deviazioni per la deviazione standard della misura originaria, cioè esprimo le distanze dalla media di ogni misura con una nuova unità di misura (che sono le deviazioni standard) e quindi parlerò di quanto un valore del campione é distante dalla media in deviazione standard, allora sto trasformando questa misura in un punto z. Il punto z avrà come media 0 perchè ci tolgo la media diviso la deviazione standard. La deviazione standard del punto z? 1 perchè tolgo la deviazione di prima * 1/la deviazione standard. L’1 in una scala di misura corrisponde all’unità. Quindi nei punti z l’unità di misura nuova sono le deviazioni standard dalla media. Cosa serve questo? Affrontare misure che hanno unità di misure diverse.

Quartiles Generalmente si usano certo i percentili, ma come misura di dispersione si usano i quartili, cioè si divide una distribuzione in 4 parti. Sull’asse delle x troviamo, come abbiamo visto per la mediana, i valori che lasciano sotto di sè:

- il primo quartile il 25%);

- secondo quartile il 50%;

- il terzo quartile che lascia sotto di sè il 75% e sopra di sè il 25%.

Il 1 e il 3 quartile sono le due posizione della serie ordinata che lasciano attorno alla mediana il 50% dei casi. Quindi abbiamo due limiti che tagliano la metà centrale di una distribuzione usando solo posizioni ordinali (quindi sono misure resistenti). Come si trovano questi quartili? Come abbiamo fatto la mediana.

  1. ordiniamo i valori;
  2. la mediana sarà il secondo quartile;
  3. se i numeri sono disperi, la escludo. Se i numeri sono pari (e quindi devo fare la media tra i due valori per trovare la mediana) li tengo tutti (una metà e una metà) e trovo la mediana di quelle due metà;
  4. La mediana della prima metà é il primo quartile;
  5. La mediana della seconda metà é il terzo quartile. Esempio The interquartile range (IQR) Quindi con il terzo e il primo quartile io restituisco due misure sull’asse delle x che racchiudono il 50% centrale dei dati. La distanza tra i due quartili é un indice di variabilitá che prende il nome di distanza interquartilica. IQR= Q3 - Q Posso aggiungerla e toglierla alla mediana e avere qualcosa di simile alla deviazione standard attorno alle media. Queste misure servono per produrre un grafico che é tipicamente usato per descrivere le distribuzioni che si chiama “grafico a scatola” o “box plot”. É un grafico che

sintetizza una serie di numeri con un disegno che é una scatola. I lati di questa scatola sono i quartili e le mediane. Per disegnare il grafico a scatola devo:

- prendere il valore minimo di un campione e lo disegno in y

- prendo il valore massimo

- prendo la mediana e traccio una linea

- prendo il primo e terzo quartile e traccio due linee

- chiudo la scatola

- disegno i “baffi” -> linee che si allugano una volta e mezzo dalla distanza interquartilica

Se esistono dei valori del campione che stanno oltre a quei punti sull’asse delle y (che sono i due baffi) li disegno e sono outliers. Se non esistono, il baffo viene addirittura ridotto al valore del campione che più si avvicina al baffo ad indicare che nel campione non ci sono degli outlier. Quindi sull’asse y disegno la mediana e poi ci aggiungo una scatola chiusa (primo e terzo quartile). Questa scatola contiene il 50% centrale dei valori della mia misura. Sull’asse delle x non c’é niente, é un disegno solo per UNA MISURA. Dentro la scatola c’é una linea (che é la mediana) che non é sempre a metà. I baffi (whisckers) sono delle linee che si estendono dalla scatola Q1 e Q3 una volta e mezzo la distanza che c’é tra Q1 e Q3. Comparing distributions Si possono confrontare due box plot.

Il trend é geometrico, ovvero bisogna disegnare i punti e stabilire che tipo di modello é migliore (noi vedremo solo il modello lineare ). Summarizing the Strength of Association: The Correlation, r Stabilito che in un grafico vedo un andamento e che tolga eventuali outliers, come faccio a quantificare la direzione e la forza dell’associazione? Se i punti seguono un’andamento lineare di crescita o decrescita potrei decidere che il mio modello é una retta. Se vedo questo andamento, una misura che quantifica la direzione e la forza dell’associazione é la correlazione. Tutte le coppie (x;y) di ogni misura vanno trasformati in punti z e questi punti z vanno moltiplicati tra di loro, le sommo e le divido per n-1. Questa formula ci restituisce la forza dell’associazione e la direzione. Quando ho coppie coerenti in cui x é sopra le media e y é sopra la media, la loro deviazione dalla media é positiva (quando, invece, sono sotto la media la loro deviazione é negativa) e di conseguenza il loro prodotto, in entrambi i casi, sarà sempre positivo. Quindi quando un coefficiente di correlazione é positivo significa che, se io disegnassi i dati, vedrei un andamento crescente. Se invece invece le coppie sono discordanti, allora un termine della coppia avrà una deviazione positiva e uno negativa e quindi il loro prodotto sarà sempre negativo. Il coefficiente di correlazione varia tra due limiti da -1 a 1. Properties of Correlation

- sta sempre tra -1 e +1 ;

- ha un segno che indica l’andamento;

- é una misura priva di unità di misura , o meglio, ha una covariazione in termini di deviazioni

standard;

- é asimmetrico , ovvero la correlazione non ha un ordine esplicativo dipendente. Ad es. nel

diagramma di dispersione BISOGNA SCEGLIERE cosa mettere su x (in genere l’esplicativa) e su y la dipendente;

- non é resistente agli outliers;

- misura solo la forza e la direzione che deve essere lineare.

Class Problem 2

- Association: Si o No? SI, cioé y cambia al variare di x.

- Correlazione: a) r= 0.0 , b) r= 0.5, c) r= 0.8, d) r= -0.5?

Section 3.3 Predicting the Outcome of a Variable Regression Line Bisogna stimare una retta e la stima di una retta in ambito statistico si chiama regressione lineare perchè per la statistica non é un oggetto geometrico, ma é un modello per prevedere con errore una misura. Il nostro scopo non é quello di “fidarci” solo di questa retta che abbiamo tracciato, ma l’obiettivo é quello di proiettare questa retta sulla popolazione facendo una statistica inferenziale. Ora vediamo SOLO l’oggetto retta su un campione e cosa ci consente da fare (la statistica e l’inferenza verrà più avanti). Qui bisogna scegliere x e y cosa sono perchè se inverto i ruoli il modello lineare cambia (non come la correlazione che chi é cosa é indifferente): x -> explanatory variable ; y -> response variable. Regressione Line: An Equation for Predicting the Response Outcome La retta di regressione é un modello matematico lineare.

Bisogna trovare i valori di a e b che rendono minimo questa quantità. Regression Formulas for y-Intercept and Slope The Slope and the Correlation Correlation :

- descrive l’associazione che c’é tra due misure nei termini della forza e della direzione;

- non mi aiuta a fare previsioni perchè non distingue tra VD e VI;

- ho un indice statistico della forza e della direzione dell’associazione.

Slope :

- non posso usare per definire la forza perchè dipende dall’unità di misura;

- posso usare per fare previsione, ovvero per poter prevedere qual é il punteggio atteso in y

quanto x ha un certo valore;

- é il cambiamento in y ogni volta che x aumenta di un punto (questo punto l’unità di misura di x).

Riassunto delle scorse lezioni… La volta scorsa abbiamo visto il concetto di associazioni per variabili categoriali e per variabili continue. Nel caso delle variabili qualitative categoriali , l’associazione é il cambiamento di frequenza di una certa classe all’interno dei livelli di un’altra variabile indipendente. Nel caso di una variabile continua , l’ associazione esige di un grafico per raffigurare l’andamento concorde o discorde tra le variabili -> possiamo avere un andamento lineare di direzione negativa o positiva. Per le variabili qualitative non abbiamo introdotto nessun indice di forza o di associazione (lo vedremo più avanti), ma per le variabili continue abbiamo visto l’ indice di correlazione. Cos’é? É una statistica , cioè una quantità che si calcola con i valori di un campione (su cui raccogliamo due misure: x e y), trasformiamo queste misure in punti z, facciamo il prodotto delle coppie ordinate, le sommiamo tra di loro e le dividiamo per n-1 e in questo modo otteniamo il coefficiente di correlazione. Questa misura é compresa tra -1 e +1. La correlazione ci consente di definire la forza e la direzione , l’andamento , invece, va studiato con un grafico (dobbiamo disegnare i valori x e y). Se volessimo fare delle previsioni, dovremmo, infine, stimare la retta e usare l’equazione per prevedere il valore y in base ai valori x. La correlazione, quindi, descrive la forza dell’associazione tra due variabili, NON ha unità di misura… infatti i valori x e y vengono “standarizzati”, cioè definiti come distanza dalla media in termini di deviazione standard. Nella formula non c’é ordine tra VD e VI, é una singola formula, NON é una equazione. Nella regressione lineare , invece, quello che ci interessa é la slope (il valore b, il coefficiente angolare / l’inclinazione). Questo coefficiente non può essere letto numericamente come una forza dell’associazione perchè dipende dall’unità di misura. Inoltre, é un coefficiente “strabico”, ovvero é importante decidere che cosa sta x e che cosa sta in y. La retta di regressione serve per fare previsioni. Coefficiente di correlazione (r^2 ) É la riduzione proporzionale dell’errore, nella previsione di y, usando una retta invece che la media. Se disegnassi la relazione tra x e y con un diagramma di dispersione e mi focalizzassi solo su alcuni punti, qual é l’errore di previsione di y usando la media? Perchè uso la media? Perchè la media é l’unico valore che io potrei usare per prevedere un campione e quindi userei una retta non inclinata perchè x non lo conosco (e non mi interessa) e ogni volta dirò y medio.

E di quanto sbaglierei? Nel grafico gli errori della previsione sono le quantità dentro le parantesi. Se io mi limitassi a sommare gli errori (siccome alcuni hanno valori positivi e altri negativi) andrebbero a zero e per questo devo usare, nella varianza, il quadrato. Perchè quella retta passa per y medio? Perchè nella retta di regressione, quando la slope é zero, l’intercetta é y medio? Perché y medio é il miglior punto , é il valore più vicino a tutti gli altri valori. Le distanze dentro le parentesi si calcolano facendo y - y medio. Usando la retta di regressione, quindi, possiamo coprire parte della distanza verticale che c’é tra l’osservazione e la media.