Scarica Riassunto libro “Introduzione alla psicometria” e più Dispense in PDF di Psicometria solo su Docsity! 1 Psicometria La psicometria è la disciplina che si occupa della misurazione in psicologia. Perché studiarla? Per attribuire alla psicologia il carattere della “scientificità”. La statistica offre gli strumenti per organizzare, riassumere e analizzare i dati ottenuti attraverso le nostre misurazioni. La misurazione: processo di attribuzione di valori/etichette numeriche ad oggetti o eventi attraverso delle regole ben precise. Al fine di ottenere dati su uno specifico evento, il ricercatore procede raccogliendo dei dati relativi ai partecipanti della ricerca. I dati descrivono l’evento variando da individuo ad individuo. Dobbiamo quindi introdurre i concetti di variabile e costante. VARIABILE = evento che può assumere diversi valori, che si escludono a vicenda (es: elementi come il corso di laurea, l’età o il voto all’esame, variano da persona a persona). COSTANTE = evento che non varia, rimane sempre uguale (es: l’essere iscritto a Psicologia, l’aver sostenuto l’esame, parliamo di caratteristiche comuni a tutti). 2 Ciascuna variabile per essere correttamente definita deve permettere di classificare tutti i dati in esame (esaustività) e in modo univoco (esclusività). Gli attributi di una variabile devono essere anche mutuamente esclusivi, ovvero un caso non deve poter essere attribuito a più di una categoria ma deve essere assegnato in modo esclusivo ad uno degli attributi della variabile. La variabile può assumere da un minimo di 2 valori (dicotomica) a più valori (politonica). Una variabile può essere definita da differenti categorie o valori. Una variabile qualitativa (detta anche scala non metrica) è caratterizzata da specifiche categorie (per esempio: provenienza geografica o scolastica). Una variabile quantitativa (detta anche scala metrica) è caratterizzata da valori che esprimono in termini quantitativi la proprietà definita da quella variabile (per esempio: altezza/età). Una variabile quantitativa può essere discreta o conreta: - Una variabile è discreta ➔ quando assume solo valori interi (es: numero di giorni di pioggia in un anno); - Una variabile è concreta ➔ quando assume solo valori continui = l’unità di misura può essere suddivisa in unità sempre più piccole ed avere valori decimali (es: quantità di acqua caduta in un anno). 5 Non implicano alcuna nozione di grandezza o di ordine. NB: i numeri sono assegnati in modo arbitrario. Essendo i numeri utilizzati indipendentemente dalla loro natura quantitativa, non può essere svolta nessuna operazione aritmetica. CARATTERISTICHE: • Esaustività ➔ ogni caso osservato deve trovare il suo posto nelle diverse categorie; • Mutua esclusività ➔ ogni caso deve poter essere inserito solo in una categoria. Scala ordinale. È anch’essa di natura qualitativa ed è definita da una serie di attributi, detti categorie o modalità, che caratterizzano la proprietà in esame esprimendo un ordinamento. Es: titolo di studio, ordine di arrivo in una gara. 6 La relazione logica che governa le scale ordinali è quella di ordinamento, definisce, oltre che l’uguaglianza, la disuguaglianza nei termini di maggiore o minore, che viene stabilita in base al fatto che i casi possiedono meno o più della proprietà misurata. Ogni categoria della variabile può avere un’identificazione nominale (poco, abbastanza, molto) o numerica (1=poco, 2=abbastanza, 3=molto). I numeri vengono quindi utilizzati come etichette per classificare secondo un ordine; quindi, per questa scala l’assegnazione dei numeri non è arbitraria. I caratteri ordinabili possono essere distinti in: • Ciclici ➔ quando esiste un ordine naturale che non permette di definire quale modalità debba collocarsi prima e quale dopo (ad es: i giorni della settimana); • Rettilinei ➔ quando ciò non si verifica (ad es: l’ordine di arrivo in una gara. Come avviene per le scale nominali, se abbiamo variabili misurate con questa scala di misura non possiamo svolgere operazioni aritmetiche. La scala a intervalli. È di tipo quantitativo. Possiamo parlare in senso proprio di unità di misura e di valori, poiché i numeri esprimono quantità e le distanze tra valori sono definite in termini quantitativi. NB: i costrutti psicologici si misurano sempre con la scala a intervalli. 7 La misura implica attribuire ad ogni caso un numero in modo che le differenze tra i numeri corrispondono a uguali differenze nella quantità della proprietà definita dalla variabile. Ciò significa che tra due valori consecutivi vi è la stessa distanza che esiste tra altri due valori consecutivi. Per esempio: possiamo dire che tra 40% e 50% c’è la stessa differenza che troviamo tra 10% e 20%. La relazione logica è quella di uguaglianza tra intervalli dove le relazioni di uguaglianza e di disuguaglianza, nei termini di maggiore o minore, sono definiti in termini di quantità. Essendo la scala a intervalli una scala arbitraria o convenzionale, il valore zero è anch’esso convenzionale o arbitrario (zero arbitrario), ovvero non indica assenza di proprietà (es: 0°C non indica assenza di temperatura). Per lo stesso motivo possono essere definiti valori negativi (per esempio: -10%). 10 La statistica: La psicometria si divide in due grandi aree: • Statistica descrittiva ➔ si utilizza per la sintesi e la presentazione dei dati = serve ad organizzarli; • Statistica inferenziale ➔ consente di testare ipotesi e fare previsioni. Non si lavora sull’intera popolazione ma su un campione rappresentativo che presenta le stesse caratteristiche della popolazione di riferimento = deduco le caratteristiche dell’intera popolazione dai risultati che ho ottenuto dal campione. Lavorare sull’intera popolazione sarebbe impossibile: costi enormi, tempi troppo lunghi, mancanza di risorse. Campionamento. Un modo per avere un campione rappresentativo è quello di selezionare i partecipanti in maniera casuale (rappresentatività casuale) Le proprietà della selezione casuale sono due: • Stessa probabilità di estrazione ➔ tutti i membri della popolazione devono avere la stessa probabilità di essere selezionati per fare parte del campione; quindi, solo per il caso, e non per altri fattori, i singoli partecipanti sono scelti come componenti del campione; • Indipendenza tra le estrazioni ➔ la selezione di un elemento non deve influenzare la selezione dell’altro. Ciò significa che l’aver estratto un soggetto della popolazione non deve modificare la probabilità che gli altri appartenenti alla popolazione entrino a far parte del campione. 11 Metodi di campionamento. Esistono diversi metodi di campionamento: 1. Stratificato ➔ si divide la popolazione in sottogruppi omogenei e da ciascuno si estrae un campione casuale. Es: suddivido gli studenti in base all’età ed estraggo un campione per ogni fascia di età 2. A grappoli ➔ si raggruppa la popolazione in blocchi, si fa un campionamento dei blocchi. Es: una città si può suddividere in settori, campionare casualmente i settori e su questi svolgere l’indagine sui servizi scolastici 3. Sistematico ➔ si inizia il campionamento da un punto casuale e poi si prosegue selezionando un elemento ogni k elementi successivi. Es: in uno studio sul traffico in autostrada si decide di selezionare un automobilista ogni trenta macchine transitate da un determinato casello autostradale. Parametri e statistiche (caratteristiche che ci permettono di sintetizzare). Quando la ricerca è condotta sull’intera popolazione i valori che sintetizzano la proprietà che stiamo misurando sono chiamati parametri e sono rappresentati dalle lettere dell’alfabeto greco: - Media ➔ µ - Varianza ➔ 𝜎! - Deviazione standard ➔ 𝜎 12 Quando lavoriamo sul campione i valori che sintetizzano i dati sono chiamati statistiche e sono rappresentati dalle lettere dell’alfabeto latino: - Media ➔ M - Varianza ➔ 𝑠! - Deviazione standard ➔ 𝑠 Statistica descrittiva Frequenze semplici Per frequenza si intende il numero di volte che un certo valore o categoria compare in un determinato insieme di dati. Con distribuzione di frequenza si intende il conteggio di tutte le volte in cui ogni singolo valore o categoria compare. La distribuzione di frequenza può essere presentata in forma tabulare o grafica, riportando tutti i valori/categorie della variabile e le frequenze con le quali si presentano i singoli valori. CATEGORIA FREQUENZA Maschi 30 Femmine 20 n=50 La distribuzione di frequenza può essere sempre calcolata qualunque sia la scala di misura della variabile. 15 Frequenza cumulata. Corrisponde al numero di soggetti che presentano quel valore o uno inferiore. Si calcola aggiungendo al numero di soggetti che hanno ottenuto quel valore, il numero dei soggetti che hanno ottenuto un valore più basso. La distribuzione di frequenza cumulata presuppone che i valori della variabile debbano essere ordinati in valore crescente ➔ posso misurarla quindi solo con scala ordinale. La frequenza cumulata associata all’ultimo valore è sempre uguale alla somma delle frequenze. Frequenza cumulata relativa e percentuale cumulata. La frequenza cumulata relativa è data dal rapporto tra la frequenza cumulata e il numero totale dei casi. Ci dice qual è la proporzione di casi che ottengono un determinato risultato o uno più piccolo. Il risultato è sempre uguale a 1. Moltiplicando la frequenza cumulata relativa per 100 otteniamo la percentuale cumulata. L’ultima frequenza deve essere uguale a 100. 16 Rappresentazione grafica delle distribuzioni di frequenza. Per rappresentare le distribuzioni di frequenza in modo sintetico, oltre le tabelle, possiamo utilizzare la rappresentazione grafica. Il grafico mette in evidenza la forma della distribuzione e le sue peculiarità. È più idoneo per la ricerca, poiché è più intuitivo, più semplice, di immediata lettura. Esistono molteplici modalità di rappresentare graficamente le distribuzioni di frequenza. Grafico a barre. È una rappresentazione grafica che si utilizza con le variabili qualitative. Considerando gli assi perpendicolari X e Y, riporteremo su X le categorie e su Y le frequenze. Le barre sono separate ad indicare che non esiste continuità. 0 5 10 15 20 25 30 35 maschi femmine 17 La frequenza riportata può essere semplice, oppure si sceglie di utilizzare le frequenze relative o le percentuali. Istogramma. Gli istogrammi sono utilizzati per rappresentare le variabili quantitative discrete. Le frequenze o le percentuali sono rappresentate da barre verticali, la cui altezza indica la frequenza, le quali non sono separate tra loro. In tal modo l’istogramma permette di visualizzare la forma della distribuzione osservata. [1, 5] (5, 9] (9, 13] (13, 17] (17, 21] (21, 25] 0 5 10 15 20 25 20 Misure di tendenza centrale. Le misure di tendenza centrale sono quei valori che ci indicano il centro della distribuzione. Tali misure sono Media, Mediana e Moda e corrispondono al valore o categoria più tipico e rappresentativo della distribuzione. La media. La media è data dalla somma di tutti i valori della distribuzione divisa per il numero totale dei casi che la compongono. • FREQUENZA UNITARIA (ogni valore si presenta una sola volta). 𝑴 = 𝚺 ∙ 𝒙𝒊 𝒏 • FREQUENZA NON UNITARIA (i valori si presentano più di una volta) 𝑴 = 𝚺 ∙ 𝒙𝒊𝒇𝒊 𝒏 La media è un modo molto efficace per sintetizzare i dati. Se rappresentiamo graficamente lo scarto di ciascun valore dalla media osserviamo che tali scarti si bilanciano. 𝚺 (𝒙𝒊 −𝑴) NB: Nel caso di frequenze non unitarie bisognerà moltiplicare gli scarti per le frequenze. 21 La media risulta essere quindi, il punto centrale della distribuzione rispetto alla quale la somma degli scarti al di sotto di questo valore è uguale alla somma degli scarti al di sopra di esso. La media ha la caratteristica di essere il baricentro della distribuzione ed è sensibile agli outliers (casi estremi che si distanziano moltissimo, tanto che la media viene tirata da questi). La mediana. La mediana corrisponde a quel valore che divide la distribuzione di frequenza a metà. La si trova generalmente indicata con Me o Mdn. Per calcolare la mediana bisogna innanzitutto ordinare i valori in ordine crescente; successivamente occorre considerare se i valori hanno frequenza unitaria o non unitaria: in quest’ultimo caso si devono calcolare le frequenze e le frequenze cumulate. NB: in entrambi i casi bisognerà prima stabilire la posizione della mediana, poi individuare il valore corrispondente. • Casi pari ➔ ! " > PosMe > ! " +1 ➔ quando i risultati sono 2 si fa la semisomma (media), ma solo se la variabile è quantitativa continua. • Casi dispari ➔ PosMe = !#$ " . 22 La moda. La moda è quel valore che ha la frequenza più elevata. Occorre sottolineare che moda corrisponde al valore o categoria della variabile e non alla frequenza. Così come per la mediana calcoliamo la posizione per poi risalire al valore mediano, per trovare la moda identifichiamo la frequenza più elevata e andiamo a vedere a quale valore o categoria corrisponde. La si trova generalmente indicata con Mo e Mod. Quando un solo valore della distribuzione ha la frequenza più elevata, si dice che la distribuzione è unimodale. Quando ci sono due valori con frequenza elevata, la distribuzione viene definita bimodale; nel caso in cui i due valori siano più di due si chiama multimodale. Si può, infine, verificare il caso in cui tutti i valori hanno frequenze unitarie o simili: si dice che la distribuzione è amodale. Confronto tra media, mediana e moda. Anche se questi tre indicatori descrivono il punto centrale della distribuzione non è detto che siano lo stesso valore; ciò si verifica solo nel caso in cui la distribuzione sia simmetrica. Media = Mediana = Moda 25 Differenza interquartile. La differenza interquartile (DI) prende in considerazione l’ampiezza dell’intervallo ma solo della parte centrale della nostra distribuzione. Si chiama differenza interquartile perché fa riferimento ai quartili. I quartili corrispondono a tre valori che dividono in quattro parti uguali la distribuzione dei dati. Al di sotto del primo quartile (𝑸𝟏) abbiamo il 25% dei casi, il 50% al di sotto del secondo (𝑸𝟐) e, infine, il 75% al di sotto del terzo (𝑸𝟑). La differenza interquartile è data dalla differenza tra il terzo e il primo quartile, ovvero 𝑫𝑰 = 𝑸𝟑−𝑸𝟏 NB: il secondo quartile coincide con la mediana. La maniera più semplice per calcolare la variabilità della distribuzione è: 𝚺 (𝒙𝒊%𝑴) 𝒏 . MA Se io faccio la sommatoria di tutti gli scarti della media, il risultato è sempre uguale a 0, e questo costituisce un problema! Ci sono tre diversi modi per risolvere questo problema. 26 Scostamento semplice medio. Una possibile soluzione è quella di prendere gli scarti dal valore medio in valore assoluto. In questo modo non si considera più l’effetto del segno, dal momento in cui si considera soltanto quanto il valore si discosta dalla media. Lo scostamento semplice medio (che esprime quanto in media i dati si discostano dal valore medio) è dato dalla somma di tutti gli scarti in valore assoluto e dividendoli per il numero delle osservazioni. 𝑺𝑴𝑴 = 𝚺 | 𝒙𝒊 −𝑴 | 𝒏 Varianza e deviazione standard. Un altro modo per eliminare l’effetto del segno è quello di elevare i valori al quadrato. Sommando gli scarti dalla media elevati al quadrato e dividendoli per il numero totale delle osservazioni si ottiene la varianza, indice di variabilità che sarà sempre positivo (in quanto qualsiasi numero al quadrato è sempre positivo). 𝒔𝟐 = 𝚺 (𝒙𝒊 −𝑴)𝟐 𝒏 NB: si deve tuttavia osservare che elevando i valori al quadrato si modifica l’unità di misura. 27 Il modo più semplice di ricavare questo problema è quello di ricavare la radice quadrata della varianza. In questo modo si ritorna all’unità di misura originale. L’indice di variabilità che ottengo dalla radice quadrata della varianza si chiama deviazione standard ed è anch’esso un valore sempre positivo. 𝒔 = 4 𝚺 (𝒙𝒊 −𝑴)𝟐 𝒏 Nel caso in cui le distribuzioni dei dati non hanno frequenza unitaria occorre moltiplicare ciascuno scarto elevato al quadrato per la relativa frequenza. 𝒔𝟐 = 𝚺 (𝒙𝒊 −𝑴)𝟐𝒇𝒊 𝒏 𝒔 = 4 𝚺 (𝒙𝒊 −𝑴)𝟐𝒇𝒊 𝒏 La procedura del calcolo della varianza può tuttavia risultare troppo lunga, per questo motivo sono state predisposte alcune formule che consentono di ottenere lo stesso risultato ma con una modalità più rapida, in quanto viene eliminato il calcolo degli scarti dal valore medio. 30 Quartili. Per calcolare i quartili bisogna ordinare in modo crescente i dati, calcolare le frequenze e, nel caso in cui non siano unitarie, calcolare le frequenze cumulate. 𝒑𝒐𝒔𝑸𝟏 = 5 𝒏 + 𝟏 𝟒 6 𝒑𝒐𝒔𝑸𝟐 = 5 𝒏 + 𝟏 𝟒 6 ∙ 𝟐 𝒑𝒐𝒔𝑸𝟑 = 5 𝒏 + 𝟏 𝟒 6 ∙ 𝟑 Come per la mediana, si deve prima trovare la posizione di ciascun quartile per poi risalire al valore corrispondente. NB: nel caso in cui nelle frequenze cumulate non sia presente l’esatta posizione calcolata, bisogna fare riferimento alla frequenza che la comprende. Percentili. I percentili dividono la distribuzione in cento parti e sono, dunque, 99. Se calcoliamo ad esempio il novantesimo percentile (𝑃&') troveremo quel valore al di sotto del quale si colloca il 90% dei casi della nostra distribuzione. 𝒑𝒐𝒔𝑷𝒌 = 5 𝒏 + 𝟏 𝟏𝟎𝟎 6 ∙ 𝒌 k = numero ordinale del percentile. 31 Come per gli altri indici di posizione occorre mettere i dati in ordine crescente e, quando i dati hanno frequenza non unitaria, occorre calcolare le frequenze e le frequenze cumulate. Distribuzioni di frequenza con due variabili. Tabelle a doppia entrata. È possibile costruire distribuzioni di frequenza con due variabili di tipo categoriale per avere, a livello descrittivo, delle indicazioni sulla relazione che può intercorrere tra le variabili. ➔ (distribuzione bivariata) La distribuzione di frequenza che si ottiene è detta bivariata e può essere riportata in una tabella a doppia entrata (o di contingenza) Per convenzione si denomina la tabella indicandone l’ordine attraverso l’indicazione righe x colonne (r x c). Sufficiente Buono Distinto Ottimo Italiano Scienze Matematica Variabile di colonna Variabile di riga 32 Entro ciascuna cella è riportata la frequenza di cella, detta anche frequenza congiunta, che può essere espressa in percentuale (percentuale di cella o congiunta). Sommando tutte le frequenze di cella dobbiamo ottenere il totale dei casi osservati; sommando tutte le percentuali di cella, dobbiamo ottenere 100. Distribuzioni marginali. Sommando per ciascuna riga le frequenze delle celle che la compongono, i totali ottenuti definiscono la distribuzione marginale di riga. Le frequenze marginali possono essere espresse in percentuale, ottenendo le percentuali marginali di riga. Se sommiamo le frequenze di ciascuna colonna, i totali così ottenuti definiscono la distribuzione marginale di colonna. Questa distribuzione può essere riportata tramite le frequenze marginali oppure le frequenze marginali di colonna. FREQUENZE PERCENTUALI ➔ )" * ∙ 100 35 Per disegnare questo tipo di grafico sull’asse X riportiamo le categorie della variabile sulla quale abbiamo calcolato le percentuali condizionate e in corrispondenza di ciascuna categoria disegneremo, una di seguito all’altra, le barre che rappresentano le frequenze percentuali per ciascuna categoria dell’altra variabile. Statistica inferenziale Statistica che consente di fare delle inferenze su una popolazione a partire dai dati raccolti su un campione. PROBABILITÀ ➔ Consente di misurare il grado di incertezza, ovvero quando il risultato di un evento non è sicuro. Per esempio, nel lancio di una moneta non possiamo dire con certezza se il risultato sarà testa o croce, potremo soltanto fare una previsione che sarà confermata o non confermata una volta effettuato il lancio. Concetti e terminologia di base. Un esperimento casuale (o aleatorio) è un qualsiasi evento del quale non conosciamo l’esito prima del suo verificarsi (es: lancio della monetina). Lo spazio campionario è l’insieme di tutti gli eventi possibili dell’esperimento (es: testa o croce). Lo spazio campionario può essere facilmente definito attraverso l’enumerazione dei possibili eventi di cui si compone. 36 Talvolta, la descrizione dello spazio campionario non è così immediata perché esso è dato dalla combinazione di eventi compositi. In tal caso utilizziamo il calcolo combinatorio per giungere all’esatta specificazione dello spazio campionario. Es: pensiamo ad una donna in attesa di due gemelli: quale sarà il sesso dei nascituri? Ci troviamo difronte a quattro possibilità: entrambi maschi (MM), entrambe femmine (FF), e le due possibilità relative alla coppia maschio e femmina (MF oppure FM). Un singolo evento possibile appartenente allo spazio campionario viene detto semplice (es: entrambi maschi); quando è dato dall’insieme di almeno due possibili risultati dell’esperimento casuale, viene detto composto (es: gemelli dello stesso sesso, dato dai due eventi semplici MM e FF). Quando abbiamo un evento A abbiamo una probabilità legata al verificarsi (probabilità di successo) indicata con p(A) e una probabilità legata al non verificarsi (probabilità di insuccesso) indicata con q(A). Tutto ciò che non rappresenta l’evento A viene definito complemento dell’evento o evento complementare dal momento che insieme ad A esaurisce lo spazio campionario. 37 Definizione classica e definizione frequentista. Secondo la definizione classica (detta a priori) la probabilità viene stabilita in termini di proporzioni. Infatti, la probabilità dell’evento A è data dal rapporto tra eventi favorevoli ed eventi possibili. 𝒑(𝑨) = 𝒌 𝒏 𝑘 = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑐𝑜𝑛 𝑐𝑢𝑖 𝐴 𝑝𝑢ò 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎𝑟𝑠𝑖. 𝑛 = 𝑎𝑚𝑝𝑖𝑒𝑧𝑧𝑎 𝑠𝑝𝑎𝑧𝑖𝑜 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑜. Esiste anche una definizione frequentista (o empirica), in base alla quale la probabilità si determina conducendo un esperimento che ci permette di stabilire il numero di successi in relazione ad un certo numero di prove. Successivamente (e per questo di parla di probabilità a posteriori), calcoliamo il valore di probabilità facendo il rapporto tra il numero di successi e numero di prove. 𝒑(𝑨) = 𝒌 𝒏 𝑘 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑖. 𝑛 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑝𝑟𝑜𝑣𝑒. In sintesi, la logica dietro le due definizioni di probabilità è analoga, cambiano i presupposti: in un caso sono noti gli eventi favorevoli e lo spazio campionario, nell’altro queste informazioni si ricavano dopo l’esperimento. 40 Se i due eventi sono non mutuamente escludentisi: 𝒑(𝑨 ∪ 𝑩) = 𝒑(𝑨) + 𝒑(𝑩) − 𝒑(𝑨 ∩ 𝑩) NB: ∩ 𝑒𝑝𝑟𝑖𝑚𝑒 𝑙𝑎 𝑐𝑜𝑛𝑔𝑖𝑢𝑛𝑧𝑖𝑜𝑛𝑒. La regola del prodotto. È possibile calcolare la probabilità congiunta utilizzando la regola del prodotto, in cui la probabilità complessiva è data dal prodotto delle probabilità dei singoli eventi. Tale probabilità è minore della probabilità del verificarsi di un solo evento. Nel definire le probabilità di A e B per poi farne il prodotto, occorre tuttavia valutare se i nostri due eventi sono indipendenti o dipendenti. Questo significa stabilire se il verificarsi dell’uno modifica la probabilità che si verifichi l’altro. Se i due eventi sono indipendenti: 𝒑(𝑨 ∩ 𝑩) = 𝒑(𝑨) × 𝒑(𝑩) Se i due eventi sono dipendenti: 𝒑(𝑨 ∩ 𝑩) = 𝒑(𝑨) × 𝒑(𝑩|𝑨) NB: | 𝑖𝑛𝑑𝑖𝑐𝑎 𝑙𝑎 𝑐𝑜𝑛𝑑𝑖𝑧𝑖𝑜𝑛𝑒. 41 La probabilità condizionata. La probabilità condizionata dell’evento B posto che l’evento A si sia verificato si calcola come rapporto tra la probabilità congiunta del verificarsi di A e B e la probabilità del singolo evento. Se i due eventi sono indipendenti: 𝒑(𝑨|𝑩) = 𝒑(𝑩) Se i due eventi sono dipendenti: 𝒑(𝑨|𝑩) = 𝒑(𝑨 ∩ 𝑩) 𝒑(𝑨) DISTRIBUZIONI TEORICHE DI PROBABILITÀ. Una distribuzione teorica di probabilità è data dall’insieme delle probabilità associate ai possibili risultati di un esperimento. Possiamo conoscere una distribuzione di probabilità empiricamente (osservando), svolgendo quindi l’esperimento e registrandone i risultati, oppure costruire la distribuzione a livello teorico, in base alle teorie matematiche. Ci occuperemo solo di due distribuzioni teoriche di probabilità: • Distribuzione binomiale; • Distribuzione normale. Queste distribuzioni hanno in comune il fatto che non sono frutto di dati realmente raccolti. 42 Distribuzione binomiale. Si chiama distribuzione binomiale perché è data dai risultati che derivano dal rilevamento di dati su variabili dicotomiche (variabili che presentano solo due categorie). I dati che risultano dalla misurazione di una variabile dicotomica sono detti binomiali, ovvero dati che hanno due nomi (es: giusto/sbagliato, testa/croce, ammesso/non ammesso). Le variabili come il sesso, il risultato del lancio di una moneta, sono naturalmente dicotomiche. È possibile però trasformare in variabile dicotomica anche variabili che originariamente non lo sono. Es: prendiamo la prova scritta all’esame di psicometria: l’esito viene registrato attraverso una votazione da 0 a 30, ma possiamo essere interessati ad indicare soltanto l’ammissione o non ammissione alla prova orale, attribuendo alla prima categoria coloro che hanno raggiunto un punteggio maggiore o uguale a 18, alla seconda categoria coloro che hanno un punteggio inferiore a 18. 45 Caratteristiche della distribuzione binomiale. Una distribuzione teorica di probabilità è definita da tutti i possibili risultati e le corrispondenti probabilità. La funzione di probabilità binomiale esprime matematicamente tale distribuzione che è caratterizzata dai parametri p e q ed è discreta, ovvero assume soltanto valori interi. Assume forme, andamenti differenti a seconda dei valori assunti dai parametri p e q. Ci possiamo trovare difronte a 3 casi base: • Distribuzione simmetrica; • Distribuzione asimmetrica positiva; • Distribuzione asimmetrica negativa. Ci troviamo difronte a una distribuzione simmetrica quando p = q , ovvero quando la probabilità di successo è uguale alla probabilità di insuccesso. Le probabilità sono equidistribuite nelle due parti. Quando invece p ≠ q , allora la distribuzione è asimmetrica. Se p < q si dice che l’asimmetria è positiva à ES: domande con tre alternative di risposta delle quali una sola è corretta. Se p > q si dice che l’asimmetria è negativa à ES: tre pacchi due dei quali contengono un premio; il successo ha una probabilità maggiore rispetto all’insuccesso. 46 Media e deviazione standard della distribuzione. La distribuzione di probabilità binomiale ha una media e una deviazione standard che possono essere calcolate a partire dai parametri n e p. Data la probabilità di successo p e il numero di eventi possibili n, la media (𝜇) della distribuzione binomiale sarà uguale al prodotto dei due valori: 𝝁 = 𝒏𝒑 La deviazione standard (𝜎) della distribuzione binomiale la si ottiene facendo la radice del prodotto tra n, p e q (probabilità di insuccesso): 𝝈 = o𝒏𝒑𝒒 Distribuzione normale. La distribuzione normale è la più importante distribuzione continua. Perché si chiama normale? Si chiama normale perché la distribuzione di frequenza assume una particolare forma che si presenta con grande regolarità e frequenza. La curva normale viene chiamata anche curva a campana (data la sua particolare forma) o gaussiana (dal nome del matematico Gauss che l’ha studiata). Tutte le distribuzioni normali hanno alcune caratteristiche comuni. In primo luogo, si tratta di una distribuzione simmetrica, i valori sono infatti equidistribuiti in entrambe le parti. 47 La media coincide con la mediana e la moda, per questo la distribuzione normale è detta unimodale. Inoltre, troviamo due punti di flesso, collocati uno a destra e uno a sinistra della nostra distribuzione. PUNTI DI FLESSO = punti in cui la curva convessa diventa concava. Si ha un cambiamento di andamento. Questo avviene specularmente, in maniera identica. I punti di flesso corrispondono al punto di deviazione standard (valore in positivo a destra e negativo a sinistra). In corrispondenza delle code accade che la nostra curva diventa asintotica, ciò significa che le nostre code tendono all’infinito, avvicinandosi sempre più all’asse delle x, senza mai toccarlo. Questo accade perché anche i valori più estremi sono sempre meno probabili, ma questa probabilità non diventa mai impossibile, non possiamo escluderli a priori. Un’altra importante caratteristica della curva normale è il fatto che succede sempre che la percentuale dei casi di valori che ricadono tra meno una e più una deviazione si trova il 68.26% dei casi; tra meno due e più due deviazioni standard il 95.46% e tra meno tre e più tre deviazioni standard circa il 99.73%. La funzione che permette di rappresentare e descrivere la distribuzione normale è la seguente: 𝒇(𝒙) = 𝟏 √𝟐𝝅𝝈𝟐 ∙ 𝒆) 𝟏 𝟐( 𝒙)𝝁 𝝈 )𝟐 Questa funzione serve a capire quale probabilità bisogna associare ad ogni singolo punteggio di x. 50 Tavole di probabilità. Le tavole di probabilità consentono di individuare le probabilità corrispondenti alle superfici sottostanti la curva delimitate dai diversi intervalli di valori. Es: a me potrebbe interessare sapere qual è la proporzione di studenti che probabilmente otterrà un punteggio fino a 21, oppure qual è la percentuale di studenti che otterrà un punteggio tra 21 e 24, oppure qual è la percentuale di studenti che otterrà un punteggio oltre il 24. Possiamo quindi utilizzare la tavola per scopi diversi: • Per determinare l’area al di sopra o al di sotto di un determinato valore o l’area compresa tra due valori di una variabile; • Per determinare le frequenze teoriche corrispondenti ad una determinata area; • Per determinare i valori grezzi conoscendo le aree. COME CALCOLARE LA PROBABILITÀ CON LA DISTRIBUZIONE NORMALE: 1. Per prima cosa occorre trasformare i valori grezzi in valori z usando la seguente formula: 𝒛 = 𝒙& 𝝁 𝝈 ; 2. Rappresentare graficamente una curva normale, con una linea verticale in corrispondenza del valore medio uguale a 0. Riportare sul grafico i valori z calcolati e per ciascun valore tracciare una linea verticale, per definire graficamente la porzione da misurare; 3. Usare le tavole della distribuzione normale: 51 a. Trovare il valore di z con la prima cifra decimale nella prima colonna della tavola; individuare la seconda cifra decimale nella prima riga della tavola; b. Per i valori z con segno negativo si utilizza la parte positiva della distribuzione data la sua simmetria; c. Nel calcolo delle aree occorre ricordare che la somma totale dell’area al di sotto della curva è uguale a 1 e la metà a .5000. Distribuzioni campionarie. Una distribuzione campionaria è una distribuzione relativa ad una specifica statistica calcolata su più campioni di dimensione n, tutti estratti dalla stessa popolazione. Occorre quindi che: • Ciascun campione sia definito dallo stesso numero di casi n (n costante); • Ciascun campione sia estratto dalla stessa popolazione; • L’estrazione sia casuale (ogni elemento deve avere la stessa probabilità di essere estratto); • L’estrazione sia indipendente (l’estrazione dell’uno non deve influenzare l’estrazione dell’altro). Dati questi presupposti, si procede calcolando: • La statistica su ogni campione estratto, che sia rappresentativa e sintetica; • La frequenza di ciascun valore della statistica. 52 COME SI COSTRUISCE UNA DISTRIBUZIONE CAMPIONARIA CON EVENTI BINOMIALI (DICOTOMICI)? Supponiamo che 10 soggetti partecipino ad un concorso a premi, dovendo scegliere tra due alternative, una delle quali comporta la vincita di un premio. Estraggo un primo campione: 5 soggetti su 10 vincono il premio; proporzione di vincita 5/10. Estraggo un secondo campione: 7 soggetti su 10 vincono il premio; proporzione di vincita 7/10. Estraggo un terzo campione: 2 soggetti su 10 vincono il premio; proporzione di vincita 2/10. Arriviamo all’ennesimo campione, sempre di numerosità 10: dobbiamo andare a vedere quali sono tutte le proporzioni possibili (es: 0/10, 1/10, 2/10 ecc.). Dopodiché andiamo a contare quanti campioni hanno ottenuto la prima proporzione di vincita, quanti la seconda, quanti la terza ecc. Abbiamo costruito in questo modo una distribuzione campionaria empirica della proporzione di n successi su k eventi binomiali. La differenza fondamentale tra una distribuzione di frequenza e una distribuzione campionaria è che nel primo caso il focus è sul singolo caso, nel secondo caso invece la nostra attenzione si sposta sul singolo risultato, ma ottenuto da ogni singolo campione. 55 Possiamo anche qui andare a calcolare la media e la deviazione standard della distribuzione ottenuta, che prenderanno rispettivamente il nome di media campionaria (𝝁𝑴) e distribuzione campionaria (𝝈𝑴). La media (𝝁𝑴) è data dalla media delle medie dei campioni. La deviazione standard (𝝈𝑴) viene calcolata a partire dagli scarti al quadrato di ciascuna media campionaria delle media 𝝁𝑴. NB: la distribuzione campionaria della media ha sempre una media uguale a quella della popolazione da cui i campioni sono estratti. La deviazione standard invece può variare. Se io vado a rappresentare graficamente la distribuzione campionaria della media noteremo che, indipendentemente dalla forma della distribuzione dei dati della popolazione, assume sempre una forma normale. Questo mi porta a due leggi: • TEOREMA DEL LIMITE CENTRALE: Indipendentemente dalla forma della distribuzione della popolazione, la distribuzione campionaria della media è sempre una curva normale. Questo è vero quando la numerosità campionaria è maggiore di 30 (per n maggiore o uguale a 30 la distribuzione campionaria della media tenderà sempre alla normalità). 56 • LEGGE DEI GRANDI NUMERI: All’aumentare di n diminuisce la variabilità della distribuzione campionaria. Se n tende all’infinito, 𝝈𝑴 tende a zero. Tanto più n è elevato, tanto più le medie dei campioni si avvicineranno a quella della popolazione. È sempre meglio raccogliere dati su campioni molto ampi, più grandi sono più la curva assume la forma normale, ma soprattutto diminuisce la variabilità, il termine di errore. La variabilità la dobbiamo intendere come una forma di errore, in particolare la variabilità campionaria viene detto errore standard. ERRORE STANDARD à La deviazione standard della distribuzione campionaria 𝝈𝑴, detta errore standard, esprime la media delle deviazioni standard di ciascun campione dalla media della popolazione, ovvero l’insieme degli scarti delle medie campionarie rispetto al valore esatto della popolazione. Nella statistica inferenziale non possiamo studiare la popolazione nel suo complesso, li raccogliamo solo su un campione, su alcuni campioni, ma poi dobbiamo sapere se questi risultati che abbiamo ottenuto sono attendibili, sono affidabili, sono rappresentativi di quella popolazione, sono generalizzabili alla popolazione. E allora quello di cui c’è bisogno è che l’errore sia più piccolo possibile. Infatti, è possibile calcolare un intervallo di fiducia della media, all’interno del quale è possibile calcolare il risultato che si ottiene e sapere con quale probabilità è accurato o no. 57 𝑴− 𝒛 5 𝒔 √𝒏 − 𝟏 6 < 𝝁 < 𝑴+ 𝒛 5 𝒔 √𝒏 − 𝟏 6 Generalmente si sceglie un intervallo del 95% o del 99%: ciò significa che io ho il 5% o l’1% di sbagliare, ma allo stesso tempo l’intervallo è più grande. Al posto di z bisogna sostituire due diversi valori a seconda che si scelga 95% o 99%, e questi valori sono rispettivamente z = 1,96 e z = 2,58. La verifica delle ipotesi. La verifica delle ipotesi è una procedura statistica strettamente connessa, quasi alla base, dell’inferenza statistica. Quando si parla di inferenza statistica ci si riferisce alla situazione in cui noi vogliamo studiare un fenomeno, ma non ci conviene farlo su tutta la popolazione o realtà che vogliamo conoscere e comprendere, e quindi estraiamo un campione. Il risultato di questo esperimento dovrebbe essere quello di generalizzare il risultato ottenuto sul campione all’intera popolazione, in quanto sarebbe impossibile, anche attraverso uno studio accuratissimo, studiare davvero l’intera popolazione ottenendo dei risultati che siano completamente e del tutto certi. Si potrà solo arrivare alla conclusione che il risultato ottenuto sia probabilmente vero. Per giungere a questo risultato mi servirà seguire quel procedimento detto: verifica delle ipotesi. Tale procedura parte dall’ipotizzare che un certo fenomeno abbia specifiche caratteristiche nella popolazione. 60 Generalmente però questo non è possibile perché ci riferiamo di solito a popolazioni molto grandi. Tuttavia, proprio perché non sappiamo con certezza come stanno le cose nella realtà e traiamo delle conclusioni valutando in termini probabilistici gli indicatori misurati su una parte di questa realtà (campione), i risultati che otteniamo sono sempre soggetti ad una quota d'errore. In parole povere, l'ipotesi di partenza non viene ritenuta probabilmente valida, ma viene ritenuta possibile. Ipotesi nulla e ipotesi alternativa. Per ipotesi si fa riferimento a un'affermazione, una congettura temporaneamente vera. In una ricerca si parte sempre da una formulazione di due diverse ipotesi che sono mutuamente escludentisi, poiché non possono essere vere entrambe contemporaneamente, ed esaustive in quanto completano insieme tutto il campo dell'oggetto di ricerca su cui noi ci stiamo focalizzando. L'ipotesi che non vi sia differenza è detta ipotesi nulla, per indicarla si usa il simbolo 𝑯𝟎, ed esprime sempre una relazione di uguaglianza. L'altra ipotesi, detta ipotesi alternativa, viene indicata con 𝑯𝟏 ed esprime una relazione di disuguaglianza. La procedura di verifica delle ipotesi non testa in modo diretto l'ipotesi alternativa, ma mira alla falsificazione dell'ipotesi nulla. 61 Questa modalità ha un presupposto di natura filosofica (facciamo riferimento soprattutto a Popper) secondo il quale un'ipotesi può essere falsificata ma non verificata. Se possiamo considerare l'ipotesi nulla probabilmente falsa, allora potremo ritenere probabilmente vera l'ipotesi alternativa; viceversa, se non possiamo farlo, concluderemo che l'ipotesi alternativa debba essere respinta. Livello di significatività 𝛼. Per prendere una decisione sull’ipotesi nulla definiamo un valore minimo di probabilità, ovvero un valore di soglia entro il quale l'ipotesi deve essere mantenuta, oltre il quale dobbiamo rifiutarla. Il valore di probabilità prefissato viene detto livello di significatività 𝜶, Che esprime in termini probabilistici il limite oltre il quale respingere l'ipotesi nulla. Con 𝜶 Si delimita dunque una regione della distribuzione campionaria, detta regione di rifiuto dell'ipotesi nulla, che contiene tutti quei risultati che possono essere considerati improbabili posta avere a tale ipotesi. Se 𝒑 > 𝜶 dobbiamo accettare; se 𝒑 ≤ 𝜶 dobbiamo rifiutare 𝑯𝟎. La soglia si colloca facendo riferimento a dei criteri convenzionali. Generalmente il livello di significatività viene fissato su valori molto bassi, come 𝜶 = 𝟎. 𝟎𝟓, 𝜶 = 𝟎. 𝟎𝟏 oppure 𝜶 = 𝟎. 𝟎𝟎𝟏. Fissando tale valore, stabiliamo la probabilità dell'errore che accettiamo di correre nel prendere la nostra decisione. 62 Nel caso di 𝜶 = 𝟎. 𝟎𝟓 accettiamo un 5% di possibilità di commettere un errore nel prendere la nostra decisione, nel caso di 𝜶 = 𝟎. 𝟎𝟏, Accettiamo la probabilità di errore dell’1% e infine nel caso di 𝜶 = 𝟎. 𝟎𝟎𝟏, accettiamo la probabilità di errore dello 0,1%. Test monodirezionale o bidirezionale. L'ipotesi alternativa può essere monodirezionale o bidirezionale. Quando l'ipotesi alternativa viene formulata in termini di disuguaglianza e contrapposta all'uguaglianza espressa nelle ipotesi nulla, quindi la differenza può andare nelle due direzioni, questa viene detta ipotesi bidirezionale. I test statistici utilizzati per la verifica delle ipotesi vengono detti bidirezionali o a due code, in quanto la regione di rifiuto dell'ipotesi nulla, definita da 𝜶, viene ripartita equamente nelle due code della distribuzione di riferimento. z = 1.96 Per esempio: la media della popolazione degli studenti di psicologia è minore oppure maggiore della media della popolazione degli studenti di altre facoltà. Tuttavia, l'ipotesi alternativa può anche essere definita in termini monodirezionali, ovvero stabilendo la direzione della differenza: se maggiore, l'ipotesi è monodirezionale destra (es: la media della popolazione degli studenti di psicologia è maggiore della media della popolazione degli studenti di altre facoltà), se minore, l'ipotesi è 65 Questo vuol dire che, se per le caratteristiche della ricerca dobbiamo mantenere basso il livello di significatività, dobbiamo sapere che ciò comporta una diminuzione della potenza del test. Verifica delle ipotesi con una variabile. Quando ci troviamo nella situazione in cui si lavora con una variabile misurata su un campione bisogna per prima cosa capire che tipo di variabile è, ovvero se si tratta di una variabile qualitativa dicotomica oppure di una variabile metrica. Quando ci troviamo di fronte a una variabile dicotomica, si utilizza il test binomiale. Quando invece ci troviamo di fronte a una variabile metrica bisognerà guardare l’ampiezza campionaria: se n > 30 andremo ad utilizzare il test z della media, se al contrario n < 30, andremo ad utilizzare il test t student sulla media. Il test t di student presenta tutte le caratteristiche di una distribuzione normale, ma è più schiacciata: ciò significa che c’è più variabilità. Test binomiale. Riprendiamo l’esempio relativo al mazzo di carte: dubitiamo della regolarità del mazzo che ci è stato fornito e dobbiamo prendere una decisione a proposito estraendo casualmente 10 carte. Le carte costituiscono il nostro campione e la variabile in esame su scala nominale dicotomica è il colore della carta (rossa/nera). 66 Una volta compiuta l’estrazione osserviamo che 9 carte sono rosse: 9/10 costituisce il nostro dato campionario. Per prima cosa bisogna formulare le ipotesi statistiche. Se sospettiamo che il mazzo sia irregolare, nell’ipotesi nulla affermeremo il contrario, ovvero che vi sia la stessa proporzione di carte rosse e nere. Formuleremo quindi le ipotesi come segue: • 𝑯𝟎: 𝒑 = 𝟎. 𝟓𝟎 (la probabilità di estrarre una carta rossa è uguale al 50%, ovvero la probabilità di estrarre una carta rossa è uguale a quella di estrarne una nera). Se non si un’idea precisa su quali carte siano in proporzione maggiore, l’ipotesi alternativa sarà bidirezionale: • 𝐻1: 𝑝 ≠ 0.50 (la probabilità di estrarre una carta rossa è diversa dal 50%, ovvero la probabilità di estrarre una carta rossa è diversa da quella di estrarne una nera). Viceversa, se abbiamo un’idea più precisa sulla regolarità del mazzo, l’ipotesi alternativa sarà monodirezionale: • 𝐻1: 𝑝 > 0.50 (la probabilità di estrarre una carta rossa è maggiore del 50%, ovvero la probabilità di estrarre una carta rossa è maggiore di quella di estrarne una nera). Una volta formulate le ipotesi statistiche, è necessario fissare il livello di significatività. Per esempio, 𝛼 = 0.05, definendo conseguentemente la regione di rifiuto dell’ipotesi nulla. 67 Successivamente occorre scegliere un test statistico che consenta di associare una probabilità al dato campionario posta vera l’ipotesi nulla. Dato che la nostra variabile è dicotomica utilizzeremo il test binomiale: 𝒑(𝒌) = 𝒏𝑪𝒌𝒑𝒌𝒒𝒏)𝒌 In questo modo confronteremo la regione definita da questi due risultati con la regione di rifiuto definita con alfa: 𝒑 (𝒂𝒍𝒎𝒆𝒏𝒐 𝟗) = 𝟏𝟎(𝟎. 𝟓𝟎)(𝟎. 𝟓𝟎)𝟗 + (𝟎. 𝟓𝟎)𝟏𝟎 = 𝟎. 𝟎𝟏𝟏 Infine, saremo in grado di prendere una decisione sull’ipotesi nulla confrontandola con 𝛼: nel nostro esempio 𝛼 è fissato a 0.05 e il p calcolato è 0.011, ci troviamo quindi nel caso in cui p < 𝛼 e dunque dobbiamo rifiutare 𝑯𝟎. Tutto ciò ci porta a concludere che la proporzione di carte rosse non sia del 50% mentre al contrario avvalora l’ipotesi che vi siano più carte rosse. NB: è molto importante ricordare che la scelta del livello di significatività ha un ruolo determinante sulla nostra decisione, per cui stabiliamo il livello di significatività in relazione alla gravità di commettere un errore nel trarre le nostre conclusioni. In generale, si cerca di ridurre la probabilità di commettere un errore di I tipo, ovvero di rifiutare l’ipotesi nulla quando è vera. 70 NB: per identificare i valori critici di t occorre utilizzare un’apposita tavola che riporta i valori critici in relazione ad ipotesi bidirezionali vs monodirezionali, ad alcuni valori di 𝛼 e ai gradi di libertà derivati dal numero di casi del campione. I gradi di libertà esprimono il numero di valori liberi di variare poste certe restrizioni à gdl = n – 1 Il test prevede la stessa formula del test z: 𝒕𝑴 = 𝑴− 𝝁 𝝈 √𝒏 Verifica delle ipotesi con due variabili. Supponiamo che un gruppo di studenti abbia seguito una serie di incontri in cui si forniscono indicazioni utili a gestire l’ansia nell’affrontare gli esami. Attraverso un particolare test si misura il loro livello di ansia prima di un esame e calcoliamo la media. Il punteggio medio così ottenuto non fornisce alcuna indicazione sull’utilità degli incontri perché non abbiamo alcun termine di paragone: per esempio non sappiamo quale fosse il livello d’ansia prima degli incontri. Per trarre delle conclusioni in merito all’efficacia degli incontri possiamo adottare due modalità distinte. 71 Un modo per risolvere la questione è quello di fare una valutazione prima e una dopo gli incontri e successivamente metterle a confronto (confronto pre-test e post-test). Un altro modo è quello di prendere in considerazione due diversi gruppi di studenti: un gruppo che partecipa agli incontri e un gruppo che non lo fa. Se c’è una differenza la si potrà attribuire all’intervento che è stato fatto. La ricerca si definisce su due variabili: la prima variabile è una variabile quantitativa dicotomica, ovvero gli incontri (seguiti/non seguiti o prima/dopo); la seconda variabile è una variabile quantitativa, ovvero il livello d’ansia ottenuto attraverso il test. A questo punto possiamo fare una distinzione tra: campioni indipendenti e campioni dipendenti. Quando in una ricerca sono stati presi in esame due campioni, composti da partecipanti con le stesse caratteristiche generali, selezionati in modo indipendente e casuale, si parla di campioni indipendenti: ciascun soggetto contribuisce ad un’unica misurazione. Viceversa, quando prendiamo in esame un campione composto da partecipanti che hanno le stesse caratteristiche generali ed il confronto avviene tra coppie di valori ottenute sullo stesso soggetto, siamo nel caso in cui si parla di campioni dipendenti: ciascun soggetto contribuisce con due misurazioni. 72 Lavorare con campioni indipendenti o dipendenti comporta l’utilizzo di test statistici diversi: nell’applicazione dei test per campioni indipendenti utilizzeremo come distribuzione di riferimento la distribuzione campionaria della differenza tra due medie, mentre nell’applicazione del test per il confronto tra campioni dipendenti utilizzeremo come distribuzione di riferimento la distribuzione campionaria della media delle differenze (o della differenza media). La distribuzione campionaria della differenza tra medie. Supponiamo di avere una popolazione composta da tre carte: la prima carta (A) vale 1 punto, la seconda carta (B) vale due punti e la terza carta (C) vale tre punti. Questa popolazione avrà una media 𝜇 uguale a 2 e deviazione standard 𝜎 uguale a 0,82. Estraiamo campioni di due elementi, reinserendo ogni volta la carta. In questo modo otterremo 6 diversi campioni. Il primo passo sarà quello di calcolare le loro medie in base al valore delle due carte e la relativa distribuzione di frequenza. Successivamente, supponiamo di accoppiare casualmente questi campioni e di calcolare per ogni coppia la differenza tra le due medie 𝑀1 e 𝑀!. 75 Faremo riferimento alla distribuzione campionaria della differenza tra due medie applicando il test z della differenza tra due medie: 𝒛𝑴𝟏&𝑴𝟐 = 𝑴𝟏− 𝑴𝟐 2 𝒔𝟏𝟐 𝒏𝟏 − 𝟏 + 𝒔𝟐𝟐 𝒏𝟐 − 𝟏 Infine, confrontando 𝒛𝒄𝒂𝒍𝒄𝒐𝒍𝒂𝒕𝒐 𝑐𝑜𝑛 𝒛𝒄𝒓𝒊𝒕𝒊𝒄𝒐 osserviamo che |z| è maggiore di |𝒛𝒄𝒓𝒊𝒕𝒊𝒄𝒐|. Questo ci porta a concludere che l'ipotesi nulla debba essere respinta, che i campioni probabilmente appartengono a popolazioni diverse e che gli incontri sono probabilmente efficaci in quanto riducono il livello d'ansia nell'affrontare un esame. Verifica delle ipotesi con due campioni indipendenti: test t della differenza tra media. Quando la numerosità del campione sul quale abbiamo calcolato la media ha un'ampiezza minore 30 utilizziamo il test t poiché la distribuzione campionaria della media avrà le caratteristiche della distribuzione t di Student. Lo stesso criterio si applica quando la verifica delle ipotesi è relativa alla differenza tra due medie calcolate su campioni con ampiezze inferiori a 30, dove utilizzeremo il test t della differenza tra due medie. Per prima cosa formuliamo nello stesso identico modo le ipotesi statistiche con un’ipotesi alternativa monodirezionale e il livello di significatività uguale a 0,05. 76 Oltre a ciò, per identificare sulla tavola il valore critico di t dobbiamo calcolare i gradi di libertà. gdl = 𝒏𝟏 + 𝒏𝟐 − 𝟐 Dopo aver calcolato i gradi di libertà e trovato il valore critico di t, possiamo applicare il test statistico t della differenza tra due medie: 𝒕𝑴𝟏&𝑴𝟐 = 𝑴𝟏 −𝑴𝟐 28𝒔𝟏 𝟐(𝒏𝟏 − 𝟏) + 𝒔𝟐𝟐(𝒏𝟐 − 𝟏) 𝒏𝟏 + 𝒏𝟐 − 𝟐 < =𝒏𝟏 + 𝒏𝟐𝒏𝟏𝒏𝟐 > Infine, possiamo prendere una decisione in base alle ipotesi statistiche precedentemente ipotizzate. Verifica delle ipotesi con due campioni dipendenti: test t della media delle differenze. Riprendiamo l'esempio della popolazione composta da tre carte che indichiamo con A (1 punto), B (2 punti) e C (tre punti). Estraiamo da questa popolazione coppie di due elementi reinserendo ogni volta la carta. In questo modo otteniamo 9 diverse coppie: questa volta non calcoliamo la media ma la differenza tra i valori delle due carte, ottenendo una nuova popolazione. I dati che otterremo saranno 𝜇 = 0 e 𝜎 = 1,15. Supponiamo adesso di formare dei campioni estraendo a caso valori da questa nuova popolazione formata da differenze. 77 Ad esempio, costituiamo campioni con n=3 per cui possiamo avere un primo campione composto dalle differenze A-A, B-A e A-B, ovvero dai valori 0, 1 e -1. Calcolando la media di queste differenze otteniamo la differenza media uguale a (0+1-1)/3=0. Proseguendo in questo modo fino ad esaurire tutte le possibili triplette di differenze, otteniamo la distribuzione campionaria della media delle differenze. Quando la ricerca viene condotta utilizzando due campioni dipendenti potremmo utilizzare solo il test t della media delle differenze. Supponiamo di avere raccolto i punteggi relativi all'ansia di 10 studenti prima di aver seguito gli incontri e i punteggi degli stessi 10 studenti dopo gli incontri. Prima di procedere dobbiamo calcolare la differenza tra ciascuna coppia di valori. Una volta ottenute le differenze, calcoliamo la media, che indichiamo con 𝑴𝑫e la deviazione standard, che indichiamo con 𝒔𝑫. Formuliamo poi le ipotesi statistiche: • 𝑯𝟎: 𝝁𝑫 = 𝟎; • 𝑯𝟏: 𝝁𝑫 ≠ 𝟎; • 𝑯𝟏: 𝝁𝑫 > 𝟎. Fissiamo il livello di significatività a 0,05, portando di conseguenza delineare la regione di rifiuto dell'ipotesi nulla. 80 Il valore presente in ciascuna cella corrisponde al numero dei partecipanti con la combinazione dei due livelli, ad esempio 30 sono gli studenti provenienti dall'Istituto professionale e che sono iscritti ad una laurea triennale. Il valore ci indica quindi la frequenza degli studenti con quelle particolari caratteristiche. Frequenze osservate e frequenze teoriche. Per prima cosa bisogna fare una distinzione tra frequenze osservate e frequenze teoriche. I valori presenti nella tabella precedente sono le frequenze osservate, in quanto corrispondono a dati realmente misurati durante l'esperimento. Le frequenze teoriche, invece, bisogna calcolarle. Le frequenze teoriche corrispondono alle frequenze attese, quelle che mi aspetterei di trovare nel caso in cui non ci fosse relazione fra le mie due variabili ovvero nel caso di indipendenza tra le variabili, quando non esiste alcuna relazione tra esse. Il nostro obiettivo è poi quello di mettere a confronto le frequenze osservate e le frequenze teoriche. Per calcolare le frequenze teoriche bisogna per prima cosa calcolare le frequenze marginali di riga e di colonna. 81 Successivamente bisogna calcolare il valore teorico, moltiplicando il marginale di riga per il marginale di colonna diviso il numero totale dei partecipanti: 𝒇𝒕 = 𝒇𝒓 ∙ 𝒇𝒄 𝒇𝒕𝒐𝒕 Dopo aver misurato le frequenze osservate e quelle teoriche si può calcolare il valore del chi quadrato. La formula del test è la seguente: 𝝌𝟐 = 𝚺 (𝒇𝒐 − 𝒇𝒕)𝟐 𝒇𝒕 Questo test allo scopo di misurare quanto le frequenze osservate sono distanti da quelle teoriche. Quando il valore del chi quadrato tende a zero, significa che le frequenze osservate sono simili a quelle teoriche e quindi si può ipotizzare un'indipendenza tra le variabili; quando si ottiene un valore che si allontana da zero, vi è una differenza tra le frequenze osservate e le frequenze teoriche che indica l’esistenza di una relazione tra le variabili. Un valore di chi quadrato uguale a zero indica un’indipendenza perfetta tra le variabili, in quanto le frequenze osservate sono uguali a quelle attese. 82 RIASSUMENDO: Per dimostrare l'esistenza di una relazione tra le variabili occorre verificare che il valore ottenuto non sia dovuto al caso. Il problema che ci dobbiamo porre è se la relazione osservata tra le variabili nel campione è presente anche nella popolazione. Si procede quindi con la verifica delle ipotesi che ci consente di associare una probabilità all'ipotesi di indipendenza. 85 La correlazione. La correlazione rientra nel concetto della covariazione. L’analisi correlazionale può essere compiuta su due ambiti differenti: possiamo lavorare sul fronte dell’analisi grafica, così come possiamo lavorare sul fronte del calcolo del coefficiente r di Pearson. Possiamo rappresentare graficamente la relazione tra due variabili costruendo un diagramma di dispersione. Quando si studia la correlazione tra due variabili è possibile mettere in evidenza da un lato quella che è l’intensità, cioè la forza del legame che esiste tra le due variabili; dall'altra parte è possibile stabilire la direzione di questa variabile. COSA SIGNIFICA STABILIRE LA DIREZIONE DEL CAMBIAMENTO? Abbiamo due variabili: la variabile X e la variabile Y àpossiamo osservare dei cambiamenti concomitanti: la relazione deve essere uguale per tutte e due oppure diversa. Se X e Y vanno nella stessa direzione, la misura avrà segno positivo; viceversa, se al crescere di X, Y decresce, la misura avrà segno negativo. Nel primo caso si parla di correlazione positiva. Nel secondo caso abbiamo invece una correlazione negativa. 86 Sull'asse delle ascisse dobbiamo disporre valori della variabile X e sull'asse delle ordinate quelli della variabile Y. La coppia dei valori di X e Y corrisponde alle coordinate del punto à ogni punto corrisponde infatti a un nostro caso. Quando non c'è relazione tra le due variabili i nostri punti ci appaiono in modo disordinato: si parla in questo caso di nube di punti. Il coefficiente r di Pearson. Dalla divisione dei dati presentati nel diagramma di dispersione possiamo quindi avere una prima indicazione relativa alla relazione tra le due variabili. Il coefficiente r di Pearson viene utilizzato per misurare la relazione lineare tra le due variabili su scala ad intervalli o a rapporti. Questo coefficiente è noto come coefficiente di correlazione e viene indicato con r. 𝒓 = ∑ (𝒙𝒊 − 𝒙) ∙ (𝒚𝒊 − 𝒚)𝒏 𝒊<𝟎 o∑ (𝒙𝒊 − 𝒙)𝟐𝒏 𝒊<𝟎 ∙ ∑ (𝒚𝒊 − 𝒚)𝟐𝒏 𝒊<𝟎 87 NB: quando applichiamo la formula r di Pearson è possibile ottenere soltanto valori che vanno da -1 a 1 (-1 ≤ r ≤ 1). Più il valore è vicino a uno, sia in senso negativo che positivo, significa che c'è correlazione tra le due variabili: positiva se si avvicina di più a +1, negativa se si avvicina di più a -1. Se r = -1 significa che c'è una perfetta correlazione negativa. Se r = +1 significa che c'è una perfetta correlazione positiva. Se r = 0 significa che c'è assenza di correlazione. Questi valori “perfetti” non esistono nella ricerca a causa della probabilità di errore. La misura della significatività del coefficiente r. Con il coefficiente r possiamo esprimere l’entità della relazione tra due variabili. Tuttavia, il valore che otteniamo può essere del tutto casuale! Occorre quindi applicare la procedura della verifica delle ipotesi per verificare se la correlazione, trovata nel campione, sia diversa da 0 anche nella popolazione. 90 Lo facciamo tenendo conto anche di ulteriori coefficienti statistici: uno fra questi è il coefficiente di determinazione. Regressione. Nel caso della regressione si fa riferimento all’ambito della previsione. Non si tratta più di una relazione tra le variabili simmetrica, ma asimmetrica, nel senso che abbiamo una delle variabili che è detta “predittore” e l’altra variabile è detta “predetta”. Nella vita di tutti i giorni facciamo previsioni. Le previsioni sono parte fondamentale anche nell’attività dello psicologo: ad esempio, nell’ambito dell’orientamento possono essere fatte delle previsioni in base all’abilità dello studente circa il suo futuro scolastico o professionale. Si fa quindi una previsione su quanto questi aspetti possono influenzare. Siamo quindi in presenza di due variabili e si tratta di prevedere il valore di una variabile che non abbiamo direttamente misurato, ma che è in relazione con l’altra. Per esempio, si può ipotizzare che gli studenti che hanno superato con un buon voto l’esame di psicometria otterranno un risultato soddisfacente all’esame di tecniche. 91 In base alla relazione presente tra il risultato all’esame di psicometria e all’esame di tecniche si può fare una previsione che consiste nello stimare un possibile valore del voto dell’esame di tecniche (variabile Y) senza averlo misurato, ma conoscendo soltanto il voto dell’esame di psicometria (variabile X). Una variabile, quindi, è rilevante nel fare delle previsioni sull’altra variabile quando tra le due esiste una correlazione. NB: se non c’è correlazione che senso ha cercare di scoprire se una variabile predice l’altra? Tanto più la correlazione è forte, tanto più la previsione risulta accurata. La variabile X è quindi predittore e fornisce le informazioni per poter predire la variabile Y. Per rappresentare graficamente la relazione tra le due variabili viene utilizzato il diagramma di dispersione. Per formulare delle ipotesi mettiamo sull’asse delle ascisse i valori della variabile predittore e sull’asse delle ordinate la variabile predetta. Per poter fare delle previsioni dobbiamo trovare un solo valore di Y in corrispondenza ad un solo valore di X. Per fare ciò occorre trovare una retta, detta retta di regressione, che si trova attraverso l’applicazione dell’equazione di regressione. 92 In generale una retta è esprimibile mediante la seguente equazione: Y = a + bX dove a è detta intercetta, in quanto punto in cui la nostra retta interseca l’asse delle Y, e b è l’inclinazione della retta. Si devono calcolare i parametri (a e b) della retta. Il primo passo è quello di calcolare b, il coefficiente di regressione. Il valore di b si ottiene con la seguente formula: 𝒃 = ∑(𝒙𝒊 −𝑴𝒙)(𝒚𝒊 −𝑴𝒀) ∑(𝒙𝒊 −𝑴𝒙) 𝟐 Calcolato b, utilizziamo questo valore per il calcolo di a, con la seguente formula: 𝒂 = 𝑴𝒚 − 𝒃𝑴𝒙 Le formule ottenute per il calcolo di b e di a sono state ottenute utilizzando il metodo dei minimi quadrati che consente di trovare tra le infinite rette quella che ha le proprietà di ridurre al minimo la somma degli scarti al quadrato tra i valori teorici di Y e valori osservati di Y. Conoscendo il valore di a e di b possiamo, a questo punto, ottenere l’equazione 𝒚. Si utilizza una diversa notazione per indicare il valore di Y stimato, predetto con l’equazione, dal valore osservato; il primo viene indicato con l’accento circonflesso (𝒀 ), il secondo senza accento (Y).