














































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi a lezione di statistica psicometrica con esempi e tabelle vicino.
Tipologia: Appunti
1 / 86
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















































































CAP.1: INTRODUZIONE La maggior parte della psicologia si basa sulla ricerca empirica (osservazione) e ha tanti obiettivi, tra cui la misurazione di fenomeni psicologici. La statistica da delle chiavi per riuscire a leggere la psicologia. La statistica non è una scienza esatta anzi è la più esatta delle scienze inesatte. Ci sono due tipi di statistica: statistica descrittiva e statistica inferenziale, sono due facce quasi della stessa medaglia si nota come gli strumenti sono molto simili ma le letture sono diverse. La “statistica descrittiva” vuol dire descrivere un fenomeno, fare una fotografia della realtà così com’è, vera, senza modifiche, non affetta da errore (es. se adesso chiedo ad ognuno quanto siamo alti, prendo i dati, faccio la media aritmetica e questo vuol dire fare una statistica descrittiva) e può essere di due tipi: univariata quindi solo una variabile mentre bivariata due variabili per volta (perché due variabili insieme? Perché immagino ci sia un tipo di relazione e serve per studiare la relazione tra variabile). La “statistica inferenziale” vuol dire prendere un campione, fare inferenza, estrarre ed estendere i risultati ad una popolazione più ampia rispetto al campione dal quale è stato estratto (es. sondaggi elettorali che vengono fatti in un numero più ampio ovvio che se ho pochi risultati questo sarà un’approssimazione e questa cercherà di avere sempre un margine di incertezza e di errore il più piccolo possibile). Come si fa a far sì che questo errore sia pari a zero? In che condizioni?
Discreti ovvero le cui modalità non sono divise tra di loro quindi tra una modalità e un’altra non c’è nessun’altra modalità (es. numero di figli: tra una modalità e un’altra non ci può essere una modalità intermedia non ci possono essere 0,5 figli, età) quindi numeri interi, finiti Continui ovvero caratteri in cui tra una modalità e un’altra c’è sempre una modalità in mezzo (es. altezza: tra 1.75 e 1.80 ci possono essere altre misure) quindi numeri infiniti e reali o Dataset di analisi statistica presenta una matrice: per ogni riga un’unità statistica mentre per ogni colonna un carattere. L’insieme di unità statistiche e caratteri costituisce le variabili statistiche che sono quindi un insieme di unità statistiche esplicitate nei loro caratteri. Ogni riga viene denominata “record” mentre ogni colonna prende il nome di “variabile” Questa distinzione tra i diversi caratteri diventano le scale di misurazione: nominale, ordinale, a intervalli e a rapporti che si differenzia in base al dato statistico che utilizziamo. I caratteri quantitativi si misurano in due scale differenti: A intervalli vuol dire che parte da uno zero arbitrario (lo zero non indica assenza ma è una modalità possibile come, per esempio, la temperatura) mentre la scala a rapporti parte da uno zero assoluto ovvero assenza del fenomeno (es. un fenomeno alto 0cm è impossibile, peso, valori clinici). Quando abbiamo un certo numero di dati, li osserviamo mentre se abbiamo molti dati grezzi diventa difficile da leggere e per questo si organizzano in tabelle di frequenza ovvero prospetti/elenchi delle osservazioni che permettono la lettura compatta (es. città di Residenza è più semplice avere una tabella). SIMBOLOGIA Quando si ha un insieme di dati, la prima cosa che si fa è raccogliere i dati in tabelle di frequenza che sono costituite da almeno due colonne: nella prima viene di solito messa xi (x con i dove “i” indica la “iesima” modalità ovvero x1: biondo, x2: castano, x3: rosso) che sono le distinte modalità di un carattere. Ad ogni distinta modalità viene associata una frequenza che viene indicata con “fi” (f con i ovvero la frequenza assoluta e “i” va da 1 a k dove k è il numero di modalità differenti) mentre “n” è il numero di osservazioni/unità statistiche (es. quanti soggetti prendiamo in considerazione). N e K non c’è nessun motivo che siano uguali perché indicano due cose differenti.
- Frequenza assoluta è la frequenza di base perché indica il numero di unità statistiche che presentano una data modalità (xi) quindi ci sarà x1 e quindi ci sarà la frequenza associata a questo e f1 sarà il numero di soggetti che presentano questa modalità (es. x1 è il colore dei capelli biondi quindi f1 indica il numero di persone che hanno i capelli biondi). Sono numeri sempre uguali o maggiori a zero, nel caso venisse negativo vuol dire che è sbagliato, sono numeri interi e il totale delle frequenze assolute è uguale a “n” ovvero il numero totale di osservazioni; - Frequenza relativa (o percentuale): indicano il numero di unità statistiche sul totale che presentano una data modalità (xi), spesso è utile utilizzare la percentuale perché ci rende possibile capire velocemente i dati. La frequenza percentuale viene identificata con fi% ed è data dalla frequenza assoluta (fi) diviso il totale (n) per 100. Il numero che rappresenta la percentuale è sempre compreso tra 0 e 100 Queste due tipi di frequenze possono essere utilizzate in tutti i tipi di caratteri Se c’è un ordinamento nelle modalità vanno messe ordinate in modo crescente - Frequenza cumulata (cumulative): questa tipologia si può dividere in altre due tipologie che sono le frequenze cumulate assolute e le frequenze cumulate relative. Frequenza cumulata assoluta: somma successiva di frequenze assolute dalla prima fino alla “iesima” quindi la generica frequenza cumulata è data da Fi= f1+f2+f3…. Indicano il numero di unità statistiche che presentano una data modalità oppure una precedente e una inferiore (es. titolo di studio: la frequenza cumulata associata al diploma di scuola superiore indicherà il numero di unità statistiche che hanno il titolo di diploma di scuola superiore o il precedente o inferiore). La prima frequenza cumulata assoluta è uguale alla prima frequenza assoluta F1=f1 mentre l’ultima frequenza cumulata assoluta è uguale a “n” se non viene uguale vuol dire che abbiamo sbagliato Frequenza cumulata relativa: somma successiva di frequenze relative dalla prima fino alla “iesima” e indicano non il numero di unità statistiche che hanno una modalità ma la percentuale di unità statistiche che presentano una modalità o una modalità inferiore o precedente. Ci sono poi delle formule definite “ricorsive” per poter calcolare in modo veloce le frequenze cumulate. Ogni frequenza cumulata si può calcolare come la cumulata precedente più la frequenza assoluta della riga che stiamo considerando. Questo tipo di frequenze si calcolano solo quando i caratteri presentano un ordinamento (non si calcolano per i caratteri sconnessi).
Se dobbiamo scegliere noi è meglio scegliere classi che abbiano un’ampiezza costante, tutte le classi devono avere una stessa ampiezza perché così vengono confrontate facilmente ma ci sono situazioni in cui le classi hanno ampiezza diversa (es. età). Se le ampiezze sono diverse allora dobbiamo stare attenti. L’ampiezza si calcola come la differenza tra limite superiore e limite inferiore (seconda classe: 30-20=10 quindi l’ampiezza è uguale a 10). Quindi in caso le ampiezze siano differenti bisogna calcolare le “densità di frequenza”. Le densità di frequenza sono le percentuali di frequenza assoluta (o relativa) nell’intervallo unitario, vuol dire che si calcola dividendo la frequenza assoluta della classe presa in considerazione con “ai” ovvero l’ampiezza della classe. Da un punto di vista interpretativo: 5,4 vuol dire che nell’intervallo 30-40 mediamente nell’intervallo unitario (differenza di uno) abbiamo 5,4 unità statistiche mentre nella classe successiva che aveva frequenza assoluta più ampia in una ampiezza più alta ha una densità pari a 1,475 quindi in ogni intervallo unitario ci sono 1,475 unità quindi è meno denso. Quindi quando abbiamo un carattere continuo che ha classi con ampiezze diverse, non si confrontano le frequenze assolute ma le densità di frequenze sia per calcolare la moda sia per i grafici. RAPPRESENTAZIONI GRAFICHE 1.RAPPRESENTAZIONI DI DISTRIBUZIONE DI FREQUENZA: -Caratteri qualitativi (sconnessi o ordinati): possiamo utilizzare Diagramma a torta Diagramma a rettangoli separati
-Caratteri quantitativi discreti: possiamo utilizzare Diagramma a bastoncini (canne d’organo) -Caratteri quantitativi continui (o discreti con modalità in classi): possiamo utilizzare Istogrammi In caso fossero divisi in classe con ampiezza non uguale, bisogna calcolare le densità e l’altezza dei rettangoli sarebbe corrispondente alla densità di frequenza. I grafici hanno l’asse delle ascisse nella quale vengono inserite le modalità mentre nell’asse delle ordinate le frequenze che possono essere: assolute, relative o densità
modalità associata è la moda non è la massima frequenza ma la modalità a cui è associata la massima frequenza. Questo vale per tutti eccetto per i caratteri quantitativi in classe, se le classi hanno ampiezza diversa allora la moda è quella a cui è associata la massima densità di frequenza. Si può calcolare per tutti i dati statistici ma di fatto solo per i caratteri sconnessi perché la moda è un indice descrittivo poco informativo (variabile età di 100 persone: 2 hanno 18 anni mentre gli altri sopra i 70, Tutti si presentano una volta e la moda viene 18 perché si presenta 2 volte mentre gli altri hanno tutte età differenti ma questo è poco rappresentativo). La mediana è la modalità/valore che occupa la posizione centrale o posizione mediana nella distribuzione ordinata dei dati, in cui con il termine “distribuzione ordinata” si vuole intendere che i dati devono essere ordinati in ordine crescente ed è per questo che per i caratteri sconnessi non può essere calcolata. La mediana è preceduta dal 50% dei casi e superata dal 50% dei casi; quindi, vuol dire che divide la distribuzione in due parti. Indice molto utilizzato anche se ha il limite perché prende la distribuzione e prende il valore che sta in mezzo, di quello che succede nelle code quindi negli estremi non vengono presi in considerazione. Per capire quale sia la mediana, bisogna sommare tutti i dati, ordinarli e individuare una “posizione mediana” che indichiamo con Pos(me): (n+1) /2 dove n è la dimensione campionaria. La mediana è la modalità che occupa quella posizione non è questa posizione, la posizione mediana è la posizione che occupa la mediana mentre la mediana è la modalità cui è associata questa posizione. Questa frequenza possiamo individuarla grazie alla colonna delle frequenze cumulate, individuando la prima frequenza cumulata maggiore o uguale alla posizione mediana quindi la posizione che è cercata. Per i caratteri quantitativi sia discreti che continui i due indici di posizione adeguati sono la mediana e soprattutto la media aritmetica. o Caratteri quantitativi discreti : il calcolo della mediana può essere calcolato come nel caso dei caratteri qualitativi ordinati ovvero la posizione (n+1) / .
o Caratteri quantitativi continui (in classi): se il carattere è in classi si trova una “classe mediana” che avviene in due step: il primo passo si individua una classe definita “classe mediana” sarà la prima classe equivalente alla frequenza cumulata maggiore o uguale alla posizione cercata, dopo che individuiamo la classe la calcoliamo facendo dove:
limite inferiore di questa classe che in questo caso è 10)
F(i-1): Frequenza cumulata della classe precedente alla mediana
La mediana è un caso particolare dei percentili. Il percentile è la modalità/valori che dividono la distribuzione di frequenza ordinata in più parti (esistono diversi percentili: percentile di ordine 60, di ordine 30) esistono diversi percentili ovvero 100 percentili diversi e il significato è che il 90esimo percentile è quel valore tale per cui il 90% delle osservazioni avvengono prima mentre il 10% delle osservazioni avviene dopo. I percentili sono indici di posizione non necessariamente delle posizioni centrali. Tanti tipi di percentili ma i più conosciuti sono:
Un vantaggio che ha la media è che prende in considerazione tutte le modalità, tutte le osservazioni ciò non accade nel caso della mediana perché prende tutte le osservazioni, le mette in ordine e prende solo quelle centrali mentre di quello che accade nelle code non interessa. In alcuni casi salvo quando siamo in presenza di casi anomali quindi o troppo grandi o troppo piccoli si preferisce la mediana perché è più stabile (es. in una settimana tutti i giorni gradi simili tranne un giorno che era 24, quella settimana se faccio la media viene 14 perché il 24 modifica, quindi, non è rappresentativo della settimana mentre la mediana mette in ordine i gradi e il valore centrale è 6 quindi più stabile in presenza di valori estremi). CAP.3 INDICI DI VARIABILITA’ (O DI DISPERSIONE) Gli indici di variabilità o dispersione vengono utilizzati soltanto per i caratteri quantitativi perché sono numeri. Ci sono diversi indici di dispersione: CAMPO DI VARIAZIONE: Il campo di variazione è la differenza tra il valore maggiore e quello minore della distribuzione di frequenza osservata. Quindi: È un indice poco informativo perché ci dice in quale intervallo si muovono le nostre osservazioni ma come si muovono all’interno di questo intervallo non possiamo saperlo.
Tutte e tre hanno lo stesso campo di variazione, l’unica cosa che cambia è il modo in cui si trovano le modalità (es. nel primo caso sono equi distribuite mentre negli altri due no). DIFFERENZA INTERQUARTILE: La differenza interquartile è data dalla differenza tra il terzo e il primo quartile. Quindi: Facendo questo arriviamo a calcolare quelle rappresentazioni che sono centrali e viene utilizzato per capire qual è il range delle osservazioni più rappresentative di una distribuzione. Quindi il 50% di quelle centrali. La differenza interquartile è analoga al campo di variazione ma tiene conto solo dei valori che cadono tra il primo e terzo quartile (cioè del 50% della distribuzione). Anche questo indice ha dei limiti perché quello che succede al di fuori di quel 50% non lo sappiamo quindi non sappiamo niente di quello che succede agli estremi. LA VARIANZA Quindi con il termine “scarto” si va ad indicare la distanza che ogni valore ha da un valore di riferimento e facciamo una media di queste distanze. La varianza è la media degli scarti dalla media al quadrato Ci sono diversi modi con la quale posso indicare la varianza: per indicare la varianza di un campione mentre sigma quadro ( ) per indicare la varianza di una popolazione. Quindi: In realtà le formule della varianza sono tre: Per i dati grezzi la formula è: Per le distribuzioni di frequenza è: Per i dati in classi:
campione, due variabili diverse su due campioni diversi, stessa variabile in due gruppi ma che hanno una numerosità diversa). Es. le medie e le deviazioni standard ad un test motivazionale al lavoro dei lavoratori di due aziende sono rispettivamente:. Qual è l’azienda con maggior variabilità assoluta? E maggior variabilità relativa? La prima azienda più o meno 7 vuol dire che ha una deviazione standard di 7 mentre la media 84, la stessa cosa per la seconda azienda. La variabilità assoluta è la deviazione standard e quella che ha maggior variabilità assoluta è la prima azienda. In realtà però il confronto non lo posso fare con le deviazioni standard perché ho la stessa variabile, due gruppi diversi ma non conosco le numerosità dei due gruppi: se hanno la stessa numerosità posso fare il confronto ma in questo caso non sapendolo non posso farlo. La variabilità relativa invece possono calcolarmi il coefficiente di variazione del primo gruppo, calcolo quello del secondo gruppo. Quindi: dove “s” sta per la deviazione standard diviso la media. In questo caso c’è maggior variabilità relativa nella seconda azienda. Il confronto tra indici: STANDARDIZZAZIONE Un punteggio all’interno di una distribuzione è in realtà privo di significato se preso da solo. Sapere che un soggetto ha ottenuto un punteggio x=52 in una scala di aggressività dice abbastanza poco sulla caratteristica del soggetto perché non sappiamo fino a che punteggio arriva la scala, quindi, potrebbe significare che è poco aggressivo ma anche tanto aggressivo. (Un altro esempio è nel momento in cui devo confrontare punteggi diversi: es io sono alto 1.69 e peso 62 Kg. Sono più alto o più grasso? Come faccio a confrontarlo che sono espressi in due unità di misura differenti? Non posso). Come faccio a confrontare dei punteggi? Mi serve riportare i punteggi in una scala definita “standard” ovvero una scala priva di unità di misura cioè ci fornisce
un punteggio che indipendentemente dalla scala di misura da cui sono partito è sempre un valore commentabile. La standardizzazione è molto importante in ambito psicologico perché mi permette di confrontare dei punteggi a test psicologici diversi, i punteggi grezzi non posso confrontarli ma li devo portare tutti su una stessa scala comune per poter confrontarli. Es. se si sa che un soggetto è alto 1.80. Questa informazione assume un significato ben diverso se il soggetto è un pigmeo o uno svedese. Nel primo caso sarebbe “molto alto” mentre nel secondo caso sarebbe “nella media”. Per avere un’idea chiara del significato di un dato valore dobbiamo riferire il valore stesso alla distribuzione di punteggi del gruppo di cui fa parte. Gli aspetti da considerare sono due:
soggetto si dimostra più introverso o più ansioso? È necessario utilizzare una scala comune sulla quale “leggere” i punteggi dei due test. Sappiamo che nell’intera popolazione la media dei punteggi al test di ansia è 36.6 e la deviazione standard 5.97 il punteggio 30 del nostro soggetto potrà essere trasformato in:. Sapere che ha ottenuto un punto zeta di -1.11 significa che si trova al di sotto della media (segno negativo) di circa 1 deviazione standard. Mentre la media dei punteggi al test di introversione è 31.2 e la deviazione standard 5.62; di conseguenza il punteggio 30 diviene:. Quindi z ansia è - 1.11 mentre z introversione è -0.21. Su questa base si può affermare che il nostro soggetto è molto meno ansioso che introverso, anche se in ambedue le caratteristiche si colloca al di sotto della media. RANGHI PERCENTILI Il rango percentile è un altro modo per commentare dei singoli punteggi in una distribuzione Il rango percentile RP (X) di un punteggio X può essere definito come la percentuale di dati che assumono un valore uguale o minore di X ovvero dato un punteggio X, a quale percentile corrisponde? Facciamo il contrario di quello che facevamo per i percentili dove invece ci si chiedeva che numero occupava un determinato percentile. Se, per esempio, xi è il punteggio del soggetto i, dire che RP(X)= 28 significa dire che il soggetto occupa la 28esima posizione percentuale nella sequenza ordinata dei dati, cioè che è preceduto dal 28% dei soggetti. La formula è: POS indica la posizione occupata dal punteggio x nella sequenza ordinata crescente dei dati. Quindi io devo prendere i dati, metterli in ordine crescente, guardare qual è la posizione occupata da un determinato punteggio di cui io voglio calcolare il percentile Es. 9 bambini sono stati sottoposti ad un test di timidezza, riportando i seguenti punteggi: Calcolare il rango percentile del bambino “D”. Metto in ordine il punteggio, osservo la posizione del bambino che vogliamo prendere in considerazione e successivamente si calcola il rango percentile e in questo caso il bambino D occupa il 40esimo percentile.
CAP. 4 ANALISI STATISTICA DESCRITTIVA BIVARIATA (CONNESSIONE E TABELLA DOPPIA ENTRATA) Statistica descrittiva bivariata: “descrittiva” vuol dire che facciamo una fotografia, analizziamo i dati che misuriamo, abbiamo delle riflessioni, interpretiamo dei risultati relativamente solo a quello che abbiamo osservato mentre non siamo in grado di dire nulla su quello che non abbiamo osservato. Mentre “bivariata” perché analizziamo due variabili congiuntamente ed è una delle statistiche che fa parte della statistica multivariata dove si analizzano tante variabili congiuntamente. Si decide di studiare due variabili in modo congiunto perché immaginiamo che tra queste due ci sia una qualche relazione, relazione che possono essere di diversa natura, spesso di dipendenza, di causa-effetto (es. il voto agli esami e le ore di studio, questo tipo di relazione è di dipendenza ovvero il voto dell’esame dipende da quante ore ho studiato ma non viceversa). Mentre le relazioni possono anche essere definite relazioni di interdipendenza ovvero due variabili sono legate tra di loro o perché entrambe sono legate ad una terza variabile che media o modera ma anche perché ci possono essere due variabili che possono essere legate perché interdipendenti ovvero X influenza Y e contemporaneamente Y influenza X (es. colore occhi e colore capelli di solito sono legate tra di loro). VARIABILE STATISTICA DOPPIA In genere quando parliamo di relazione tra due variabili abbiamo a che fare con una variabile statistica doppia. Fino adesso abbiamo visto che la variabile statistica è una variabile caratterizzata da una doppietta quindi una doppia modalità e frequenze associate. Mentre le variabili statistiche doppie sono caratterizzate da due caratteri X e Y e quindi dalle modalità della variabile X di una variabile, dalle modalità della variabile Y della seconda variabile e da certe frequenze. Quindi è caratterizzata da queste “terne”:
. Questo insieme di terne viene definito “variabile/mutabile statistica doppia” in cui: