Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Variabili Statistiche Doppie e Indici di Connessione, Appunti di Statistica Psicometrica

Appunti presi a lezione di statistica psicometrica con esempi e tabelle vicino.

Tipologia: Appunti

2022/2023

In vendita dal 23/05/2023

sara-ghiringhelli-3
sara-ghiringhelli-3 🇮🇹

4.5

(2)

13 documenti

1 / 86

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA PSICOMETRICA
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56

Anteprima parziale del testo

Scarica Variabili Statistiche Doppie e Indici di Connessione e più Appunti in PDF di Statistica Psicometrica solo su Docsity!

STATISTICA PSICOMETRICA

CAP.1: INTRODUZIONE La maggior parte della psicologia si basa sulla ricerca empirica (osservazione) e ha tanti obiettivi, tra cui la misurazione di fenomeni psicologici. La statistica da delle chiavi per riuscire a leggere la psicologia. La statistica non è una scienza esatta anzi è la più esatta delle scienze inesatte. Ci sono due tipi di statistica: statistica descrittiva e statistica inferenziale, sono due facce quasi della stessa medaglia si nota come gli strumenti sono molto simili ma le letture sono diverse. La “statistica descrittiva” vuol dire descrivere un fenomeno, fare una fotografia della realtà così com’è, vera, senza modifiche, non affetta da errore (es. se adesso chiedo ad ognuno quanto siamo alti, prendo i dati, faccio la media aritmetica e questo vuol dire fare una statistica descrittiva) e può essere di due tipi: univariata quindi solo una variabile mentre bivariata due variabili per volta (perché due variabili insieme? Perché immagino ci sia un tipo di relazione e serve per studiare la relazione tra variabile). La “statistica inferenziale” vuol dire prendere un campione, fare inferenza, estrarre ed estendere i risultati ad una popolazione più ampia rispetto al campione dal quale è stato estratto (es. sondaggi elettorali che vengono fatti in un numero più ampio ovvio che se ho pochi risultati questo sarà un’approssimazione e questa cercherà di avere sempre un margine di incertezza e di errore il più piccolo possibile). Come si fa a far sì che questo errore sia pari a zero? In che condizioni?

  • Prendo il campione più ampio per riuscire a prendere in considerazione tutta la popolazione quindi da statistica inferenziale si passa alla statistica descrittiva;
  • Prendo un campione della popolazione quando un fenomeno non ha variabilità (es. tutta la popolazione è alta 1.70) quindi assenza di variabilità però a quel punto non c’è neanche statistica perché essa è misurazione della variabilità dell’eterogeneità. Invece non posso prendere in considerazione un campione rappresentativo perché in questo caso non annulla del tutto, minimizza l’errore ma non lo annulla questo perché il campione rappresentativo è il campione che in piccolo rappresenta caratteristiche della popolazione. La statistica è un insieme di strumenti logici e matematico-probabilistici per la misura e il trattamento di grandi quantità di informazioni configurabili come fenomeni di massa ma è anche uno strumento di supporto nei processi decisionali (specie in quelle situazioni in cui si devono prendere decisioni in condizione di incertezza grazie all’apporto decisivo della teoria della probabilità) come, per esempio, prendendo in considerazione l’argomento sui vaccini. La statistica si può utilizzare in contesti molto differenti in psicologia:
  • Analisi di un questionario
  • Misurazione di un fenomeno osservato (es. altezza)
  • Misurazione di un fenomeno latente (es. ansia)

 Discreti ovvero le cui modalità non sono divise tra di loro quindi tra una modalità e un’altra non c’è nessun’altra modalità (es. numero di figli: tra una modalità e un’altra non ci può essere una modalità intermedia non ci possono essere 0,5 figli, età) quindi numeri interi, finiti  Continui ovvero caratteri in cui tra una modalità e un’altra c’è sempre una modalità in mezzo (es. altezza: tra 1.75 e 1.80 ci possono essere altre misure) quindi numeri infiniti e reali o Dataset di analisi statistica presenta una matrice: per ogni riga un’unità statistica mentre per ogni colonna un carattere. L’insieme di unità statistiche e caratteri costituisce le variabili statistiche che sono quindi un insieme di unità statistiche esplicitate nei loro caratteri. Ogni riga viene denominata “record” mentre ogni colonna prende il nome di “variabile” Questa distinzione tra i diversi caratteri diventano le scale di misurazione: nominale, ordinale, a intervalli e a rapporti che si differenzia in base al dato statistico che utilizziamo. I caratteri quantitativi si misurano in due scale differenti: A intervalli vuol dire che parte da uno zero arbitrario (lo zero non indica assenza ma è una modalità possibile come, per esempio, la temperatura) mentre la scala a rapporti parte da uno zero assoluto ovvero assenza del fenomeno (es. un fenomeno alto 0cm è impossibile, peso, valori clinici). Quando abbiamo un certo numero di dati, li osserviamo mentre se abbiamo molti dati grezzi diventa difficile da leggere e per questo si organizzano in tabelle di frequenza ovvero prospetti/elenchi delle osservazioni che permettono la lettura compatta (es. città di Residenza è più semplice avere una tabella). SIMBOLOGIA Quando si ha un insieme di dati, la prima cosa che si fa è raccogliere i dati in tabelle di frequenza che sono costituite da almeno due colonne: nella prima viene di solito messa xi (x con i dove “i” indica la “iesima” modalità ovvero x1: biondo, x2: castano, x3: rosso) che sono le distinte modalità di un carattere. Ad ogni distinta modalità viene associata una frequenza che viene indicata con “fi” (f con i ovvero la frequenza assoluta e “i” va da 1 a k dove k è il numero di modalità differenti) mentre “n” è il numero di osservazioni/unità statistiche (es. quanti soggetti prendiamo in considerazione). N e K non c’è nessun motivo che siano uguali perché indicano due cose differenti.

TIPI DI FREQUENZE

- Frequenza assoluta è la frequenza di base perché indica il numero di unità statistiche che presentano una data modalità (xi) quindi ci sarà x1 e quindi ci sarà la frequenza associata a questo e f1 sarà il numero di soggetti che presentano questa modalità (es. x1 è il colore dei capelli biondi quindi f1 indica il numero di persone che hanno i capelli biondi). Sono numeri sempre uguali o maggiori a zero, nel caso venisse negativo vuol dire che è sbagliato, sono numeri interi e il totale delle frequenze assolute è uguale a “n” ovvero il numero totale di osservazioni; - Frequenza relativa (o percentuale): indicano il numero di unità statistiche sul totale che presentano una data modalità (xi), spesso è utile utilizzare la percentuale perché ci rende possibile capire velocemente i dati. La frequenza percentuale viene identificata con fi% ed è data dalla frequenza assoluta (fi) diviso il totale (n) per 100. Il numero che rappresenta la percentuale è sempre compreso tra 0 e 100 Queste due tipi di frequenze possono essere utilizzate in tutti i tipi di caratteri Se c’è un ordinamento nelle modalità vanno messe ordinate in modo crescente - Frequenza cumulata (cumulative): questa tipologia si può dividere in altre due tipologie che sono le frequenze cumulate assolute e le frequenze cumulate relative.  Frequenza cumulata assoluta: somma successiva di frequenze assolute dalla prima fino alla “iesima” quindi la generica frequenza cumulata è data da Fi= f1+f2+f3…. Indicano il numero di unità statistiche che presentano una data modalità oppure una precedente e una inferiore (es. titolo di studio: la frequenza cumulata associata al diploma di scuola superiore indicherà il numero di unità statistiche che hanno il titolo di diploma di scuola superiore o il precedente o inferiore). La prima frequenza cumulata assoluta è uguale alla prima frequenza assoluta F1=f1 mentre l’ultima frequenza cumulata assoluta è uguale a “n” se non viene uguale vuol dire che abbiamo sbagliato  Frequenza cumulata relativa: somma successiva di frequenze relative dalla prima fino alla “iesima” e indicano non il numero di unità statistiche che hanno una modalità ma la percentuale di unità statistiche che presentano una modalità o una modalità inferiore o precedente. Ci sono poi delle formule definite “ricorsive” per poter calcolare in modo veloce le frequenze cumulate. Ogni frequenza cumulata si può calcolare come la cumulata precedente più la frequenza assoluta della riga che stiamo considerando. Questo tipo di frequenze si calcolano solo quando i caratteri presentano un ordinamento (non si calcolano per i caratteri sconnessi).

Se dobbiamo scegliere noi è meglio scegliere classi che abbiano un’ampiezza costante, tutte le classi devono avere una stessa ampiezza perché così vengono confrontate facilmente ma ci sono situazioni in cui le classi hanno ampiezza diversa (es. età). Se le ampiezze sono diverse allora dobbiamo stare attenti. L’ampiezza si calcola come la differenza tra limite superiore e limite inferiore (seconda classe: 30-20=10 quindi l’ampiezza è uguale a 10). Quindi in caso le ampiezze siano differenti bisogna calcolare le “densità di frequenza”. Le densità di frequenza sono le percentuali di frequenza assoluta (o relativa) nell’intervallo unitario, vuol dire che si calcola dividendo la frequenza assoluta della classe presa in considerazione con “ai” ovvero l’ampiezza della classe. Da un punto di vista interpretativo: 5,4 vuol dire che nell’intervallo 30-40 mediamente nell’intervallo unitario (differenza di uno) abbiamo 5,4 unità statistiche mentre nella classe successiva che aveva frequenza assoluta più ampia in una ampiezza più alta ha una densità pari a 1,475 quindi in ogni intervallo unitario ci sono 1,475 unità quindi è meno denso. Quindi quando abbiamo un carattere continuo che ha classi con ampiezze diverse, non si confrontano le frequenze assolute ma le densità di frequenze sia per calcolare la moda sia per i grafici. RAPPRESENTAZIONI GRAFICHE 1.RAPPRESENTAZIONI DI DISTRIBUZIONE DI FREQUENZA: -Caratteri qualitativi (sconnessi o ordinati): possiamo utilizzare  Diagramma a torta  Diagramma a rettangoli separati

-Caratteri quantitativi discreti: possiamo utilizzare  Diagramma a bastoncini (canne d’organo) -Caratteri quantitativi continui (o discreti con modalità in classi): possiamo utilizzare  Istogrammi In caso fossero divisi in classe con ampiezza non uguale, bisogna calcolare le densità e l’altezza dei rettangoli sarebbe corrispondente alla densità di frequenza. I grafici hanno l’asse delle ascisse nella quale vengono inserite le modalità mentre nell’asse delle ordinate le frequenze che possono essere: assolute, relative o densità

modalità associata è la moda non è la massima frequenza ma la modalità a cui è associata la massima frequenza. Questo vale per tutti eccetto per i caratteri quantitativi in classe, se le classi hanno ampiezza diversa allora la moda è quella a cui è associata la massima densità di frequenza. Si può calcolare per tutti i dati statistici ma di fatto solo per i caratteri sconnessi perché la moda è un indice descrittivo poco informativo (variabile età di 100 persone: 2 hanno 18 anni mentre gli altri sopra i 70, Tutti si presentano una volta e la moda viene 18 perché si presenta 2 volte mentre gli altri hanno tutte età differenti ma questo è poco rappresentativo). La mediana è la modalità/valore che occupa la posizione centrale o posizione mediana nella distribuzione ordinata dei dati, in cui con il termine “distribuzione ordinata” si vuole intendere che i dati devono essere ordinati in ordine crescente ed è per questo che per i caratteri sconnessi non può essere calcolata. La mediana è preceduta dal 50% dei casi e superata dal 50% dei casi; quindi, vuol dire che divide la distribuzione in due parti. Indice molto utilizzato anche se ha il limite perché prende la distribuzione e prende il valore che sta in mezzo, di quello che succede nelle code quindi negli estremi non vengono presi in considerazione. Per capire quale sia la mediana, bisogna sommare tutti i dati, ordinarli e individuare una “posizione mediana” che indichiamo con Pos(me): (n+1) /2 dove n è la dimensione campionaria. La mediana è la modalità che occupa quella posizione non è questa posizione, la posizione mediana è la posizione che occupa la mediana mentre la mediana è la modalità cui è associata questa posizione. Questa frequenza possiamo individuarla grazie alla colonna delle frequenze cumulate, individuando la prima frequenza cumulata maggiore o uguale alla posizione mediana quindi la posizione che è cercata. Per i caratteri quantitativi sia discreti che continui i due indici di posizione adeguati sono la mediana e soprattutto la media aritmetica. o Caratteri quantitativi discreti : il calcolo della mediana può essere calcolato come nel caso dei caratteri qualitativi ordinati ovvero la posizione (n+1) / .

o Caratteri quantitativi continui (in classi): se il carattere è in classi si trova una “classe mediana” che avviene in due step: il primo passo si individua una classe definita “classe mediana” sarà la prima classe equivalente alla frequenza cumulata maggiore o uguale alla posizione cercata, dopo che individuiamo la classe la calcoliamo facendo dove:

hi − 1 : limite inferiore della classe mediana (da 10 a 15 quindi un intervallo e quello è il

limite inferiore di questa classe che in questo caso è 10)

PO SME : posizione che occupa la mediana (n+1) /

F(i-1): Frequenza cumulata della classe precedente alla mediana

Ai : ampiezza della classe mediana (limite superiore-limite inferiore)

Fi : frequenza assoluta della classe mediana

La mediana è un caso particolare dei percentili. Il percentile è la modalità/valori che dividono la distribuzione di frequenza ordinata in più parti (esistono diversi percentili: percentile di ordine 60, di ordine 30) esistono diversi percentili ovvero 100 percentili diversi e il significato è che il 90esimo percentile è quel valore tale per cui il 90% delle osservazioni avvengono prima mentre il 10% delle osservazioni avviene dopo. I percentili sono indici di posizione non necessariamente delle posizioni centrali. Tanti tipi di percentili ma i più conosciuti sono:

  • Quartili : dividono in quattro parti la distribuzione. Il primo quartile è quel valore tale per cui ¼ viene prima mentre i ¾ viene dopo quindi vuol dire che è il 25esimo percentile; secondo quartile: 2/4 prima e 2/4 dopo quindi 50% prima e 50% dopo allora equivale alla mediana; terzo quartile o 75esimo percentile
  • Decili : dividono in 10 parti la distribuzione e vuol dire fare 5 su 10 prima e 5 su 10 dopo
  • Percentili : dividono in 100 parti la distribuzione Quindi in generale il percentile di ordine p è quella modalità che:
  • Preceduta da almeno p% dei casi;
  • Superata da almeno (1-p) % dei casi

ESEMPIO:

Un vantaggio che ha la media è che prende in considerazione tutte le modalità, tutte le osservazioni ciò non accade nel caso della mediana perché prende tutte le osservazioni, le mette in ordine e prende solo quelle centrali mentre di quello che accade nelle code non interessa. In alcuni casi salvo quando siamo in presenza di casi anomali quindi o troppo grandi o troppo piccoli si preferisce la mediana perché è più stabile (es. in una settimana tutti i giorni gradi simili tranne un giorno che era 24, quella settimana se faccio la media viene 14 perché il 24 modifica, quindi, non è rappresentativo della settimana mentre la mediana mette in ordine i gradi e il valore centrale è 6 quindi più stabile in presenza di valori estremi). CAP.3 INDICI DI VARIABILITA’ (O DI DISPERSIONE) Gli indici di variabilità o dispersione vengono utilizzati soltanto per i caratteri quantitativi perché sono numeri. Ci sono diversi indici di dispersione: CAMPO DI VARIAZIONE: Il campo di variazione è la differenza tra il valore maggiore e quello minore della distribuzione di frequenza osservata. Quindi: È un indice poco informativo perché ci dice in quale intervallo si muovono le nostre osservazioni ma come si muovono all’interno di questo intervallo non possiamo saperlo.

Tutte e tre hanno lo stesso campo di variazione, l’unica cosa che cambia è il modo in cui si trovano le modalità (es. nel primo caso sono equi distribuite mentre negli altri due no). DIFFERENZA INTERQUARTILE: La differenza interquartile è data dalla differenza tra il terzo e il primo quartile. Quindi: Facendo questo arriviamo a calcolare quelle rappresentazioni che sono centrali e viene utilizzato per capire qual è il range delle osservazioni più rappresentative di una distribuzione. Quindi il 50% di quelle centrali. La differenza interquartile è analoga al campo di variazione ma tiene conto solo dei valori che cadono tra il primo e terzo quartile (cioè del 50% della distribuzione). Anche questo indice ha dei limiti perché quello che succede al di fuori di quel 50% non lo sappiamo quindi non sappiamo niente di quello che succede agli estremi. LA VARIANZA Quindi con il termine “scarto” si va ad indicare la distanza che ogni valore ha da un valore di riferimento e facciamo una media di queste distanze. La varianza è la media degli scarti dalla media al quadrato Ci sono diversi modi con la quale posso indicare la varianza: per indicare la varianza di un campione mentre sigma quadro ( ) per indicare la varianza di una popolazione. Quindi: In realtà le formule della varianza sono tre: Per i dati grezzi la formula è: Per le distribuzioni di frequenza è: Per i dati in classi:

campione, due variabili diverse su due campioni diversi, stessa variabile in due gruppi ma che hanno una numerosità diversa). Es. le medie e le deviazioni standard ad un test motivazionale al lavoro dei lavoratori di due aziende sono rispettivamente:. Qual è l’azienda con maggior variabilità assoluta? E maggior variabilità relativa? La prima azienda più o meno 7 vuol dire che ha una deviazione standard di 7 mentre la media 84, la stessa cosa per la seconda azienda. La variabilità assoluta è la deviazione standard e quella che ha maggior variabilità assoluta è la prima azienda. In realtà però il confronto non lo posso fare con le deviazioni standard perché ho la stessa variabile, due gruppi diversi ma non conosco le numerosità dei due gruppi: se hanno la stessa numerosità posso fare il confronto ma in questo caso non sapendolo non posso farlo. La variabilità relativa invece possono calcolarmi il coefficiente di variazione del primo gruppo, calcolo quello del secondo gruppo. Quindi: dove “s” sta per la deviazione standard diviso la media. In questo caso c’è maggior variabilità relativa nella seconda azienda. Il confronto tra indici: STANDARDIZZAZIONE Un punteggio all’interno di una distribuzione è in realtà privo di significato se preso da solo. Sapere che un soggetto ha ottenuto un punteggio x=52 in una scala di aggressività dice abbastanza poco sulla caratteristica del soggetto perché non sappiamo fino a che punteggio arriva la scala, quindi, potrebbe significare che è poco aggressivo ma anche tanto aggressivo. (Un altro esempio è nel momento in cui devo confrontare punteggi diversi: es io sono alto 1.69 e peso 62 Kg. Sono più alto o più grasso? Come faccio a confrontarlo che sono espressi in due unità di misura differenti? Non posso). Come faccio a confrontare dei punteggi? Mi serve riportare i punteggi in una scala definita “standard” ovvero una scala priva di unità di misura cioè ci fornisce

un punteggio che indipendentemente dalla scala di misura da cui sono partito è sempre un valore commentabile. La standardizzazione è molto importante in ambito psicologico perché mi permette di confrontare dei punteggi a test psicologici diversi, i punteggi grezzi non posso confrontarli ma li devo portare tutti su una stessa scala comune per poter confrontarli. Es. se si sa che un soggetto è alto 1.80. Questa informazione assume un significato ben diverso se il soggetto è un pigmeo o uno svedese. Nel primo caso sarebbe “molto alto” mentre nel secondo caso sarebbe “nella media”. Per avere un’idea chiara del significato di un dato valore dobbiamo riferire il valore stesso alla distribuzione di punteggi del gruppo di cui fa parte. Gli aspetti da considerare sono due:

  • La scala di misurata utilizzata (i punteggi di un test sono su scale ad intervalli equivalenti prive dello zero, i punteggi vengono quindi riferiti alla media e alla varianza di un gruppo)
  • Confronto tra punteggi in test diversi (per confrontare misure ottenute con strumenti diversi è necessario riferirle ad una scala comune o standard) L’operazione si definisce di “standardizzazione” e si utilizza in diversi contesti:
  1. Commentare un singolo punteggio all’interno di una scala (es. un soggetto è alto 1.82, rispetto alla popolazione da cui è estratto);
  2. Confrontare due punteggi di uno stesso soggetto in due scale diverse (es. sono alto 1.69 e peso 62 Kg)
  3. Confrontare per una stessa scala due soggetti diversi (es. un soggetto in un’autostima ha preso 25 mentre l’altro 32. Quindi si sa che 32 è maggiore di 25). Questo confronto tra punteggi è diverso rispetto al confronto tra distribuzioni, spesso viene confuso il coefficiente di variazione con la standardizzazione ma hanno due finalità diverse:
  • il coefficiente di variazione serve per confrontare la variabilità di due intere distribuzioni, intere variabili mentre la standardizzazione confronto tra singoli punteggi delle variabili.
  • Standardizzare significa riferire la misura ad una scala standard (comune) di cui sono noti i parametri (media e varianza quindi di conseguenza la deviazione standard). Gli indicatori di tendenza centrale e di dispersione possono essere utilizzati per ottenere la standardizzazione delle misure. Una delle scale più comunemente utilizzata è detta “standard” o “z”. Questa scala si ottiene trasformando ogni singolo punteggio xi di una distribuzione in punteggi zi tramite la formula:

soggetto si dimostra più introverso o più ansioso? È necessario utilizzare una scala comune sulla quale “leggere” i punteggi dei due test. Sappiamo che nell’intera popolazione la media dei punteggi al test di ansia è 36.6 e la deviazione standard 5.97 il punteggio 30 del nostro soggetto potrà essere trasformato in:. Sapere che ha ottenuto un punto zeta di -1.11 significa che si trova al di sotto della media (segno negativo) di circa 1 deviazione standard. Mentre la media dei punteggi al test di introversione è 31.2 e la deviazione standard 5.62; di conseguenza il punteggio 30 diviene:. Quindi z ansia è - 1.11 mentre z introversione è -0.21. Su questa base si può affermare che il nostro soggetto è molto meno ansioso che introverso, anche se in ambedue le caratteristiche si colloca al di sotto della media. RANGHI PERCENTILI Il rango percentile è un altro modo per commentare dei singoli punteggi in una distribuzione Il rango percentile RP (X) di un punteggio X può essere definito come la percentuale di dati che assumono un valore uguale o minore di X ovvero dato un punteggio X, a quale percentile corrisponde? Facciamo il contrario di quello che facevamo per i percentili dove invece ci si chiedeva che numero occupava un determinato percentile. Se, per esempio, xi è il punteggio del soggetto i, dire che RP(X)= 28 significa dire che il soggetto occupa la 28esima posizione percentuale nella sequenza ordinata dei dati, cioè che è preceduto dal 28% dei soggetti. La formula è: POS indica la posizione occupata dal punteggio x nella sequenza ordinata crescente dei dati. Quindi io devo prendere i dati, metterli in ordine crescente, guardare qual è la posizione occupata da un determinato punteggio di cui io voglio calcolare il percentile Es. 9 bambini sono stati sottoposti ad un test di timidezza, riportando i seguenti punteggi: Calcolare il rango percentile del bambino “D”. Metto in ordine il punteggio, osservo la posizione del bambino che vogliamo prendere in considerazione e successivamente si calcola il rango percentile e in questo caso il bambino D occupa il 40esimo percentile.

CAP. 4 ANALISI STATISTICA DESCRITTIVA BIVARIATA (CONNESSIONE E TABELLA DOPPIA ENTRATA) Statistica descrittiva bivariata: “descrittiva” vuol dire che facciamo una fotografia, analizziamo i dati che misuriamo, abbiamo delle riflessioni, interpretiamo dei risultati relativamente solo a quello che abbiamo osservato mentre non siamo in grado di dire nulla su quello che non abbiamo osservato. Mentre “bivariata” perché analizziamo due variabili congiuntamente ed è una delle statistiche che fa parte della statistica multivariata dove si analizzano tante variabili congiuntamente. Si decide di studiare due variabili in modo congiunto perché immaginiamo che tra queste due ci sia una qualche relazione, relazione che possono essere di diversa natura, spesso di dipendenza, di causa-effetto (es. il voto agli esami e le ore di studio, questo tipo di relazione è di dipendenza ovvero il voto dell’esame dipende da quante ore ho studiato ma non viceversa). Mentre le relazioni possono anche essere definite relazioni di interdipendenza ovvero due variabili sono legate tra di loro o perché entrambe sono legate ad una terza variabile che media o modera ma anche perché ci possono essere due variabili che possono essere legate perché interdipendenti ovvero X influenza Y e contemporaneamente Y influenza X (es. colore occhi e colore capelli di solito sono legate tra di loro). VARIABILE STATISTICA DOPPIA In genere quando parliamo di relazione tra due variabili abbiamo a che fare con una variabile statistica doppia. Fino adesso abbiamo visto che la variabile statistica è una variabile caratterizzata da una doppietta quindi una doppia modalità e frequenze associate. Mentre le variabili statistiche doppie sono caratterizzate da due caratteri X e Y e quindi dalle modalità della variabile X di una variabile, dalle modalità della variabile Y della seconda variabile e da certe frequenze. Quindi è caratterizzata da queste “terne”:

. Questo insieme di terne viene definito “variabile/mutabile statistica doppia” in cui:

  • Xi: modalità della variabile X (es. colore capelli, diverse Xi saranno biondo, castano, nero);
  • Yj: modalità della variabile Y (es. colore occhi, diverse Yi saranno verde, marrone);
  • Fij: frequenze e si dicono “frequenze assolute congiunte” che indicheranno il numero di unità statistiche che presentano congiuntamente la modalità i del carattere X e la modalità j del carattere Y La variabile statistica doppia si rappresenta tramite una tabella a doppia entrata (tavole di contingenza) caratterizzata da: variabile X, le cui modalità vengono espresse per riga (ma anche in colonna non è un errore) espressa in “h” modalità ovvero X1, X2, X3; per colonna di solito la seconda variabile