












Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Psicometria - Domande e risposte Aperte per ogni Lezione
Tipologia: Panieri
1 / 20
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!













La ricerca qualitativa porta alla raccolta delle informazioni osservabili di un determinato evento o
comportamento, dove è fondamentale esplorare ed esprimere le qualità di un determinato oggetto
d’indagine indipendentemente da quanto siano rapportabili ad una teoria.
I dati solitamente sono acquisiti tramite interviste (strutturate, semi-strutturate, non strutturate) o di
osservazioni (partecipanti, a distanza o focus group).
La ricerca qualitativa, insomma, si concentra sulla raccolta di dati soprattutto verbali, piuttosto che
su misurazioni numeriche.
Infatti questi metodi non si pongono come obiettivo quello di verificare le ipotesi e nemmeno di
formulare delle leggi generali, ci permettono di analizzare le caratteristiche di un fenomeno e in
base a quello sviluppare un’ipotesi che andrà testata in un successivo esperimento quantitativo. Tale
ricerca presenta notevoli vantaggi, come individuare una serie di sfumature di un determinato
comportamento o evento che non potrebbero essere colte diversamente, il che permette, in ambito
psicologico, di osservare la variabilità individuale arricchendo notevolmente il dato osservato.
Di conseguenza i limiti di questa metodologia possono essere l’estrema individualità e soggettività
con cui si raccoglie un dato.
Le tipologie di osservazione nella ricerca qualitativa sono tre: osservazione partecipante,
osservazione a distanza e focus group.
L’osservazione partecipante prevede la partecipazione attiva dell’osservatore nella quotidianità del
fenomeno di interesse, spiegandone dinamiche e comportamenti dei soggetti.
L’osservazione a distanza prevede un distacco emotivo e cognitivo del ricercatore, con l’oggetto di
studio, per salvaguardarne l’oggettività.
Il focus group prevede che il moderatore osservi su un piccolo gruppo le dinamiche e il non verbale,
sulla discussione di uno specifico argomento, il tutto ripreso da una telecamera.
Le tipologie di intervista nella ricerca qualitativa sono tre: intervista strutturata, intervista semi-
strutturata e intervista non strutturata.
L’intervista strutturata è la più importante, in cui l’intervistatore segue una traccia di domande
predefinite, senza dare la possibilità all’intervistato di intervenire, se non per previa decisione.
L’intervista semi-strutturata, o narrativa, permette all’intervistato limitati movimenti durante
l’intervista.
L’intervista non strutturata, a differenza delle precedenti, permette un’ampia libertà di intervento
senza interruzioni, considerando anche il linguaggio non verbale, la prossemica, le espressioni
emotive…
Le variabili estensive sono variabili direttamente osservabili, divisibili in parti, le cui sotto unità
possono diventare unità stesse, come ad esempio l’altezza.
Al contrario, le variabili intensive non sono direttamente osservabili, per cui possono presentare più
gradi di grandezza (tanto, poco, mediamente…), e di conseguenza non sono sommabili; ne sono un
esempio le variabili psicologiche, come l’ottimismo.
Le variabili psicologiche sono quasi sempre variabili intensive che noi possiamo definire come
costrutti, cioè astrazioni teoriche che non possono essere osservate e che devono essere
operazionalizzate; le definiremo quindi variabili latenti, in quanto possono essere inferite sulla base
di una teoria del comportamento dell'individuo che necessitano di un sistema di misurazione creato
a doc.
Il processo di misura dei costrutti psicologici, mette in relazione due insiemi: l’insieme costituito
dagli elementi che si vogliono misurare (detto insieme empirico) e un secondo insieme volto a
rappresentare mediante numeri le relazioni che esistono all’interno dell’insieme empirico (insieme
numerico).
Quindi, per sistema numerico si fa riferimento all’insieme di «valori» assegnati ai dati raccolti, alle
convenzioni matematiche e alle astrazioni numeriche (esempio, una scala da 0 a 100).
Per sistema empirico si fa riferimento all’insieme di «dati» raccolti e disponibile, indispensabile
perché permette di definire i costrutti psicologici sulla base (empirica appunto) di specifici domini
di conoscenza e indagine.
Se esaminiamo l’ottimismo lo facciamo empiricamente nel momento in cui raccogliamo dei dati per
formare un sistema di riferimento rispetto alla realtà indagata.
Per misurazione si intende l’assegnazione di valori numerici ad oggetti o eventi, secondo regole che
ne rappresentano le proprietà tramite il valore numerico al valore empirico. Fondamentale è il
riferimento a teorie precedenti quando si misurano costrutti non osservabili (es. l’ottimismo).
I costrutti non sono direttamente osservabili per la loro misurazione si ricorre a dei modelli di
misurazione, gli indicatori, che misurano le modalità con cui il costrutto si rende manifesto.
Questi indicatori sono: latenza, frequenza, intensità e durata.
La latenza indica l’intervallo di tempo che intercorre tra uno stimolo e il verificarsi di un evento (la
conseguente risposta); rappresenta quindi i tempi di reazione.
La scala nominale rappresenta la forma più semplice di misurazione delle variabili qualitative.
Consiste nel definire una variabile attraverso una etichette o categoria, senza attribuirne alcun
genere di informazione quantitativa e nessun criterio di ordine. Infatti, le scale nominali non
consentono di quantificare le differenze, ma è un livello puramente qualitativo, che si caratterizza
per l'esclusività, nel senso che il numero assegnato ad un attributo della variabile è distinto da tutti
gli altri e rappresenta sempre e soltanto quell'attributo. Variabili nominali sono, ad esempio, il sesso,
lo stato civile, l'occupazione, ectc.
Queste variabili non possono essere impiegate per operazioni matematiche, ma solamente
confrontare se le variabili sono uguali o diverse, con lo scopo di identificare il valore assunto dalla
variabile.
Il livello ordinale possiede, la proprietà di esprimere i valori in ordine di grandezza (ranking) e di
confrontare le posizioni relative all'interno dei numeri assegnati ad una variabile. Così è, ad
esempio, il livello di scolarità, all'interno del quale possiamo stabilire una gerarchia che, partendo
dal valore più basso (1 = Analfabeta), raggiunga il valore massimo (8 = Specializzazione post-
laurea o più di una laurea) attraverso gradi crescenti di scolarizzazione (p. es., 2 = Alfabeta, 3 =
Terza elementare, 4 = Licenza elementare, 5 = Licenza media inferiore, 6 = Maturità, 7 = Diploma
universitario, 8 = Laurea).
È chiaro che il punteggio "3" indica un livello di scolarizzazione inferiore rispetto al punteggio "6"
e questo ci consente di confrontare livelli diversi di una stessa variabile, ma non di stabilire l'entità
della differenza tra i due livelli mediante un'operazione matematica: non si può, in altri termini,
sottrarre la "Terza elementare" dalla “Maturità".
Le variabili possono essere diverse a seconda delle caratteristiche che andremo ad analizzare, e
sono definite qualitative quando esprimono una qualità, in cui le modalità sono dei valori non
numerici (ad esempio: il genere o il credo religioso) che ci permettono di analizzare principalmente
le caratteristiche del nostro costrutto.
Un carattere qualitativo è ordinale se le modalità posseggono naturalmente un ordine, e possono
essere disposte lungo una scala (ad esempio gli attributi pessimo, cattivo, mediocre, buono e ottimo,
oppure i giorni della settimana).
Un carattere qualitativo è nominale se le modalità non posseggono alcun ordine naturale (ad
esempio: le malattie o il colore degli occhi).
Mentre le variabili quantitative esprimono una quantità, in cui le modalità sono dei valori numerici
(ad esempio: l'altezza o il numero di figli) che ci permettono di avere delle informazioni più precise.
Quando è possibile stabilire un’unità di misura, qualunque essa sia, oltre alle informazioni relative
all’essere uguale o diverso (Sc. Nominale) e maggiore e minore (Sc. Ordinale), diventa nota la
distanza tra un punteggio e un altro, costante, in cui si può stabilire non solo un ordine, ma anche
l’esatta distanza tra i livelli della variabile misurata, e per tale motivo non è presente uno zero
assoluto.
In questa scala non potrò moltiplicare o dividere i valori perchè sarebbe scorretto (es. dire che una
persona che ha espresso 2 come valore di pessimismo, sia la metà di 4).
La scala a rapporti equivalenti ha le stesse caratteristiche della scala a intervalli equivalenti, con la
differenza che il valore zero indica un'effettiva assenza dell’attributo misurato.
Le variabili sono “a rapporti” quando, oltre ad avere diversità (Sc. Nominale), ordine (Sc. Ordinale)
ed equivalenza (Sc. A intervalli) dell’intervallo, contengono uno zero che indica vera assenza di
quantità misurata; in tale scala si può stabilire che un punteggio è il doppio dell’altro (prendere 100
è prendere il doppio di 50).
La statistica descrittiva è la branca della statistica che studia i criteri di rilevazione, classificazione,
sintesi e rappresentazione dei dati appresi dallo studio di una popolazione o di una parte di essa,
detta campione. Ha lo scopo di descrivere il campione che stiamo analizzando, generalizzare le
informazioni del campione a tutta la popolazione, e prevedere come si comporteranno gli individui
appartenenti al campione. Nello specifico si pone l’obiettivo di capire i dati forniti, trovare degli
indici di sintesi attraverso dati numerici o rappresentazioni di grafici o tabelle.
I dati raccolti possono essere classificati attraverso distribuzioni semplici o complesse: si dice
"semplice" se ad ogni individuo della popolazione o del campione è associato un solo carattere (ad
esempio: l'età anagrafica di un individuo); si dice "complessa" se ad ogni individuo della
popolazione o del campione sono associati almeno due caratteri (ad esempio il nome e il cognome
di un individuo). I risultati ottenuti nell'ambito della statistica descrittiva si possono definire certi, a
meno di errori di misurazione dovuti al caso, che sono in media pari a zero.
La rilevazione dei dati di un'intera popolazione è detta "censimento". Quando invece l'indagine si
concentra su un determinato campione rappresentativo, si parla di "sondaggio".
Si intende per frequenza il numero di unità statistiche su cui una modalità (numeri o attributi che un
carattere può assumere) si presenta. Attraverso le distribuzioni di frequenza, ovvero il numero di
volte in cui un dato evento si presenta, vengono rappresentati sinteticamente i dati ricavati.
Con il termine frequenze assolute intendiamo il numero di volte in cui si presenta un determinato
evento o una determinata modalità di risposta. Per calcolarla dovremmo conteggiare le possibili
modalità di risposta che la variabile X può assumere e ottenere così il numero di soggetti che
forniscono una specifica risposta. Il totale della somma delle frequenze assolute sarà pari al totale
Le tabelle di contingenza sono specifiche tabelle utili a rappresentare due misure in relazione tra
loro, ovvero a condurre un’analisi bivariata. Vengono prese in considerazione due variabili X e Y, di
cui rappresentiamo le relative modalità. Ad ogni coppia si farà corrispondere una frequenza n
rappresentata dagli elementi della popolazione che presentano contemporaneamente le due modalità
di X e Y, indicate rispettivamente con Xi e Yj. In maniera più specifica andremo a riportare nella
colonna verticale la variabile X e nella riga orizzontale la variabile Y. In seguito riporteremo nelle
celle tutti gli elementi di N che presentano contemporaneamente le modalità di X e Y, ottenendo
così le frequenze congiunte. Fatto ciò, calcoleremo le frequenze marginali assolute, e precisamente
le frequenze marginali di X ottenute dalla sommatoria dei valori delle singole frequenze tra tutte le
righe, e le frequenze marginali di Y, ottenute dalla sommatoria dei valori delle singole frequenze tra
tutte le colonne. La somma delle frequenze assolute di X e di Y ci fornirà il valore della numerosità
N della popolazione.
Moda e mediana sono indici di tendenza centrale, cioè quegli indici che evidenziano le
caratteristiche di una distribuzione del carattere, sintetizzando le misure tramite un unico valore
rappresentativo. La moda è un indice che non richiede alcun calcolo in quanto è sufficiente
individuare il valore della variabile caratterizzato dalla massima frequenza; può essere individuato
sia per dati in serie con valori discreti sia per dati raggruppati in classi.
La mediana invece è un indice che rappresenta il valore quando vengono ordinati in senso non
decrescente, ovvero il valore che bipartisce la successione. Per individuare la posizione della
mediana, se il numero N dei termini è dispari, la posizione della mediana coinciderà con il valore
centrale; se esso invece è pari, la posizione della mediana corrisponderà alla semisomma dei due
valori centrali della distribuzione.
Innanzitutto si ordinano i valori in senso decrescente per entrambe le modalità: 9,7,7,6,5,4,3. Di
conseguenza, per la moda osserveremo il valore che si ripete più volte, ovvero 7 (2 volte); per la
mediana guarderemo il valore centrale essendo una distribuzione dispari, cioè 6, come anche
provato dalla formula Pos me= (n + 1) / 2= 4.
Riassumendo: N=7 ; Moda = 7 (frequenza 2) ; Pos me = (n+1) / 2 = 4 ; Me = 6.
I quantili sono utilizzati in statistica con variabili qualitative su scala ordinale, per frazionare in N
parti uguali un insieme di dati numerici disposti in ordine progressivo crescente.
Da una seriazione composta da un numero finito di termini P, la popolazione viene ordinata in
ordine crescente; successivamente la serie viene suddivisa in N parti uguali. I valori della seriazione
che cadono esattamente nella suddivisione sono detti quantili di ordine X / N. Dove X è la posizione
nel quantile nelle N suddivisioni.
Un esempio di quantile: 8 soggetti con demenza svolgono un test di memoria, verranno riportate le
risposte (n=8). Le risposte del test sono ordinate in modo crescente.
La seguente seriazione è composta da 8 numeri in ordine progressivo crescente.
A questo punto con la seguente formula indicata andiamo ad analizzare il primo quartile, in cui
Pos q1 = 1/4 * (n+1), ricordandoci che n = 8!
A quel punto riportiamo i valori e riscontrando nella tabella il valore più vicino e corrispondente
alla terza colonna, ovvero quella delle frequenze cumulate, e vedremo il risultato del primo quartile.
Successivamente svolgeremo la stessa medesima cosa per il secondo quartile, dove la formula sarà
indicata nel seguente modo: Pos q2 = 1/2 * (8+1), poiché corrisponde alla mediana, e una volta
trovato il risultato lo riscontreremo nella tabella delle frequenze cumulate, come nel precedente
passaggio.
Per finire, stessa cosa con il terzo quartile, ovvero Pos q3 = 3/4 * (8+1), dove troveremo anche qui
il valore corrispondente nella terza colonna che compileremo.
Il calcolo di media aritmetica che andrò ad utilizzare è il seguente:
Media Artimetica = (x1+x2+x3+x4+x5+x6+x7) / n
Utilizzo 7 numeri, in quanto sono quelli che mi sono stati indicati, ovvero: 7,3,5,4,7,6,9.
Il valore che andremo a dividere, ovvero n, è il totale dei numeri che stiamo considerando, ovvero 7
numeri a disposizione.
I numeri indicati andranno moltiplicati per quante sono le volte che si ripetono, poi sommati, e il
valore ricavato, 41, verrà diviso per il totale n (7); avremo quindi 41/7 = 5,86.
La media aritmetica, di due o più numeri, è la somma dei valori numerici divisa per il numero di
valori numerici considerati. Per calcolarla basta sommarli e dividere il risultato ottenuto per il
numero totale dei valori. Media Aritmetica = (x1 + x2 + x3. + xn) / n
La media ponderata per poterla calcolare necessita di avere a disposizione il peso dei numeri che
andremo a calcolare, per capire l'importanza di tale numero. Il valore è dato dalla somma dei
prodotti di ciascun numero per il rispettivo peso, fratto la somma dei pesi.
Media Ponderata = (x1p1 + x2p2 + x3p3+ ... xnpn) / (p1+p2+p3+. pn)
Dove pn corrisponde al corrispettivo peso del numero che andremo a calcolare.
Le misure di dispersione esprimono la tendenza delle singole osservazioni di una distribuzione ad
allontanarsi dalla tendenza centrale, ovvero la “variabilità” dei dati. I diversi indicatori sono:
numero di categorie; range ( Xmax - Xmin); differenza interquartile (Q3-Q1); varianza; deviazione
applicabile, è possibile considerare la frequenza di eventi già accaduti e considerarla come
probabilità di eventi futuri. Risulta subito evidente il limite di questa definizione: non si precisa
quanto grande debba essere il numero di prove, ed è necessario ripetere le prove nelle medesime
condizioni.
Per alcuni studiosi la probabilità di un evento è una relazione logica fra l’evento stesso ed un
insieme di conoscenze di cui si dispone. Nel nostro secolo si ha un’impostazione astratta,
l’impostazione assiomatica, che sviluppa tutta la teoria della probabilità partendo da due concetti
primitivi: evento e probabilità, e assegnando alcuni assiomi. Questa concezione ha avuto molta
importanza ed ha permesso di raggiungere notevoli risultati da un punto di vista generale,
applicabili ai settori più svariati.
La probabilità P (E) di un evento E è il rapporto fra il numero m dei casi favorevoli (al verificarsi di
E) e il numero n dei casi possibili, giudicati egualmente possibili. La definizione classica di
probabilità é inutilizzabile quando non si conoscono a priori il numero dei casi possibili, come
nella quasi totalità degli eventi reali.
Secondo la teoria soggettiva la probabilità è la misura del grado di fiducia che un individuo
attribuisce al verificarsi di un dato evento in base alle sue conoscenze dello stesso. Si applica
quando la teoria classica e la teoria frequentata non sono più d’aiuto, ovvero dove non si può più
determinare se i casi sono possibili o impossibili, e quindi serve una valutazione soggettiva.
Le valutazioni soggettive possono variare da individuo a individuo, ma deve essere rispettata la
coerenza. È fondamentale che il soggetto abbia il maggior numero di informazioni possibili e,
tramite esse, sappia attribuire determinate probabilità a determinati eventi: in tal caso la probabilità
soggettiva si può ritenere affidabile.
La valutazione di probabilità dipende anche dalle informazioni presenti, perchè un evento può
variare subordinatamente al verificarsi di un altro evento.
Si definisce probabilità di un evento A condizionata all’evento B, la probabilità del verificarsi di A
nell’ipotesi che B si sia verificato; se B non si verifica, l’evento A I B non è definito.
Spesso si incontrano eventi che dipendono da altri eventi che si possono (o si devono) verificare
precedentemente, e tali eventi, influiranno sulla probabilità dell’evento successivo; in tal caso
occorre introdurre il concetto di probabilità condizionata.
Si definisce probabilità condizionata dell'evento E2 rispetto all'evento E1, la probabilità che si
verifichi l'evento E2 sapendo che si è già verificato l'evento E1.
Il teorema della probabilità composta deriva dal concetto di probabilità condizionata per cui la
probabilità che due eventi si verifichino contemporaneamente è pari alla probabilità di uno dei due
eventi, moltiplicato con la probabilità dell’altro evento condizionato al verificarsi del primo.
Consideriamo un evento composto da più eventi tali che siano indipendenti, nel senso che l'accadere
del primo non influenzi l'accadere del secondo; allora possiamo dire che la probabilità dell'evento
composto è uguale al prodotto delle probabilità degli eventi componenti.
Una distribuzione di probabilità è un modello matematico che collega i valori di una variabile alle
probabilità che tali valori possano essere osservati. Vengono utilizzate per modellizzare il
comportamento di un fenomeno di interesse, in relazione alla popolazione di riferimento, ovvero
alla totalità dei casi di cui lo sperimentatore osserva un dato campione.
In questo contesto la variabile di interesse è vista come una variabile casuale (o variabile aleatoria,
v.a.) la cui legge di probabilità esprime il grado di incertezza con cui i suoi valori possono essere
osservati. In base alla scala di misura della variabile di interesse X, possiamo distinguere due tipi di
distribuzioni di probabilità: 1. distribuzioni continue: la variabile viene espressa su un scala
continua; 2. distribuzioni discrete: la variabile viene misurata con valori numerici interi.
Formalmente, le distribuzioni di probabilità vengono espresse da una legge matematica detta
funzione di densità di probabilità, indicata con f(x) rispettivamente per le distruzioni continue o
discrete.
La distribuzione uniforme è una distribuzione di probabilità discreta che è uniforme su un insieme,
ovvero che attribuisce la stessa probabilità ad ogni elemento dell'insieme discreto S su cui è definita
(in particolare l'insieme dev'essere finito).
Un esempio di distribuzione discreta uniforme è fornito dal lancio di una moneta non truccata in cui
ognuno dei due valori «testa» o «croce» è equiprobabile con una probabilità del 50% (= 1/2).
Un’altra distribuzione di probabilità nel discreto è la distribuzione di Poisson, che esprime le
probabilità per il numero di eventi che si verificano successivamente ed indipendentemente in un
dato intervallo di tempo, sapendo che mediamente se ne verifica un certo numero (indicato come
lambda). Ad esempio, si utilizza una distribuzione di Poisson per misurare il numero di chiamate
ricevute in un callcenter in un determinato arco temporale, come in una mattinata lavorativa. Questa
distribuzione è anche nota come legge degli eventi rari.
La distribuzione binomiale (o distribuzione di Bernoulli) rappresenta la distribuzione di probabilità
di prove ripetute indipendenti quando i risultati di ciascuna prova sono solo due: successo o
insuccesso. Tale distribuzione segue importanti proprietà: 1. ad ogni singola prova si hanno solo 2
= (x i
z 2
Possiamo quindi dire che i punteggi son diversi e che c’è stato un incremento nella capacità di
pianificazione del soggetto analizzato. Il primo punteggio si posizionava al di sotto dello zero oltre
la prima deviazione standard negativa, era quindi al di sotto della media. Il secondo punteggio si
posiziona al di sopra dello zero nella prima deviazione standard: è quindi un punteggio nella media
della popolazione di riferimento.
Possiamo quindi dedurre che tra le due rilevazione il soggetto è migliorato nella capacità di
pianificazione.
In statistica il campionamento casuale corrisponde ad un'estrazione da una popolazione distribuita
secondo la sua legge (funzione di densità) di un determinato numero di individui/oggetti, detto
campione, su cui fare un esperimento, necessariamente rappresentativo della popolazione (ossia che
riproduca le caratteristiche dell’intera popolazione). Un problema che si presenta quando si vuole
effettuare una rilevazione campionaria, è la determinazione della dimensione, o ampiezza del
campione, poiché essa dipende dalla variabilità della popolazione, dalla precisione di stima richiesta
e dal costo che si vuole sostenere. Da queste esigenze si sceglierà il campione, secondo tecniche di
campionatura probabilistica e non probabilistica, ma in particolare, attraverso il metodo del
campionamento casuale semplice. La scelta del campione nel campionamento casuale è affidata al
caso (cioè non deve essere influenzata da chi compie l’indagine), il che non significa scegliere le
unità statistiche comunque si presentino, ma seguendo caratteristiche essenziali:
a) ogni unità della popolazione ha eguale probabilità di fare parte del campione;
b) ogni campione deve avere la stessa probabilità di essere formato.
Il metodo del campione casuale semplice si può applicare se la popolazione è statisticamente
omogenea e le unità statistiche sono individuabili mediante un numero. Presenta inoltre vantaggi,
come evitare le distorsioni provocate da campionamenti non casuali, e permettere di stimare gli
errori di campionamento; e svantaggi, come non utilizzare le informazioni note a priori sulla
popolazione, e non è considerato conveniente per i suoi elevati costi di rilevazione dei dati e per i
tempi di organizzazione del lavoro.
Si definisce inferenza statistica il procedimento mediante il quale, dall’analisi dei dati osservati su
un campione, si arriva a conclusioni relative all’intera popolazione.
Si possono distinguere due tipi di inferenza statistica: dal campione si può stimare il valore di
qualche parametro della popolazione (come una media, una varianza, una frequenza) e si parla in
questo caso di stima campionaria; per mezzo del campione si vuole decidere se un’ipotesi fatta su
una data popolazione è accettabile, o rifiutabile, ad un dato livello di significatività, e si parla del
problema della verifica delle ipotesi. Naturalmente, l’estensione a tutta la popolazione delle
conclusioni ricavate da un campione comporta un certo rischio, pertanto si dovrà scegliere un
campione in modo da saper valutare l’errore che si può commettere.
Il campionamento a più stadi ha lo scopo di voler individuare un campione di unità selezionandole
su più livelli, che vanno dal generale al particolare. Si procede definendo le unità “di primo stadio”,
le unità “di secondo stadio” e le unità “di terzo stadio”.
L’obiettivo principale del campionamento a più stadi, o cluster, è quello di studiare le “unità
elementari”, in cui è necessario che tra le unità elementari appartenenti ad un gruppo vi siano ampie
differenze e le differenze tra i gruppi primari siano limitate.
“L’operazione di stratificazione consiste nel raggruppare le unità statistiche in strati omogenei, vale
a dire strati con caratteri comuni sulla base di informazioni relative ad una popolazione. Per cui
“stratificare” una popolazione significa ripartirla in sottopopolazioni.
Estraendo da ogni strato un campione casuale semplice, si darà luogo ad un campionamento casuale
stratificato. Si ricorre ad esso quando ci troviamo di fronte ad un universo di elevata ampiezza. In
tal modo sarà possibile stimare con molta precisione determinate caratteristiche pur non utilizzando
campioni di eccessiva ampiezza.
Motivo: esigenze amministrative e organizzative che richiedono una suddivisione geografica
(regione o provincia), decentrando e facilitando le operazioni di rilevazione. Trova maggiore
applicazione nelle indagini psicologiche e sociali su vasta scala quando i caratteri della popolazione
possono presentare grande variabilità o forte asimmetria.
Quando ci si trova nella condizione in cui non sia possibile conoscere la probabilità di inclusione
nel campione di ogni unità, si ricorre ad uno dei campionamenti non probabilistici.
L’utilizzo di tali tecniche rende però impossibile valutare sia il grado di precisione delle stime, che i
rischi di commettere errori. La costruzione di campioni mediante l’uso di tali tecniche ha lo scopo
di raffigurare in “piccolo” la popolazione considerata; i campioni così ottenuti sono detti “a scelta
ragionata”. In alcuni casi questi tipi di campionamento sono preferibili al campionamento casuale,
perché talvolta la selezione dovrà rispondere ad una scelta oculata secondo dei criteri non casuali.
Alcune delle proprietà desiderabili per gli stimatori sono:
uguale al corrispondente parametro della popolazione.
Se risulta la media calcolata sul campione è diversa dal corrispondente parametro della popolazione
allora lo stimatore viene definito distorto.
parametro.
Il procedimento della verifica delle ipotesi può essere parametrico, se l’ipotesi riguarda un
parametro della popolazione quando è nota la distribuzione di probabilità; non parametrico, se
l’ipotesi riguarda la distribuzione stessa. La statistica non parametrica è una parte della statistica in
cui si assume che i modelli matematici non necessitano di ipotesi a priori sulle caratteristiche della
popolazione (ovvero di un parametro), o comunque le ipotesi sono meno restrittive di quelle usate
nella statistica parametrica. Viene considerata da alcuni la statistica dei piccoli campioni in quanto è
soprattutto in questi casi che l'ipotesi di distribuzione gaussiana è fatta spesso in modo arbitrario.
Ma questa definizione può essere fuorviante in quanto la statistica non parametrica viene applicata
anche in presenza di campioni relativamente grandi. Effettivamente, in presenza di grandi campioni,
diverse distribuzioni tendono alla variabile casuale gaussiana permettendo così di passare alla
statistica parametrica.
La statistica parametrica è la parte della statistica inferenziale che studia una popolazione
supponendo di conoscere la legge di probabilità X che la governa a meno di alcuni parametri,
ovvero supponendo che X appartenga a una famiglia parametrizzata di leggi. Nella statistica
parametrica i test di verifica d'ipotesi vengono effettuati sui parametri cercandone una stima.
L’ipotesi nulla è definita anche ipotesi dello zero, così detta per affermare che si ritiene nulla e
quindi non significativa la differenza fra il valore ed il valore ricavato dal campione. L’ipotesi nulla
è indicata H:0; ogni altra ipotesi, diversa dall’ipotesi nulla, è detta ipotesi alternativa ed è indicata
con H:1, e si possono formulare varie ipotesi alternative in relazione al problema considerato.
Un’ipotesi nulla è un’affermazione sulla distribuzione di probabilità di una o più variabili casuali.
Attraverso una funzione dei dati campionari si decide se accettare l’ipotesi nulla o meno. Nel caso
l’ipotesi nulla venga rifiutata si accetterà l’ipotesi alternativa.
Il procedimento di verifica delle ipotesi consiste nel formulare regole di decisione basate sulla
distribuzione di probabilità degli stimatori; per ipotesi è da intendersi un'affermazione che ha come
oggetto accadimenti nel mondo reale, che si presta ad essere confermata o smentita dai dati
osservati sperimentalmente.
Il metodo con cui si valuta l'attendibilità di un'ipotesi è il metodo sperimentale. Quest'ultimo
consiste nel determinare le conseguenze di un'ipotesi in termini di eventi osservabili, e di valutare
se la realtà effettivamente osservata si accorda o meno con l'ipotesi su di essa fatta.
La differenziazione tra test unilaterale a 1 coda o bilaterale a 2 code ha l’effetto importantissimo di
determinare la distribuzione delle probabilità e il valore critico per rifiutare l’ipotesi nulla. Esistono
maggiori probabilità di rifiutare l’ipotesi nulla quando si effettua un test ad una coda, che quando si
effettua un test a 2 code. Alla stessa probabilità totale in un test unilaterale il valore critico è minore
di quello bilaterale. Il test unilaterale è più potente del test bilaterale (la potenza di un test è la
capacità di rifiutare l’ipotesi nulla quando essa è falsa).
La distribuzione t di student viene usata per stimare il valore medio di una popolazione quando sia
disponibile un campione di piccole dimensioni (meno di 30 elementi). Se il parametro che andiamo
a considerare dei due campioni è la media e vogliamo sapere se la differenza tra le medie è
significativa useremo il test di student; il valore di “t” dipende dall’ampiezza e viene determinato
dai gradi di libertà della distribuzione (pari a n-1). Condizione di validità della distribuzione t
student è che la distribuzione dei dati sia normale, le varianze siano omogenee, le osservazioni
siano raccolte in modo indipendente.
Quando si sottopone ad un test bilaterale o unilaterale, un’ipotesi nulla H0 contro un’ipotesi
alternativa H1 si determinano due decisioni opposte fra loro: accettare Ho e rifiutare H1, o rifiutare
Ho ed accettare H1.
Si possono commettere due errori: rifiutare Ho quando è vera, e accettare Ho quando è falsa: se si
rifiuta un’ipotesi quando essa è vera si commette un errore che viene detto “errore di prima specie”
ed avviene se la stima ricavata dal campione è significativamente differente dal valore dell’ipotesi;
se si accetta un’ipotesi quando è falsa si commette un errore detto “errore di seconda specie “ ed
avviene se la differenza fra il valore dell’ipotesi e la stima del campione estratto è poco significativa
tanto da indurre ad accettarlo come valore del parametro della popolazione. Ogni regola di
decisione deve minimizzare gli errori, purtroppo però se si riduce l’errore di un tipo aumenta
l’errore dell’altro tipo; per ridurli entrambi si deve aumentare la dimensione del campione, seppure
spesso questo non sia possibile.
Il t test è un test statistico di tipo parametrico con lo scopo di verificare se il valore medio di una
distribuzione si discosta significativamente da un certo valore di riferimento, la cui varianza è
sconosciuta. Il t test, detto anche t student, si basa sul confronto di medie, e tale distribuzione t varia
in funzione dei gradi di libertà, cioè della numerosità campionaria. In sostanza confronta la
differenza tra la media dei due gruppi, considerando la dispersione dei dati (espressa come
deviazione standard); se hai più di due gruppi non è corretto usare il t test, devi usare l'analisi della
varianza (anova).
È una tecnica di inferenza statistica che si basa sulla statistica di chi-quadro e sulla relativa
La covarianza può essere positiva, negativa o nulla perchè è la somma dei prodotti degli scarti dalla
media di X per gli scarti dalla media delle Y, scarti che possono essere positivi, negativi o nulli.
Il coefficiente di determinazione r2, indica quale frazione di varianza totale è dovuta alla
dipendenza lineare fra y e x, cioè indica quanto il modello della regressione lineare è aderente al
fenomeno in studio. Per questo motivo r2 può essere utilizzato per stabilire la “bontà” di un modello
lineare: quanto più r2 è prossimo a 1 tanto è maggiore la bontà del modello lineare.
Partendo da una tabella a doppia entrata si sono costituite due tabelle a semplice entrata le cui
coppie di valori sono ponderate (cioè ad ogni coppia si deve associare una frequenza). Queste due
tabelle si interpolano con una funzione lineare utilizzando il metodo dei minimi quadrati (se è
possibile), e le due rette ottenute vengono dette rette di regressione. Per verificare l’esistenza di una
correlazione tra i caratteri, si disegna un diagramma di dispersione per rappresentare nel piano
cartesiano le osservazioni con punti o cerchietti.
Se il diagramma di dispersione suggerisce una relazione lineare tra i dati ed inoltre, il valore del
coefficiente di correlazione è prossimo a uno, anche se tra i dati non esiste una relazione
perfettamente lineare, ha senso determinare l’equazione di una retta che approssimi i dati nel
“miglior modo possibile”. Il metodo dei minimi quadrati consente di determinare l’equazione di
questa retta detta appunto retta di regressione o dei minimi quadrati.
I punteggi centili indicano il punteggio grezzo al di sotto del quale c’è un certo numero di soggetti.
Vengono utilizzati nelle situazioni in cui si è deciso che al di sotto o al di sopra di una certa
percentuale, ad esempio, esiste una patologia o è inserito un cut-off per una selezione.
In questi casi ci troviamo nella situazione di dovere identificare il punteggio grezzo che identifica la
soglia.
Se i dati sperimentali non sono compatibili con queste condizioni preliminari o se addirittura, le
osservazioni sono misurate su una scala qualitativa ordinale, i metodi parametrici diventano poco
attendibili poiché la media e la varianza non sono sufficienti per una completa descrizione della
popolazione. In questi casi è possibile utilizzare, invece delle osservazioni, i ranghi, cioè il numero
d’ordine delle osservazioni stesse, al fine di calcolare test non parametrici (ovvero test liberi da
distribuzione) nella verifica delle ipotesi. Utilizzo quindi il t test di Wilcoxon quando dobbiamo
confrontare due medie di campioni dipendenti con test non parametrici. Confronterò la somma dei
ranghi (positivi e negativi) con un valore critico tabulare.
Si definisce test parametrico un test statistico che si può applicare in presenza di una distribuzione
libera dei dati, o comunque nell'ambito della statistica parametrica, in cui viene assunta un’ipotesi a
priori sulle caratteristiche della popolazione (dato un parametro), basandosi su sei assunti principali:
variabili continue o misurate in un intervallo, indipendenza fra media e varianza, variabili
distribuite in modo normale, omogeneità delle varianze, i risultati delle analisi dei campioni si
applicano alle popolazioni, e la dimensione del campione deve essere >10 (meglio se > o = di 30)
Analogamente al T-test di Student per dati indipendenti, questo test è utilizzato in esperimenti in cui
si confrontano due campioni indipendenti, ma la variabile in studio non rispetta le condizioni di
applicabilità dei test parametrici. Questo test può essere utilizzato come test di confronto tra due
campioni in maniera analoga ai test ipotesi parametrici di confronto medie (test Z se la varianza è
nota ed il test t di Student se la varianza non è nota). Il test di Mann-Whitney si applica solitamente
quando le assunzioni per effettuare il test parametrico non sono soddisfatte, ovvero quando
entrambe le condizioni 1 e 2 sono presenti:
le distribuzione della variabile oggetto di studio non è normale
le dimensioni campionarie sono ridotte ( n < di 30 casi in almeno un campione).