





























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti di lezione di Psicometria integrati con slide e libro "Statistica per la ricerca sociale".
Tipologia: Appunti
1 / 37
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






























La psicometria è la misurazione proprietà mentali, costruisce misure per assegnare un valore numerico alle
proprietà, esigenza che nasce con la psicologia.
Definizione Restrittiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-
statistico per produrre misure e valutare la bontà.
Definizione Estensiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-
statistico per rilevare , descrivere e mettere in relazione fenomeni di interesse per la psicologia.
Nella ricerca quantitativa , si organizzano i dati in una matrice per analizzarli in modo statistico.
Statistica Descrittiva
è una branca della statistica che si occupa di sintetizzare, porre in relazione i dati raccolti su un collettivo
(insieme di individui, detti oggetti), il tipo è unità di analisi.
Statistica Inferenziale
consente di estendere i risultati ottenuti su un campione (sottoinsieme di un collettivo) di osservazioni
all’intera popolazione
Le unità sono letteralmente gli oggetti di studio (individui, situazioni, oggetti) a cui si interessa la ricerca e
l’insieme delle unità costituisce un collettivo o una popolazione o un universo.
Individuando le unità d’analisi, il ricercatore deve arrivare ad un livello di astrazione che gli permetta di
definire i casi: il passaggio da unità a casi avviene tramite operativizzazione , un insieme di regole di
selezione delle unità che il ricercatore deve esplicitare (la ricerca che fa uso della statistica, solitamente, pone
la sua attenzione su determinate proprietà delle unità stesse).
Dalle proprietà si passa alle variabili tramite una definizione operativa , un insieme di regole che portano alla
concreta individualizzazione dei casi, che segue delle regole per poter passare a “variabili” relative a:
Le operazioni canoniche che consentono il passaggio da probabilità a variabili sono:
Classificazione
Può essere intesa come operazione intellettuale come una partizione di dominio che porti alla creazione di
un numero tot di classi equivalenti che soddisfino le condizioni di esclusività ed esaustività.
Si definisce “sensibilità di una variabile” il numero di categorie create in rapporto virtuale al numero di
stati che quella stessa variabile potrebbe assumere.
Ordinamento
È la partizione di un dominio di una proprietà e gode della relazione dell’ordine, oltre che della relazione
di equivalenza; quindi si potrebbe stabilire un rapporto di maggioranze tra le categorie, ma non
individuarne con certezza la distanza.
Misurazione
Presuppone l’esistenza di una unità di misura a cui rapportare la proprietà posseduta dai casi; perciò la
proprietà è pensabile come un continuum , lungo il quale possono essere collocati i possibili casi.
Prima si sceglie l’unità di misura, poi la si confronta con ogni caso e infine se ne registra il valore.
Conteggio
Si tratta di un’enumerazione, un’operazione possibile davanti a proprietà pensabili come discrete.
Secondo Stevens, “la misurazione, nel senso più ampio, consiste nell’attribuzione di numeri a oggetti o eventi
seguendo determinate regole. Il fatto che si possano assegnare dei numeri seguendo regole differenti porta
a differenti tipi di scala e differenti tipi di misurazione.”
La scala di misura è un sistema che mette in relazione gli stati di oggetti su determinate proprietà e i numeri
reali: una scala di misura è formata da < SE, f, SN >, SE è il sistema relazionale empirico (casi), SN : sistema
relazionale numerico (codici), f è la funzione che fa corrispondere ad ogni elemento di SE un elemento di SN.
Ogni funzione ha una famiglia di possibili rappresentazioni ed ogni scala può essere caratterizzata da una
famiglia di trasformazioni ammissibili , cioè trasformazioni che preservano le relazioni dotate di significato
nel Sistema Relazionale Empirico; sono funzioni in cui dominio e condominio coincidono, cioè definite sullo
stesso sottoinsieme dei numeri reali.
In base alle Trasformazioni Ammissibili, Stevens distingue quattro tipi di scala:
- Scala Nominale
Viene originata quando ci troviamo in un SE con relazioni tra casi di uguaglianza o disuguaglianza,
pertanto una rappresentazione SN di numeri uguali o disuguali che assumano il puro significato di
etichette (i numeri sono simboli sostituibili).
La sua trasformazione ammissibile è la Transcodifica : i dati espressi su scala nominale sono indicati
anche come variabili categoriali e i valori che può assumere sono detti categorie.
Viene detta “dicotomica” quando presenta due modalità o “politomica” quando presenta >2 modalità.
Corrisponde alla variabile di tipo Categoriale.
Come facciamo a capire quale sia la statistica più opportuna da utilizzare?
Prendiamo in considerazione t(y) come trasformazione ammissibile e f(y) una qualsiasi statistica: una
statistica è idonea per un determinato livello solo se il suo risultato dopo la trasformazione è invariante.
L’invarianza può essere di tre tipi:
Assoluta : se il risultato della statistica è lo stesso sia sui dati di partenza sia sui dati trasformati
Equivarianza : se il valore cambia in base alla medesima funzione mediante la quale si passa da SN alla
trasformata, quindi si ottiene lo stesso valore sulla variabile originaria e sulla trasformata
Ortovarianza : se la funzione che consente il passaggio dal risultato della statistica sui dati di partenza al
risultato della statistica sui dati trasformati non è la trasformazione ammissibile t
Le matrici sono un insieme ordinato di numeri o altri simboli che svolgono una funzione di orientamento
nella scelta delle tecniche adeguate per le diverse forme di organizzazione dati e sono composte da celle
disposte in righe e colonne.
Le informazioni grezze sono codificate in dati che vengono organizzati in matrici; facendo riferimento al
modello di classificazione delle matrici di Carroll e Young possiamo distinguere matrici in base a:
al massimo uguale al numero di vie, ma può anche essere inferiore)
Una matrice molto usata è la Matrice CxV, casi per variabili , anche detta matrice multivariata; in questa
matrice, le colonne rappresentano le variabili, mentre le righe rappresentano i casi.
Per poter parlare di variabili non deve essere una matrice Row Conditional.
C x V in forma ridotta o pico = contiene sintesi, aggregazione dati
C x V in forma canonica o micro = contiene dati individuali non scomponibili
Ci sono due linguaggi della ricerca empirica quantitativa: il linguaggio delle variabili e il linguaggio degli
oggetti.
La ricerca empirica è una successione di operazioni per produrre risposte a domande sulla realtà; esistono 4
livelli di una ricerca empirica:
statistica
scientifica
Nel linguaggio delle variabili ci sono 3 operazioni fondamentali:
vengono influenzate) e le Variabili Indipendenti (che esercitano un’influenza)
rendersi conto delle relazioni esistenti tra un insieme di variabili osservate
sintetizza la relazione tra variabili)
Nel linguaggio degli oggetti le 3 operazioni fondamentali sono la Classificazione, l’Ordinamento e la
Misurazione.
La statistica descrittiva è l’insieme di metodi che consentono di descrivere e sintetizzare i dati raccolti in un
campione attraverso un numero ridotto di statistiche o indici descrittivi.
Per statistica monovariata si intende l’insieme di strumenti statistici che permettono di rispondere a domande
relative ad una sola variabile; la statistica multivariata considera la relazione tra due o più variabili.
La distribuzione semplice di frequenze è un modo per organizzare i dati che mette in relazione la variabile
con la frequenza con cui si manifesta nel collettivo, perciò opera una compressione dei dati.
In una matrice CxV ogni colonna contiene la distribuzione unitaria del collettivo su una determinata proprietà.
A seconda del tipo di variabile la distribuzione di frequenze assume nomi diversi:
- Serie Sconnessa di Frequenze la variabile è categoriale
Le modalità della variabile non hanno nessuna relazione tra di loro (relazione d'ordine, ecc..) perché ci
troviamo in un livello di scala nominale.
le frequenze relative sono date dal rapporto fra le frequenze assolute di ciascuna modalità e la
numerosità del collettivo.
le frequenze percentuali si ottengono operando in modo che l’ampiezza del collettivo sia pari a 100 (è
sufficiente moltiplicare per 100 le frequenze relative).
Se la variabile è categoriale operiamo una serie sconnessa di sequenze , le frequenze assolute
rappresentano le frequenze con cui una data modalità si presenta e sono indicate nelle tabelle di frequenze
semplificate (la somma delle frequenze assolute delle modalità è uguale al collettivo).
Per la Serie Sconnessa di Frequenze, i grafici più usati sono
un’altezza proporzionale alla frequenza con cui si è manifestata nel collettivo
proporzionale alla frequenza della modalità corrispondente
Si chiama così per richiamare che tra le modalità esiste un ordine dotato di significato.
le frequenze cumulate si ottengono riportando a fianco di ogni modalità il numero di persone che
rientrano nella modalità stessa o in quelle inferiori
le frequenze retrocumulate si ottengono partendo dalla modalità più alta
Per la Serie Ordinata di Frequenze i grafici più usati sono
livello, si ottiene costruendo tanti rettangoli quante sono le modalità, rappresentando sulle ordinate le
frequenze cumulate e unendo le basi superiori tra di loro per creare una linea
senso solo se le categorie sono ordinate)
Con questo tipo di variabile è necessario raggruppare le frequenze in classi , ogni classe è individuata dal
valore minimo e dal valore massimo in essa inclusi; per calcolare l’ampiezza di una classe sarà sufficiente
fare la differenza tra il limite superiore ed il limite inferiore ed aggiungervi un’unità.
Nel costruire classi si possono seguire alcuni criteri generali:
Per la Serie Sconnessa di Frequenze, i grafici più usati sono
istogrammi (si usa quando bisogna confrontare due o più collettivi, unisce le medie delle colonne)
l’aspetto di una curva continua (usate come modelli teorici per descrivere distribuzioni empiriche)
Suddividendo una distribuzione in parti uguali è possibile ottenere i cosiddetti Quantili o Operatori di
Posizione: sono una famiglia di misure e si distinguono a seconda del numero di parti uguali
in cui suddividono una distribuzione.
Vengono detti Quartili se la distribuzione viene suddivisa in 4 parti:
1
: il primo quartile, lascia da una parte il 25% dei valori più bassi e dall'altra parte il 75% dei valori più alti
2
: il secondo quartile, lascia da una parte il 50% dei valori più bassi e dall'altra parte il 50% dei valori più
alti (allora coincide con la mediana)
3
: il terzo quartile, lascia da una parte il 75% dei valori più bassi e dall'altra parte il 25% dei valori più alti
4
: il quarto quartile, lascia al di sotto il 100% dei casi
Quando la variabile presenta un ampio numero di modalità, è utile calcolare i Decili e i Centili, cioè le
modalità dei casi che suddividono la distribuzione in 10 e 100 parti.
Per studiare una distribuzione di dati bisogna utilizzare gli Operatori di Dispersione, che descrivono la
dispersione dei dati intorno al valore centrale, quantificandone la rappresentatività e producono uno scalare in
cui si valuta la diversità esistente tra le osservazioni.
La dispersione assume nomi diversi in base al livello di scala della variabile:
L’ Indice di Gini è una misura di eterogeneità che permette di cogliere il significato di dispersione, di
diversità tra le osservazioni, è un numero che dice se c'è tanta o poca diversità tra le osservazioni
A seconda del tipo di variabile è possibili distinguere tra gli operatori perché restituiscono:
numero di modalità
Si ottengono attraverso la normalizzazione ( ranging ), cioè l’addizione e/o divisione per determinati valori
di riferimento, rende più immediata la lettura del grado di dispersione di una variabile ed il suo confronto
con altre variabili.
Quando le variabili sono cardinali possiamo utilizzare due famiglie di operatori di dispersione:
Quantificano la variabilità misurando la diversità tra due particolari termini della distribuzione (per esempio,
definendo un campo di variazione), cioè la differenza
Sono gli operatori che misurano la variabilità come funzione della diversità tra ciascun termine della
diversità tra ciascun termine della distribuzione e un suo valore centrale.
All’interno di questa famiglia rientrano gli operatori che misurano la variabilità come funzione della
diversità di ciascun termine della distribuzione ed un suo valore centrale; un primo operatore è lo
Scostamento Semplice Medio, dato dalla media aritmetica degli scarti assoluti della media.
Tra gli operatori di dispersione più utilizzati si trova la Varianza, calcolabile come differenza tra la media
dei quadrati e il quadrato della media; essendo una misura quadratica non è direttamente confrontabile con
la media o con altri valori centrali della distribuzione. Nel calcolo di statistiche più complesse si ricorre ad
una misura detta devianza che è data dal numeratore della varianza.
Estraendo la radice quadrata della varianza, si ottiene la Deviazione Standard (o Scarto Quadratico Medio),
cioè la misura che permette di capire se e quanto i dati sono concentrati o dispersi attorno alla media; è un
indice espresso nella stessa unità di misura della variabile.
Per poter confrontare la variabilità di distribuzioni espresse con diverse unità di misura, si può ricorrere al
Coefficiente di Variazione.
Se si considera la media come il centro di gravità della distribuzione, la variabilità può essere misurata in
termini di momenti, cioè la media tra prodotti i cui fattori hanno esponente intero.
Questi momenti possono essere omogenei, cioè consistono nella media dei valori di una variabile presa con
esponente positivo; l’esponente determina l’ordine del momento e si possono distinguere in:
- Momenti Centrali (o Momenti rispetto alla Media)
Sono momenti calcolati considerando gli scarti dalla media Varianza
- Momenti Non Centrali (o Momenti rispetto all’Origine)
Sono momenti calcolati sui dati di partenza Media Aritmetica e Media dei Quadrati
Questi due momenti ci danno informazioni che riguardano la forma della distribuzione:
In una Distribuzione Simmetrica, la media e la mediana coincidono; se la distribuzione è unimodale, anche
la moda coincide con la media e la mediana
Il più importante esempio di curva simmetrica è la Curva Normale o di Gauss.
La maggior parte dei casi si addensa sui valori bassi della variabile e presenta una frequenza alta per i
valori alti; la distribuzione presenta un’asimmetria positiva se la media è maggiore della moda:
x > mdn > mo
La maggior parte dei casi si addensa sui valori alti della variabile e presenta una frequenza bassa per i
valori più bassi; la distribuzione presenta un’asimmetria negativa se la media è minore della moda:
x < mdn < mo
- Curtosi
È una misura che valuta quanto la curtosi di una distribuzione sia simile o quanto differisca rispetto a
quella della distribuzione normale.
Sono possibili 3 situazioni:
Data una variabile cardinale con una media ed una deviazione standard note, è possibile calcolare i valori in
un’altra variabile, chiamati punteggi z: se sommati danno 0 e se sommati al quadrato danno N.
Per fare in modo che rientrino in media e varianza 0 e 1 si può procedere ad una trasformazione lineare;
questo permette di confrontare due distribuzioni di valori che hanno medie e deviazioni standard diverse:
È un’operazione che consente di trasformare una variabile cardinale con determinate media e varianza in
un’altra con media e varianza specificate; questa trasformazione presenta grossi vantaggi:
Lo svantaggio è che si avrà a che fare con numeri decimali e/o negativi.
È una standardizzazione condotta sui casi (le singole righe della matrice); a seguito, la matrice può essere
vista come un insieme di profili riga che presentano media 0 e deviazione standard 1.
I punteggi deflazionati possono essere considerati variabili che autorizzano il confronto fra colonne.
La Statistica Descrittiva Multivariata si occupa di studiare la relazione due o più variabili.
È un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi. serve per
studiare la relazione tra variabili cardinali; in esso è assente l’informazione della frequenza congiunta.
Mette in relazione due variabili quantitative, consente di collocare ogni osservazione nello spazio definito dai
valori possibili delle due variabili e la forma della nuvola di punti consente una valutazione visiva del grado di
associazione delle due variabili.
In una tabella di contingenza, le variabili sono indipendenti se ciascuna distribuzione parziale contenente le
frequenze relative è uguale alla corrispondente distribuzione marginale.
Uno dei principali compiti della statistica bivariata è di stabilire quanto ci si allontana dalla condizione di
totale indipendenza: nel caso di variabili ordinali o cardinali, l’indipendenza può essere definita come “al
crescere dei valori in una variabile, non corrisponde un aumento o una diminuzione dei valori nell’altra, né in
generale né per specifiche porzioni del range della prima variabile”.
In una Tabella di Contingenza si ha indipendenza tra le variabili se ciascuna distribuzione parziale contenente
le frequenze relative o percentuali è uguale alla corrispondente distribuzione marginale.
Conoscendo le distribuzioni marginali, possiamo calcolare i valori di cella che dovremmo aspettarci nel caso
di completa indipendenza tra le variabili, che prendono il nome di Frequenze Teoriche o Attese: le Frequenze
Attese sono quelle frequenze che si ottengono nella condizione di completa indipendenza tra le variabili.
se le variabili fossero completamente indipendenti, le frequenze assolute osservate dovrebbero coincidere
con le Frequenze Teoriche.
Per calcolarle si fa ricorso alle frequenze assolute: si effettua il prodotto dei relativi marginali e si divide il
risultato per la numerosità del collettivo; se effettuiamo i calcoli in tutte le celle otteniamo la tabella delle
frequenze attese sotto la condizione che sia vero il modello di indipendenza, (le frequenze osservabili se le
variabili fossero indipendenti).
Date due variabili, possiamo affermare che tra esse esiste una relazione se i valori di una variabile variano,
sistematicamente, al variare dei valori dell’altra: si parla di Connessione, intendendo la misura dell’intensità
(forza) della relazione tra le due variabili o, in modo speculare, della loro indipendenza reciproca
↳ mira a valutare il grado di interdipendenza tra due variabili.
Tra due variabili si può anche calcolare il grado di Concordanza.
In base alla variabile che si ha, si usano diversi concetti: con Variabili Categoriali Politomiche si usano per lo
più misure di connessione, mentre con Variabili Ordinali e Cardinali, si preferiscono misure di concordanza.
Si ha tanta più concordanza quanto più le frequenze osservate tendono a concentrarsi sulla diagonale
principale della matrice risultante dall’incrocio delle due variabili, mentre si avrà tanta più discordanza
quanto più le frequenze osservate nella diagonale principale saranno minori delle frequenze teoriche.
C’è lo stesso numero di modalità, ogni modalità X è logicamente affiancabile solo ad una modalità Y.
La concordanza, oltre che sull’intensità, informa della direzione della variazione di una variabile, al variare
dell’altra:
se al crescere di x, cresce anche y, la misura avrà segno positivo.
se al crescere di x, il valore di y decresce, la misura avrà segno negativo.
Determinazione: è una misura che informa, in valori percentuali, su quanta variabilità o mutabilità viene
prevista o riprodotta da una variabile all’altra.
Una misura di determinazione valuta quanto i valori di una variabile sono riproducibili a partire dai valori
assunti dall’altra variabile.
Per le variabili ordinali e cardinali è possibile, oltre all’intensità e la direzione, valutare la Forma della
Relazione, che può essere esplorata attraverso il diagramma di dispersione:
Un operatore bivariato è un processo che considera due variabili e sintetizza l’informazione sulla loro
distribuzione congiunta in uno scalare; questi operatori si distinguono in tre classi:
sempre positivo e assumono valore 0 in assenza di connessione o maggiore di zero in presenza di
connessione tra due variabili.
Si applicano principalmente alle variabili categoriali (massimo alle ordinali).
punto neutro, lo 0 e i due poli, il negativo indica la discordanza e il positivo indica la concordanza.
Si utilizzano sia in caso di variabili categoriali che ordinali e cardinali.
e hanno come valore minimo 0 e come valore massimo 1.
Possono essere espressi più opportunamente in termini percentuali.
Si applicano principalmente alle variabili categoriali ed in misura minore a quelle ordinali.
Quando si ragiona in termini di cassazione si introduce un’asimmetria, temporale o logica, nel rapporto tra
variabili; anche dal punto puramente statistico è possibile costruire operatori simmetrici e operatori
asimmetrici (simmetrici se O
x|y
x|y)
Un operatore bivariato informa circa l’esistenza o meno di una relazione tra due variabili e la scelta di un
particolare operatore bivariato dipende dal tipo di variabile studiata.
Per costruire un operatore di connessione tra due variabili, si prende come modello di riferimento l’assenza di
relazione (si costruisce una tabella teorica) e si vede quanto i dati si allontanano dalla situazione di totale
indipendenza. Le tabelle di frequenze osservate e teoriche hanno in comune i marginali e differiscono per i
valori di cella: più le celle interne della tabella empirica si allontanano dalle rispettive celle interne della
tabella di frequenze teoriche, più è elevato il grado di connessione tra le variabili.
Chi Quadrato (X
2
Si basa sulla differenza tra le frequenze empiriche e le frequenze teoriche.
In una tabella di contingenza, per ogni cella interna si calcola lo scarto tra le frequenze osservate e le teoriche,
si eleva lo scarto al quadrato, si divide il risultato per la frequenza teorica e si sommano le quantità ottenute. Il
Chi Quadrato assume come valore minimo lo zero, mentre il valore massimo è rappresentato dal minore tra
1
) e N(J- 1
) dove N è il numero delle osservazioni, I e J indicano rispettivamente il numero di righe ed il
numero di colonne. Il valore massimo dipende strettamente dall’ampiezza del collettivo sul quale viene
calcolato e dal numero di righe e colonne della tabella.
Questo rende difficile interpretare il valore prodotto dall’operatore.
Misure basate sul Chi Quadrato
proposta da Pearson, che consiste semplicemente nel rapporto tra il valore del chi quadrato e la numerosità
dei casi; è una misura simmetrica ed assume come valore minimo lo zero.
perfetta; benché il limite superiore sia costituito dall’unità, questo limite può essere raggiunto solo con
tabelle quadrate, ma diversamente il T di Tschuprov assumerà sempre valori inferiori all’unità.
0 e 1, estremi inclusi.
Misure non Basate sul Chi Quadrato: i Coefficienti di Incertezza
Il coefficiente di incertezza assume valore zero nel caso di assenza di relazione e valore 1 nel caso di perfetta
relazione se le variabili hanno lo stesso numero di modalità, diversamente il suo valore sarà inferiore ad 1.
3.4 Operatori di Concordanza
Quando si introduce una terza variabile, diventano disponibili nuove e sofisticate procedure statistiche.
Le variabili introdotte allo scopo di controllare le relazioni bivariate vengono dette Variabili di Controllo e
permettono di valutare se la relazione bivariata è una genuina relazione causale oppure è una relazione spuria.
Vengono chiamate spurie le relazioni che svaniscono con l’introduzione della variabile di controllo: una
relazione, per poter essere interpretata causalmente, deve sopravvivere all’introduzione di una terza variabile
antecedente
rafforzata.
diremo che si tratta di una relazione spuria.
Quando la variabile di controllo è dicotomica, un modo per rendersi conto della genuinità della relazione
causale consiste nel calcolare il coefficiente di correlazione nei due sottocampioni omogenei rispetto alla
variabile di controllo se tali coefficienti sono prossimi a zero la relazione originaria va considerata spuria.
Prima di commentare in senso causale il valore assunto da un qualsiasi operatore bivariato, è opportuno
domandarsi se con l’introduzione di una terza variabile la forza e/o la direzione della relazione originaria non
vada a modificarsi, se non annullarsi.
È lecito domandarsi se la probabilità sia misurabile su una qualche forma di scala: se sia possibile associare ad
ogni evento aleatorio o casuale un numero p che rappresenti il grado di probabilità di realizzazione.
Se è cosi, è possibile collocare gli eventi su un ipotetico continuum:
insieme di condizioni, un evento certo è un evento che si presenta senza alcuna incertezza.
dato un insieme di condizioni, un evento impossibile e un evento che non si presenta mai.
Lungo il continuum si collocano eventi più vicini alla certezza, altri più vicini all’incertezza, altri equidistanti
dall’incertezza e dall’impossibilita; a ciascuno degli eventi, a seconda della posizione sul continuum, può
essere associato un numero reale compreso nell’intervallo tra 0 e 1.
Per poter parlare di probabilità abbiamo quindi bisogno di un evento che può verificarsi o non verificarsi e la
probabilità che l’evento si verifichi.
I processi posti alla base del ragionamento probabilistico sono:
Concezione e Teoria Frequentista
È la principale teoria per concettualizzare la probabilità; formalmente un evento x probabile è un evento “se…
allora… con probabilità” secondo la concezione frequentista.
Elaborata da Richard von Mises (1883-1953), la definizione frequentista sostiene che
“La probabilità di un evento E i
può essere stimata in base al numero di volte che E i
si verifica (n i
) in un
numero molto grande di prove (n).” P ( E
i
)=lim
n → ∞
n
i
n
La probabilità va concepita come caratteristica di una serie indefinitamente numerosa di eventi ripetibili e non
come attributo ad un singolo evento.
Esempio: la probabilità che esca la faccia croce nel lancio di una moneta: lanciando 1000 volte la moneta si
ottiene 490 volte croce e 510 testa, perciò la stima sarà:
Le concezioni assiomatiche della teoria della probabilità, intesa come disciplina matematica, sono indifferenti
alle problematiche relative ad una definizione filosofica della probabilità: definizioni come probabilità ed
evento sono considerati concetti primitivi che necessitano semplicemente di una definizione implicita
attraverso la definizione di alcune regole per il loro impiego coerente.
Se i due eventi sono stocasticamente indipendenti, la probabilità che vengano A e B è data dal prodotto delle
due probabilità.
In termini formali si può esprimere l’indipendenza stocastica come
i
j
i
j
e specularmente
i
j
j
i
La Variabile è il vettore di una matrice CxV che nasce dalla operativizzazione di una proprietà di un insieme
di elementi; se poi si raggruppano i casi in un numero i di classi e se ad ogni classe si associa una frequenza n i
si ottiene una Variabile Statistica.
Una Variabile Aleatoria è una variabile che trasforma gli eventi in studio, in eventi numerici cui è associata
la probabilità, è generata da un esperimento di cui non siamo in grado di prevedere l’esito con certezza; una
variabile aleatoria è una funzione che associa probabilità a valori numerici.
In altre parole, una variabile casuale è un’applicazione x che trasforma gli eventi di uno spazio Ω (spazio degli
eventi) in eventi numerici a cui è associata una probabilità.
Rispetto alla statistica descrittiva, la statistica inferenziale considera anche gli aspetti probabilistici e accoppia
valori e variabili casuali: una variabile casuale è una sorta di appendice che si porta dietro il valore osservato e
indica la probabilità che ha quel valore di verificarsi.
Le variabili casuali vengono impiegate per verificare se un risultato e statisticamente significativo o no.
Le variabili così definite possono essere:
- Variabili Aleatorie Discrete
Le principali sono quella di Bernoulli (o binomiale) e quella di Poisson; i valori che i numeri possono
assumere sono discreti, es. il numero di figli, o caso limite, giusto/sbagliato, 0/1, assume solo due valori.
Funzione di Probabilità: per una variabile causale discreta è possibile assegnare, ad ogni valore, una
probabilità non nulla di accadere, tale che la somma delle probabilità di tutti i valori che può assumere
quella distribuzione, sia uguale a 1.
Definita la variabile e la funzione di probabilità, si può definire la Funzione di Ripartizione, che fornisce
la probabilità che in un esperimento casuale la Variabile Aleatoria X assuma un valore inferiore a x, quindi
si tratta di una funzione cumulativa.
Può assumere qualsiasi valore numerico in un dato intervallo di valori (+∞; -∞), lo spazio degli eventi è
infinito e gli eventi sono infiniti e non numerabili.
Funzione di Ripartizione: se la variabile aleatoria è continua, la probabilità che assuma un determinato
valore è nulla, benché l’evento non sia impossibile. Si prende un intervallo infinitesimo del valore e si
definisce la probabilità che la variabile vi cada all’interno: la probabilità è cosi definita dalla funzione di
densità ed è individuata dall’area sottesa alla curva in un dato intervallo.
Variabili Aleatorie Unidimensionale
Ha una sola variabile casuale, supporto.
Variabili Aleatorie Multidimensionale
Ha più variabili casuali.
Ad ogni evento sono associati più numeri reali ordinati e si studia la distribuzione di probabilità: se le
caratteristiche considerate sono due, è una Variabile Aleatoria Bidimensionale (o Bivariata). Ogni
dimensione è, a sua volta, una Variabile Aleatoria Unidimensionale detta Variabile Componente.
Ad ogni evento è associata una probabilità del suo verificarsi che assume una distribuzione ben precisa.
Come per le distribuzioni di frequenze, anche per le Distribuzioni di Probabilità si possono definire i valori
caratteristici che permettono di identificare la distribuzione.
La media aritmetica prende il nome di Valore Atteso e si indica con μ (mu), mentre la variabilità di una
distribuzione di probabilità si misura attraverso la Varianza e si indica con σ
2
(sigma quadro).
Valore medio (operatore di tendenza centrale)
Varianza (operatore di dispersione)
Le principali distribuzioni di probabilità per Variabili Aleatorie Discrete sono la Bernoulliana (o binomiale) e
la Poissoniana; da un punto di vista teorico la distribuzione di probabilità descrive e associa la probabilità che
ci si aspetta per puro effetto del caso.
La Distribuzione Bernoulliana (o Binomiale) è adatta quando ci si occupa di fenomeni che possono avere
solo due esiti (vero-falso, vivo-morto, testa-croce) e che sono indipendenti e che si escludono reciprocamente.
Se P è la probabilità che si verifichi un evento (successo) e q è l’insuccesso (1-p), allora la probabilità che
l’evento successo si presenti esattamente k-volte in n-prove e dato dall’ Equazione.
Pk si legge “Probabilità, combinatoria
n
k
, p
k
per q
n-k
Questa equazione descrive quello che succede quando p=0,5, quindi anche q=0,5; ci sono due alternative, di
cui una soltanto è vera (moneta non truccata), che graficamente appare con un andamento a “campana”, cioè
simmetrica; p=q e k può assumere solo valori interi positivi, ha somma uguale ad 1 ed i parametri p e q sono
detti Caratteristici della Distribuzione.
Il discorso cambia se p ≠ q, la funzione definisce dei valori della probabilità e diventano asimmetrici:
diventano asimmetrici positivi se p>0,5, e in questa situazione torna più utile la distribuzione di probabilità
binomiale.
es. nella costruzione di un test si inseriscono dei distrattori tali da evitare che la probabilità di rispondere
correttamente per puro effetto del caso sia di 0,5 (p=q); con il calcolo della distribuzione teorica della
probabilità binomiale, è possibile calcolare il numero di distrattori sufficienti a costruire un test dove poter
osservare teoricamente quale sarà la probabilità di osservare le risposte corrette date per puro effetto del caso.
↳ più distrattori si inseriscono, meno è alta la probabilità di rispondere correttamente per puro effetto del
caso.
Le proprietà della distribuzione binomiale simmetrica da ricordare:
2
= n ∗ p ∗ q
Variabile Aleatoria Normale
La Variabile Aleatoria Normale (o Gaussiana) è la distribuzione teorica per eccellenza nella statistica
inferenziale e costituisce un punto di riferimento nella ricerca empirica.
Il suo successo e dovuto allo sviluppo della Teoria degli Errori Accidentali
↳ Supponendo di effettuare n-volte la misurazione di un fenomeno, se lo strumento è tarato, il risultato
dell’osservazione sarà determinato dal valore vero T e da una perturbazione accidentale (non sistematica) di
grandezza variabile, indicata con
ε :
x
n
= T + ε
n
La componente accidentale ε può essere considerata come la somma algebrica degli effetti di un considerevole
numero di cause tra loro indipendenti; le misure di una grandezza ripetute numerose volte si distribuiscono
attorno ad un valore, in modo che al crescere del valore assoluto dell’errore diminuisce la sua frequenza.
La frequenza di ciascun errore positivo è uguale alla frequenza dell’errore negativo di pari valore assoluto
(simmetria), perciò la Curva di Gauss è nata per descrivere l’errore accidentale.
Se si standardizzano i valori di questi k-campioni, si avranno k-variabili casuali standardizzate (z 1
, z
2
, z
3
, z
k
tutte distribuite normalmente con la stessa media e la stessa varianza, in quanto standardizzate (μ = 0; σ
2
La sommatoria dei quadrati di queste k-variabili normali standardizzate è a sua volta una variabile casuale e
prende il nome di χ
2
La distribuzione del χ
2
varia in funzione del parametro ν:
In generale una distribuzione χ2 presenta sempre una gobba per poi scendere sintoticamente verso lo zero.
La distribuzione F di Fischer – Snedecor è definita come rapporto tra due variabili casuali χ
2
: è una
distribuzione molto usata nell’analisi della varianza e viene utilizzata per prendere decisioni statistiche.
Ha a che fare con distribuzioni che possono assumere solo valori positivi ed è caratterizzata da due parametri
che sono corrispondenti ai gradi di libertà del numeratore e del denominatore.
È una distribuzione unidimensionale e come casi speciali tende ad altre distribuzioni, ad esempio:
distribuzione t
2
(T di student)
alla distribuzione χ
2
La distribuzione T di student (t 2
) prende il nome dallo pseudonimo (student) utilizzato da Gosset quando era
uno studente e metteva in crisi i suoi insegnanti sapendone più di loro.
È definita come un rapporto tra una variabile casuale normale standardizzata e la radice quadrata di una
variabile χ
2
divisa per i suoi gradi di libertà, a condizione che le due variabili siano tra loro indipendenti.
È utile nei casi in cui i gradi di libertà siano pochi.
La T di student, al crescere dei gradi di libertà (fino al limite massimo 30), tende ad assomigliare alla
distribuzione normale. La forma della distribuzione dipende dai GdL, le diverse curve sono campanulari e
simmetriche (platicurtiche).
L’Inferenza Statistica permette di fornire risposte probabilistiche su aspetti incogniti di una popolazione
partendo da dati campionari.
Concetto di Popolazione (o Universo)
Si definisce “popolazione” un qualsiasi insieme di elementi simili tra loro per una o più caratteristiche che
rappresentano l’oggetto dello studio; può essere
Se la popolazione è finita, la probabilità di estrazione di un’unità con una certa caratteristica è indipendente
dalle precedenti estrazioni effettuate solo a patto che, dopo ogni estrazione, si proceda al reinserimento di
ogni unita estratta nella lista di estrazione
↳ definito Campionamento Bernoulliano o Campionamento Casuale Semplice con Ripetizione
realizzeranno in futuro.
Concetto di Campione
Il campione è un sottoinsieme della popolazione, cioè una raccolta finita di elementi estratti da una
popolazione.
Lo scopo dell’estrazione è di ottenere informazioni sulla popolazione, pertanto il campione deve essere
rappresentativo della popolazione da cui viene estratto, per corrispondere a queste esigenze il campione viene
individuato con un campionamento casuale; la casualità è la garanzia della rappresentatività di un campione.
L’inferenza statistica consiste principalmente nel fare delle induzioni su alcuni particolari valori caratteristici
delle distribuzioni di variabili in una popolazione a partire dai dati campionari.
Questi valori caratteristici vengono definiti parametri (media, mediana, indici di variabilità, ecc) e sono
indicati con le lettere dell’alfabeto greco (media: μ - varianza: σ
2
Le induzioni sono possibili a partire dai valori caratteristici, rintracciabili in un campione estratto da una
popolazione in modo casuale; per questo sono ritenute omologhe ai parametri, vengono definite statistiche
campionarie ed i valori sono indicati con l’alfabeto latino (media: x - varianza: s
2
Si definisce “Statistica Campionaria” la statistica calcolata per le osservazioni che compongono il campione
(T); in generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti
dell’omologo parametro della popolazione ( θ ).
Una Distribuzione Campionaria è la distribuzione relativa ad una specifica statistica calcolata su più campioni
di n-dimensione, tutti estratti dalla stessa popolazione.
Una Statistica Campionaria è, a sua volta, una variabile aleatoria con una sua distribuzione di probabilità.
Questo genere di statistiche ha dei valori (media, deviazione Standard, varianza, ecc) che variano attorno
all’omologo parametro della popolazione.
In virtù di questa attrazione delle statistiche da parte del parametro corrispondente, è ragionevole tentare una
stima del parametro (fisso, ma sconosciuto) a partire dalla statistica osservata; tale stima sarà caratterizzata da
un certo margine di errore accidentale, in quanto operiamo su uno solo dei campioni potenzialmente estraibili
dalla popolazione: la prossimità/distanza della statistica dal parametro, sarà, cioè, influenzata dal caso.
L’inferenza statistica permette di fornire risposte (incerte o probabilistiche) a domande di conoscenza su
aspetti incogniti di una popolazione, a partire da informazioni empiriche (o dati) relative ad un campione.
Il percorso che segue l’inferenza statistica si svolge attraverso le seguenti fasi:
Si distinguono due principali modi con cui si impostano le procedure di inferenza statistica, essi sono
interconnessi, e sono:
Test sulle Ipotesi Statistiche
Sono procedure che portano il ricercatore a trattenere o respingere un’ipotesi statistica.
Disponendo di dati campionari, si possono controllare la tenuta di determinate affermazioni anche nella
popolazione di riferimento. Si suddividono in due grandi famiglie:
Procedure di Stima
Servono per identificare il valore incognito di certi parametri della legge di probabilità assunta come
modello; si articolano in due classi di operazioni:
probabilità, cadrà il parametro, a partire dal dato che si calcola sul campione.
Le due classi di operazioni sono complementari: a prescindere dal metodo impiegato, non si potrà mai
sapere quanto la stima puntuale sia vicina al parametro vero.
La costruzione di un intervallo attorno alla stima puntuale aumenta la probabilità di indovinare il parametro
vero, anche se ciò va a discapito della precisione.
Metodo di Stima e Verifica delle Ipotesi sono due opzioni alternative, anche se, in termini formali, la
stima intervallare è una diversa formulazione della verifica delle ipotesi, e viceversa.