Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Psicometria - appunti, Appunti di Psicometria

Appunti di lezione di Psicometria integrati con slide e libro "Statistica per la ricerca sociale".

Tipologia: Appunti

2020/2021

Caricato il 08/10/2023

ali-alfonso
ali-alfonso 🇮🇹

4

(1)

22 documenti

1 / 37

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
PSICOMETRIA
La psicometria è la misurazione proprietà mentali, costruisce misure per assegnare un valore numerico alle
proprietà, esigenza che nasce con la psicologia.
Definizione Restrittiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-
statistico per produrre misure e valutare la bontà.
Definizione Estensiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-
statistico per rilevare, descrivere e mettere in relazione fenomeni di interesse per la psicologia.
Nella ricerca quantitativa, si organizzano i dati in una matrice per analizzarli in modo statistico.
Statistica Descrittiva
è una branca della statistica che si occupa di sintetizzare, porre in relazione i dati raccolti su un collettivo
(insieme di individui, detti oggetti), il tipo è unità di analisi.
Statistica Inferenziale
consente di estendere i risultati ottenuti su un campione (sottoinsieme di un collettivo) di osservazioni
all’intera popolazione
Generalizzazione
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25

Anteprima parziale del testo

Scarica Psicometria - appunti e più Appunti in PDF di Psicometria solo su Docsity!

PSICOMETRIA

La psicometria è la misurazione proprietà mentali, costruisce misure per assegnare un valore numerico alle

proprietà, esigenza che nasce con la psicologia.

Definizione Restrittiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-

statistico per produrre misure e valutare la bontà.

Definizione Estensiva: è l’insieme di strumenti e procedure che si avvalgono del linguaggio matematico-

statistico per rilevare , descrivere e mettere in relazione fenomeni di interesse per la psicologia.

Nella ricerca quantitativa , si organizzano i dati in una matrice per analizzarli in modo statistico.

 Statistica Descrittiva

è una branca della statistica che si occupa di sintetizzare, porre in relazione i dati raccolti su un collettivo

(insieme di individui, detti oggetti), il tipo è unità di analisi.

 Statistica Inferenziale

consente di estendere i risultati ottenuti su un campione (sottoinsieme di un collettivo) di osservazioni

all’intera popolazione

Generalizzazione

PRIMA PARTE: Statistica Descrittiva

Capitolo 1: Linguaggio delle Variabili

1.1 Unità e Variabili

Le unità sono letteralmente gli oggetti di studio (individui, situazioni, oggetti) a cui si interessa la ricerca e

l’insieme delle unità costituisce un collettivo o una popolazione o un universo.

Individuando le unità d’analisi, il ricercatore deve arrivare ad un livello di astrazione che gli permetta di

definire i casi: il passaggio da unità a casi avviene tramite operativizzazione , un insieme di regole di

selezione delle unità che il ricercatore deve esplicitare (la ricerca che fa uso della statistica, solitamente, pone

la sua attenzione su determinate proprietà delle unità stesse).

Dalle proprietà si passa alle variabili tramite una definizione operativa , un insieme di regole che portano alla

concreta individualizzazione dei casi, che segue delle regole per poter passare a “variabili” relative a:

  • Modi di assegnazione a categorie già predisposte
  • Modalità di raccolta dei dati
  • Rilevazione in una base dati organizzata

Le operazioni canoniche che consentono il passaggio da probabilità a variabili sono:

Classificazione

Può essere intesa come operazione intellettuale come una partizione di dominio che porti alla creazione di

un numero tot di classi equivalenti che soddisfino le condizioni di esclusività ed esaustività.

Si definisce “sensibilità di una variabile” il numero di categorie create in rapporto virtuale al numero di

stati che quella stessa variabile potrebbe assumere.

Ordinamento

È la partizione di un dominio di una proprietà e gode della relazione dell’ordine, oltre che della relazione

di equivalenza; quindi si potrebbe stabilire un rapporto di maggioranze tra le categorie, ma non

individuarne con certezza la distanza.

Misurazione

Presuppone l’esistenza di una unità di misura a cui rapportare la proprietà posseduta dai casi; perciò la

proprietà è pensabile come un continuum , lungo il quale possono essere collocati i possibili casi.

Prima si sceglie l’unità di misura, poi la si confronta con ogni caso e infine se ne registra il valore.

Conteggio

Si tratta di un’enumerazione, un’operazione possibile davanti a proprietà pensabili come discrete.

1.2 La Classificazione dei Livelli di Scala di Stevens

Secondo Stevens, “la misurazione, nel senso più ampio, consiste nell’attribuzione di numeri a oggetti o eventi

seguendo determinate regole. Il fatto che si possano assegnare dei numeri seguendo regole differenti porta

a differenti tipi di scala e differenti tipi di misurazione.”

La scala di misura è un sistema che mette in relazione gli stati di oggetti su determinate proprietà e i numeri

reali: una scala di misura è formata da < SE, f, SN >, SE è il sistema relazionale empirico (casi), SN : sistema

relazionale numerico (codici), f è la funzione che fa corrispondere ad ogni elemento di SE un elemento di SN.

Ogni funzione ha una famiglia di possibili rappresentazioni ed ogni scala può essere caratterizzata da una

famiglia di trasformazioni ammissibili , cioè trasformazioni che preservano le relazioni dotate di significato

nel Sistema Relazionale Empirico; sono funzioni in cui dominio e condominio coincidono, cioè definite sullo

stesso sottoinsieme dei numeri reali.

In base alle Trasformazioni Ammissibili, Stevens distingue quattro tipi di scala:

- Scala Nominale

Viene originata quando ci troviamo in un SE con relazioni tra casi di uguaglianza o disuguaglianza,

pertanto una rappresentazione SN di numeri uguali o disuguali che assumano il puro significato di

etichette (i numeri sono simboli sostituibili).

La sua trasformazione ammissibile è la Transcodifica : i dati espressi su scala nominale sono indicati

anche come variabili categoriali e i valori che può assumere sono detti categorie.

Viene detta “dicotomica” quando presenta due modalità o “politomica” quando presenta >2 modalità.

Corrisponde alla variabile di tipo Categoriale.

1.4 Il Concetto Di Statistica Idonea

Come facciamo a capire quale sia la statistica più opportuna da utilizzare?

Prendiamo in considerazione t(y) come trasformazione ammissibile e f(y) una qualsiasi statistica: una

statistica è idonea per un determinato livello solo se il suo risultato dopo la trasformazione è invariante.

L’invarianza può essere di tre tipi:

Assoluta : se il risultato della statistica è lo stesso sia sui dati di partenza sia sui dati trasformati

Equivarianza : se il valore cambia in base alla medesima funzione mediante la quale si passa da SN alla

trasformata, quindi si ottiene lo stesso valore sulla variabile originaria e sulla trasformata

Ortovarianza : se la funzione che consente il passaggio dal risultato della statistica sui dati di partenza al

risultato della statistica sui dati trasformati non è la trasformazione ammissibile t

1.5 Alcuni Tipi Di Matrici Di Dati

Le matrici sono un insieme ordinato di numeri o altri simboli che svolgono una funzione di orientamento

nella scelta delle tecniche adeguate per le diverse forme di organizzazione dati e sono composte da celle

disposte in righe e colonne.

Le informazioni grezze sono codificate in dati che vengono organizzati in matrici; facendo riferimento al

modello di classificazione delle matrici di Carroll e Young possiamo distinguere matrici in base a:

  • Numero di Vie: il numero di entrate della matrice (I corrisponde alle righe e J corrisponde alle colonne)
  • Numero di Modi: numero di famiglie di entità diverse a cui il dato rimanda (il numero di modi può essere

al massimo uguale al numero di vie, ma può anche essere inferiore)

  • Condizionamento:
    • Unconditional, se consente confronti sia tra righe che tra colonne
    • Row Conditional, se consente soltanto confronti tra le righe
    • Column Conditional, se consente soltanto confronti tra le colonne

Matrice CxV

Una matrice molto usata è la Matrice CxV, casi per variabili , anche detta matrice multivariata; in questa

matrice, le colonne rappresentano le variabili, mentre le righe rappresentano i casi.

Per poter parlare di variabili non deve essere una matrice Row Conditional.

C x V in forma ridotta o pico = contiene sintesi, aggregazione dati

C x V in forma canonica o micro = contiene dati individuali non scomponibili

1.6 I Due Linguaggi della Statistica

Ci sono due linguaggi della ricerca empirica quantitativa: il linguaggio delle variabili e il linguaggio degli

oggetti.

La ricerca empirica è una successione di operazioni per produrre risposte a domande sulla realtà; esistono 4

livelli di una ricerca empirica:

  1. Disegno della Ricerca: quesito e progettazione dello studio
  2. Produzione e Organizzazione dei Dati: rilevazione dei dati e ricerca osservativa o sperimentale
  3. Analisi dei Dati: risultati della ricerca, le informazioni in relazione tra loro registrate in una matrice

statistica

  1. Esposizione dei Risultati: rendere trasparente l’itinerario di ricerca e comunicare i risultati alla comunità

scientifica

Nel linguaggio delle variabili ci sono 3 operazioni fondamentali:

  • Spiegazione: consiste nello studiare l’esistenza di relazioni di dipendenza tra le Variabili Dipendenti (che

vengono influenzate) e le Variabili Indipendenti (che esercitano un’influenza)

  • Interpretazione: consiste nel determinare quali e quante variabili non osservate sono necessarie per

rendersi conto delle relazioni esistenti tra un insieme di variabili osservate

  • Descrizione: i dati della matrice vengono semplicemente riscritti in maniera più compatta e leggibile (si

sintetizza la relazione tra variabili)

Nel linguaggio degli oggetti le 3 operazioni fondamentali sono la Classificazione, l’Ordinamento e la

Misurazione.

Capitolo 2: Statistica Descrittiva Monovariata

La statistica descrittiva è l’insieme di metodi che consentono di descrivere e sintetizzare i dati raccolti in un

campione attraverso un numero ridotto di statistiche o indici descrittivi.

Per statistica monovariata si intende l’insieme di strumenti statistici che permettono di rispondere a domande

relative ad una sola variabile; la statistica multivariata considera la relazione tra due o più variabili.

2.1 Distribuzione Semplice di Frequenze d loro Rappresentazioni

La distribuzione semplice di frequenze è un modo per organizzare i dati che mette in relazione la variabile

con la frequenza con cui si manifesta nel collettivo, perciò opera una compressione dei dati.

In una matrice CxV ogni colonna contiene la distribuzione unitaria del collettivo su una determinata proprietà.

A seconda del tipo di variabile la distribuzione di frequenze assume nomi diversi:

- Serie Sconnessa di Frequenze  la variabile è categoriale

Le modalità della variabile non hanno nessuna relazione tra di loro (relazione d'ordine, ecc..) perché ci

troviamo in un livello di scala nominale.

 le frequenze relative sono date dal rapporto fra le frequenze assolute di ciascuna modalità e la

numerosità del collettivo.

 le frequenze percentuali si ottengono operando in modo che l’ampiezza del collettivo sia pari a 100 (è

sufficiente moltiplicare per 100 le frequenze relative).

Se la variabile è categoriale operiamo una serie sconnessa di sequenze , le frequenze assolute

rappresentano le frequenze con cui una data modalità si presenta e sono indicate nelle tabelle di frequenze

semplificate (la somma delle frequenze assolute delle modalità è uguale al collettivo).

Per la Serie Sconnessa di Frequenze, i grafici più usati sono

  • Diagrammi a Barre: le modalità della variabile sono rappresentate da rettangoli con la stessa base ed

un’altezza proporzionale alla frequenza con cui si è manifestata nel collettivo

  • Diagramma a Torta: ci sono tanti settori quante sono le modalità e l’area di ciascun settore è

proporzionale alla frequenza della modalità corrispondente

  • Serie Ordinata di Frequenze  la variabile è ordinale

Si chiama così per richiamare che tra le modalità esiste un ordine dotato di significato.

 le frequenze cumulate si ottengono riportando a fianco di ogni modalità il numero di persone che

rientrano nella modalità stessa o in quelle inferiori

 le frequenze retrocumulate si ottengono partendo dalla modalità più alta

Per la Serie Ordinata di Frequenze i grafici più usati sono

  • Spezzata a Gradini: serve se interessa sapere la percentuale di individui che è al massimo ad un certo

livello, si ottiene costruendo tanti rettangoli quante sono le modalità, rappresentando sulle ordinate le

frequenze cumulate e unendo le basi superiori tra di loro per creare una linea

  • Istogramma: i rettangoli sono accostati l’uno all’altro per sottolineare la contiguità delle categorie (ha

senso solo se le categorie sono ordinate)

  • Seriazione di Frequenze  la variabile è cardinale

Con questo tipo di variabile è necessario raggruppare le frequenze in classi , ogni classe è individuata dal

valore minimo e dal valore massimo in essa inclusi; per calcolare l’ampiezza di una classe sarà sufficiente

fare la differenza tra il limite superiore ed il limite inferiore ed aggiungervi un’unità.

Nel costruire classi si possono seguire alcuni criteri generali:

  • Scegliere i Confini di Classe utilizzando Numeri Interi
  • Raggruppare in modo Ottimale per non perdere o disperdere casi
  • Costruire Classi con lo Stesso Intervallo
  • Classi Equinumerose
  • Costruire in base all’Andamento della Distribuzione

Per la Serie Sconnessa di Frequenze, i grafici più usati sono

  • Istogramma: la base è proporzionale all’ampiezza di classe e l’altezza rappresenta la densità di frequenza
  • Poligonale di Frequenze: si ottiene congiungendo con una linea i valori centrali delle basi superiori degli

istogrammi (si usa quando bisogna confrontare due o più collettivi, unisce le medie delle colonne)

  • Curva di Gauss: quando il collettivo è ampio e le classi hanno un’ampiezza piccola, la poligonale assume

l’aspetto di una curva continua (usate come modelli teorici per descrivere distribuzioni empiriche)

Arrotondamento

Suddividendo una distribuzione in parti uguali è possibile ottenere i cosiddetti Quantili o Operatori di

Posizione: sono una famiglia di misure e si distinguono a seconda del numero di parti uguali

in cui suddividono una distribuzione.

Vengono detti Quartili se la distribuzione viene suddivisa in 4 parti:

- Q

1

: il primo quartile, lascia da una parte il 25% dei valori più bassi e dall'altra parte il 75% dei valori più alti

- Q

2

: il secondo quartile, lascia da una parte il 50% dei valori più bassi e dall'altra parte il 50% dei valori più

alti (allora coincide con la mediana)

- Q

3

: il terzo quartile, lascia da una parte il 75% dei valori più bassi e dall'altra parte il 25% dei valori più alti

- Q

4

: il quarto quartile, lascia al di sotto il 100% dei casi

Quando la variabile presenta un ampio numero di modalità, è utile calcolare i Decili e i Centili, cioè le

modalità dei casi che suddividono la distribuzione in 10 e 100 parti.

2.4 Operatori di Dispersione

Per studiare una distribuzione di dati bisogna utilizzare gli Operatori di Dispersione, che descrivono la

dispersione dei dati intorno al valore centrale, quantificandone la rappresentatività e producono uno scalare in

cui si valuta la diversità esistente tra le osservazioni.

La dispersione assume nomi diversi in base al livello di scala della variabile:

  • Mutabilità: Eterogeneità/Omogeneità  Variabili Categoriali
    • Eterogeneità: ciascuna modalità ha la stessa frequenza N/K

L’ Indice di Gini è una misura di eterogeneità che permette di cogliere il significato di dispersione, di

diversità tra le osservazioni, è un numero che dice se c'è tanta o poca diversità tra le osservazioni

  • Omogeneità: una sola modalità ha la frequenza assoluta pari al collettivo N
  • Variabilità: Metrica  Variabilità Cardinali / Non Metrica  Variabili Ordinali

A seconda del tipo di variabile è possibili distinguere tra gli operatori perché restituiscono:

  • Valori Assoluti: dipendenti dall’unità di misura o dal numero di modalità
  • Valori Relativi: variano all’interno di uno stesso intervallo, a prescindere dall’unità di misura o dal

numero di modalità

Si ottengono attraverso la normalizzazione ( ranging ), cioè l’addizione e/o divisione per determinati valori

di riferimento, rende più immediata la lettura del grado di dispersione di una variabile ed il suo confronto

con altre variabili.

Quando le variabili sono cardinali possiamo utilizzare due famiglie di operatori di dispersione:

  • Intervalli di Variazione

Quantificano la variabilità misurando la diversità tra due particolari termini della distribuzione (per esempio,

definendo un campo di variazione), cioè la differenza

  • ottenuta tra il valore massimo ed il valore minimo di una distribuzione
  • interquartile che si ottiene individuando i quartili in una distribuzione e calcolandone la differenza
  • Scarti da un Valore Centrale

Sono gli operatori che misurano la variabilità come funzione della diversità tra ciascun termine della

diversità tra ciascun termine della distribuzione e un suo valore centrale.

All’interno di questa famiglia rientrano gli operatori che misurano la variabilità come funzione della

diversità di ciascun termine della distribuzione ed un suo valore centrale; un primo operatore è lo

Scostamento Semplice Medio, dato dalla media aritmetica degli scarti assoluti della media.

Tra gli operatori di dispersione più utilizzati si trova la Varianza, calcolabile come differenza tra la media

dei quadrati e il quadrato della media; essendo una misura quadratica non è direttamente confrontabile con

la media o con altri valori centrali della distribuzione. Nel calcolo di statistiche più complesse si ricorre ad

una misura detta devianza che è data dal numeratore della varianza.

Estraendo la radice quadrata della varianza, si ottiene la Deviazione Standard (o Scarto Quadratico Medio),

cioè la misura che permette di capire se e quanto i dati sono concentrati o dispersi attorno alla media; è un

indice espresso nella stessa unità di misura della variabile.

Per poter confrontare la variabilità di distribuzioni espresse con diverse unità di misura, si può ricorrere al

Coefficiente di Variazione.

2.6 I Momenti Omogenei e gli Indici di Forma

Se si considera la media come il centro di gravità della distribuzione, la variabilità può essere misurata in

termini di momenti, cioè la media tra prodotti i cui fattori hanno esponente intero.

Questi momenti possono essere omogenei, cioè consistono nella media dei valori di una variabile presa con

esponente positivo; l’esponente determina l’ordine del momento e si possono distinguere in:

- Momenti Centrali (o Momenti rispetto alla Media)

Sono momenti calcolati considerando gli scarti dalla media  Varianza

- Momenti Non Centrali (o Momenti rispetto all’Origine)

Sono momenti calcolati sui dati di partenza  Media Aritmetica e Media dei Quadrati

Questi due momenti ci danno informazioni che riguardano la forma della distribuzione:

  • Distribuzione Simmetrica

In una Distribuzione Simmetrica, la media e la mediana coincidono; se la distribuzione è unimodale, anche

la moda coincide con la media e la mediana

Il più importante esempio di curva simmetrica è la Curva Normale o di Gauss.

  • Distribuzione Asimmetrica Positiva

La maggior parte dei casi si addensa sui valori bassi della variabile e presenta una frequenza alta per i

valori alti; la distribuzione presenta un’asimmetria positiva se la media è maggiore della moda:

x > mdn > mo

  • Distribuzione Asimmetrica Negativa

La maggior parte dei casi si addensa sui valori alti della variabile e presenta una frequenza bassa per i

valori più bassi; la distribuzione presenta un’asimmetria negativa se la media è minore della moda:

x < mdn < mo

- Curtosi

È una misura che valuta quanto la curtosi di una distribuzione sia simile o quanto differisca rispetto a

quella della distribuzione normale.

Sono possibili 3 situazioni:

  • curtosi di una distribuzione mesocurtica (normale)
  • curtosi di una distribuzione leptocurtica (più appuntita)  maggiore di 0
  • curtosi di una distribuzione platicurtica (più appiattita)  minore di 0

2.7 Standardizzazione di una Variabile Cardinale

Data una variabile cardinale con una media ed una deviazione standard note, è possibile calcolare i valori in

un’altra variabile, chiamati punteggi z: se sommati danno 0 e se sommati al quadrato danno N.

Per fare in modo che rientrino in media e varianza 0 e 1 si può procedere ad una trasformazione lineare;

questo permette di confrontare due distribuzioni di valori che hanno medie e deviazioni standard diverse:

  • Standardizzazione

È un’operazione che consente di trasformare una variabile cardinale con determinate media e varianza in

un’altra con media e varianza specificate; questa trasformazione presenta grossi vantaggi:

  1. non c’è il problema di avere medie e deviazioni standard diverse in due distribuzioni
  2. tutti i dati ottenuti inferiori allo 0 saranno al di sotto della media, quelli superiori saranno al di sopra

Lo svantaggio è che si avrà a che fare con numeri decimali e/o negativi.

  • Deflazione

È una standardizzazione condotta sui casi (le singole righe della matrice); a seguito, la matrice può essere

vista come un insieme di profili riga che presentano media 0 e deviazione standard 1.

I punteggi deflazionati possono essere considerati variabili che autorizzano il confronto fra colonne.

Capitolo 3: Statistica Descrittiva Multivariata

La Statistica Descrittiva Multivariata si occupa di studiare la relazione due o più variabili.

È un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi. serve per

studiare la relazione tra variabili cardinali; in esso è assente l’informazione della frequenza congiunta.

Mette in relazione due variabili quantitative, consente di collocare ogni osservazione nello spazio definito dai

valori possibili delle due variabili e la forma della nuvola di punti consente una valutazione visiva del grado di

associazione delle due variabili.

In una tabella di contingenza, le variabili sono indipendenti se ciascuna distribuzione parziale contenente le

frequenze relative è uguale alla corrispondente distribuzione marginale.

Indipendenza e Indipendenza in Media

Uno dei principali compiti della statistica bivariata è di stabilire quanto ci si allontana dalla condizione di

totale indipendenza: nel caso di variabili ordinali o cardinali, l’indipendenza può essere definita come “al

crescere dei valori in una variabile, non corrisponde un aumento o una diminuzione dei valori nell’altra, né in

generale né per specifiche porzioni del range della prima variabile”.

In una Tabella di Contingenza si ha indipendenza tra le variabili se ciascuna distribuzione parziale contenente

le frequenze relative o percentuali è uguale alla corrispondente distribuzione marginale.

Conoscendo le distribuzioni marginali, possiamo calcolare i valori di cella che dovremmo aspettarci nel caso

di completa indipendenza tra le variabili, che prendono il nome di Frequenze Teoriche o Attese: le Frequenze

Attese sono quelle frequenze che si ottengono nella condizione di completa indipendenza tra le variabili.

se le variabili fossero completamente indipendenti, le frequenze assolute osservate dovrebbero coincidere

con le Frequenze Teoriche.

Per calcolarle si fa ricorso alle frequenze assolute: si effettua il prodotto dei relativi marginali e si divide il

risultato per la numerosità del collettivo; se effettuiamo i calcoli in tutte le celle otteniamo la tabella delle

frequenze attese sotto la condizione che sia vero il modello di indipendenza, (le frequenze osservabili se le

variabili fossero indipendenti).

Intensità, Direzione e Forma della Relazione

Date due variabili, possiamo affermare che tra esse esiste una relazione se i valori di una variabile variano,

sistematicamente, al variare dei valori dell’altra: si parla di Connessione, intendendo la misura dell’intensità

(forza) della relazione tra le due variabili o, in modo speculare, della loro indipendenza reciproca

mira a valutare il grado di interdipendenza tra due variabili.

Tra due variabili si può anche calcolare il grado di Concordanza.

In base alla variabile che si ha, si usano diversi concetti: con Variabili Categoriali Politomiche si usano per lo

più misure di connessione, mentre con Variabili Ordinali e Cardinali, si preferiscono misure di concordanza.

  • Concordanza (o Discordanza) in caso di Variabili Categoriali

Si ha tanta più concordanza quanto più le frequenze osservate tendono a concentrarsi sulla diagonale

principale della matrice risultante dall’incrocio delle due variabili, mentre si avrà tanta più discordanza

quanto più le frequenze osservate nella diagonale principale saranno minori delle frequenze teoriche.

C’è lo stesso numero di modalità, ogni modalità X è logicamente affiancabile solo ad una modalità Y.

  • Concordanza tra Variabili Cardinali e Ordinali

La concordanza, oltre che sull’intensità, informa della direzione della variazione di una variabile, al variare

dell’altra:

 se al crescere di x, cresce anche y, la misura avrà segno positivo.

 se al crescere di x, il valore di y decresce, la misura avrà segno negativo.

Determinazione: è una misura che informa, in valori percentuali, su quanta variabilità o mutabilità viene

prevista o riprodotta da una variabile all’altra.

Una misura di determinazione valuta quanto i valori di una variabile sono riproducibili a partire dai valori

assunti dall’altra variabile.

Per le variabili ordinali e cardinali è possibile, oltre all’intensità e la direzione, valutare la Forma della

Relazione, che può essere esplorata attraverso il diagramma di dispersione:

  • in assenza di relazione, si avrà una nuvola indefinita di punti
  • in caso di relazione lineare positiva, si avrà una diagonale in crescita
  • in caso di correlazione lineare negativa si avrà una diagonale in decrescita

3.2 Operatori Bivariati

Un operatore bivariato è un processo che considera due variabili e sintetizza l’informazione sulla loro

distribuzione congiunta in uno scalare; questi operatori si distinguono in tre classi:

  • Operatori di Connessione: servono a valutare la connessione tra due variabili, producono uno scalare

sempre positivo e assumono valore 0 in assenza di connessione o maggiore di zero in presenza di

connessione tra due variabili.

Si applicano principalmente alle variabili categoriali (massimo alle ordinali).

  • Operatori di Concordanza: servono a valutare la concordanza tra due variabili e si caratterizzano per il

punto neutro, lo 0 e i due poli, il negativo indica la discordanza e il positivo indica la concordanza.

Si utilizzano sia in caso di variabili categoriali che ordinali e cardinali.

  • Operatori di Determinazione: servono a valutare la determinazione, possono assumere solo valori positivi

e hanno come valore minimo 0 e come valore massimo 1.

Possono essere espressi più opportunamente in termini percentuali.

Si applicano principalmente alle variabili categoriali ed in misura minore a quelle ordinali.

Quando si ragiona in termini di cassazione si introduce un’asimmetria, temporale o logica, nel rapporto tra

variabili; anche dal punto puramente statistico è possibile costruire operatori simmetrici e operatori

asimmetrici (simmetrici se O

x|y

= O

x|y)

Un operatore bivariato informa circa l’esistenza o meno di una relazione tra due variabili e la scelta di un

particolare operatore bivariato dipende dal tipo di variabile studiata.

3.3 Operatori Di Connessione

Per costruire un operatore di connessione tra due variabili, si prende come modello di riferimento l’assenza di

relazione (si costruisce una tabella teorica) e si vede quanto i dati si allontanano dalla situazione di totale

indipendenza. Le tabelle di frequenze osservate e teoriche hanno in comune i marginali e differiscono per i

valori di cella: più le celle interne della tabella empirica si allontanano dalle rispettive celle interne della

tabella di frequenze teoriche, più è elevato il grado di connessione tra le variabili.

Chi Quadrato (X

2

Si basa sulla differenza tra le frequenze empiriche e le frequenze teoriche.

In una tabella di contingenza, per ogni cella interna si calcola lo scarto tra le frequenze osservate e le teoriche,

si eleva lo scarto al quadrato, si divide il risultato per la frequenza teorica e si sommano le quantità ottenute. Il

Chi Quadrato assume come valore minimo lo zero, mentre il valore massimo è rappresentato dal minore tra

N(I-

1

) e N(J- 1

) dove N è il numero delle osservazioni, I e J indicano rispettivamente il numero di righe ed il

numero di colonne. Il valore massimo dipende strettamente dall’ampiezza del collettivo sul quale viene

calcolato e dal numero di righe e colonne della tabella.

Questo rende difficile interpretare il valore prodotto dall’operatore.

Misure basate sul Chi Quadrato

  • Phi Quadrato: è una misura di connessione basata sul chi quadrato ed indipendente dal numero di casi,

proposta da Pearson, che consiste semplicemente nel rapporto tra il valore del chi quadrato e la numerosità

dei casi; è una misura simmetrica ed assume come valore minimo lo zero.

  • T2 di Tschuprov: è una misura simmetrica ed assume il valore di 1 nel caso di dipendenza reciproca

perfetta; benché il limite superiore sia costituito dall’unità, questo limite può essere raggiunto solo con

tabelle quadrate, ma diversamente il T di Tschuprov assumerà sempre valori inferiori all’unità.

  • V2 di Cramer: si tratta di una misura asimmetrica che, per costruzione, assume sempre valori compresi tra

0 e 1, estremi inclusi.

Misure non Basate sul Chi Quadrato: i Coefficienti di Incertezza

Il coefficiente di incertezza assume valore zero nel caso di assenza di relazione e valore 1 nel caso di perfetta

relazione se le variabili hanno lo stesso numero di modalità, diversamente il suo valore sarà inferiore ad 1.

3.4 Operatori di Concordanza

3.6 Tre Variabili

Quando si introduce una terza variabile, diventano disponibili nuove e sofisticate procedure statistiche.

Le variabili introdotte allo scopo di controllare le relazioni bivariate vengono dette Variabili di Controllo e

permettono di valutare se la relazione bivariata è una genuina relazione causale oppure è una relazione spuria.

Vengono chiamate spurie le relazioni che svaniscono con l’introduzione della variabile di controllo: una

relazione, per poter essere interpretata causalmente, deve sopravvivere all’introduzione di una terza variabile

antecedente

  • se l’introduzione della terza variabile non modifica la relazione tra le prime due, l’ipotesi da causalità viene

rafforzata.

  • se l’introduzione di una terza variabile comporta l’annullamento (o il quasi annullamento) della relazione,

diremo che si tratta di una relazione spuria.

Quando la variabile di controllo è dicotomica, un modo per rendersi conto della genuinità della relazione

causale consiste nel calcolare il coefficiente di correlazione nei due sottocampioni omogenei rispetto alla

variabile di controllo  se tali coefficienti sono prossimi a zero la relazione originaria va considerata spuria.

Prima di commentare in senso causale il valore assunto da un qualsiasi operatore bivariato, è opportuno

domandarsi se con l’introduzione di una terza variabile la forza e/o la direzione della relazione originaria non

vada a modificarsi, se non annullarsi.

SECONDA PARTE: Statistica Inferenziale

Capitolo 4: Teoria della Probabilità

4.1 La Formulazione del Concetto di Probabilità

È lecito domandarsi se la probabilità sia misurabile su una qualche forma di scala: se sia possibile associare ad

ogni evento aleatorio o casuale un numero p che rappresenti il grado di probabilità di realizzazione.

Se è cosi, è possibile collocare gli eventi su un ipotetico continuum:

  • ad un estremo si collocano gli eventi certi, a cui si attribuisce convenzionalmente un valore p=1 : dato un

insieme di condizioni, un evento certo è un evento che si presenta senza alcuna incertezza.

  • all’altro estremo si trovano gli eventi impossibili, a cui si attribuisce convenzionalmente un valore p=0 :

dato un insieme di condizioni, un evento impossibile e un evento che non si presenta mai.

Lungo il continuum si collocano eventi più vicini alla certezza, altri più vicini all’incertezza, altri equidistanti

dall’incertezza e dall’impossibilita; a ciascuno degli eventi, a seconda della posizione sul continuum, può

essere associato un numero reale compreso nell’intervallo tra 0 e 1.

Per poter parlare di probabilità abbiamo quindi bisogno di un evento che può verificarsi o non verificarsi e la

probabilità che l’evento si verifichi.

I processi posti alla base del ragionamento probabilistico sono:

  • induzione  rilevazioni empiriche ripetute
  • intuizione  del ricercatore
  • deduzione

Concezione e Teoria Frequentista

È la principale teoria per concettualizzare la probabilità; formalmente un evento x probabile è un evento “se…

allora… con probabilità” secondo la concezione frequentista.

Elaborata da Richard von Mises (1883-1953), la definizione frequentista sostiene che

“La probabilità di un evento E i

può essere stimata in base al numero di volte che E i

si verifica (n i

) in un

numero molto grande di prove (n).”  P ( E

i

)=lim

n → ∞

n

i

n

La probabilità va concepita come caratteristica di una serie indefinitamente numerosa di eventi ripetibili e non

come attributo ad un singolo evento.

Esempio: la probabilità che esca la faccia croce nel lancio di una moneta: lanciando 1000 volte la moneta si

ottiene 490 volte croce e 510 testa, perciò la stima sarà:

Le concezioni assiomatiche della teoria della probabilità, intesa come disciplina matematica, sono indifferenti

alle problematiche relative ad una definizione filosofica della probabilità: definizioni come probabilità ed

evento sono considerati concetti primitivi che necessitano semplicemente di una definizione implicita

attraverso la definizione di alcune regole per il loro impiego coerente.

Se i due eventi sono stocasticamente indipendenti, la probabilità che vengano A e B è data dal prodotto delle

due probabilità.

In termini formali si può esprimere l’indipendenza stocastica come

P

E

i

∩ E

j

= P

E

i

∗ P ( E

j

e specularmente

P

E

i

∩ E

j

= P

E

j

∗ P ( E

i

Capitolo 5: Variabili Aleatorie ed Inferenza Statistica

5.1 Definizione e Classificazione delle Variabili Aleatorie (o Casuali)

La Variabile è il vettore di una matrice CxV che nasce dalla operativizzazione di una proprietà di un insieme

di elementi; se poi si raggruppano i casi in un numero i di classi e se ad ogni classe si associa una frequenza n i

si ottiene una Variabile Statistica.

Una Variabile Aleatoria è una variabile che trasforma gli eventi in studio, in eventi numerici cui è associata

la probabilità, è generata da un esperimento di cui non siamo in grado di prevedere l’esito con certezza; una

variabile aleatoria è una funzione che associa probabilità a valori numerici.

In altre parole, una variabile casuale è un’applicazione x che trasforma gli eventi di uno spazio Ω (spazio degli

eventi) in eventi numerici a cui è associata una probabilità.

Rispetto alla statistica descrittiva, la statistica inferenziale considera anche gli aspetti probabilistici e accoppia

valori e variabili casuali: una variabile casuale è una sorta di appendice che si porta dietro il valore osservato e

indica la probabilità che ha quel valore di verificarsi.

Le variabili casuali vengono impiegate per verificare se un risultato e statisticamente significativo o no.

Le variabili così definite possono essere:

- Variabili Aleatorie Discrete

Le principali sono quella di Bernoulli (o binomiale) e quella di Poisson; i valori che i numeri possono

assumere sono discreti, es. il numero di figli, o caso limite, giusto/sbagliato, 0/1, assume solo due valori.

Funzione di Probabilità: per una variabile causale discreta è possibile assegnare, ad ogni valore, una

probabilità non nulla di accadere, tale che la somma delle probabilità di tutti i valori che può assumere

quella distribuzione, sia uguale a 1.

Definita la variabile e la funzione di probabilità, si può definire la Funzione di Ripartizione, che fornisce

la probabilità che in un esperimento casuale la Variabile Aleatoria X assuma un valore inferiore a x, quindi

si tratta di una funzione cumulativa.

  • Variabili Aleatorie Continue

Può assumere qualsiasi valore numerico in un dato intervallo di valori (+∞; -∞), lo spazio degli eventi è

infinito e gli eventi sono infiniti e non numerabili.

Funzione di Ripartizione: se la variabile aleatoria è continua, la probabilità che assuma un determinato

valore è nulla, benché l’evento non sia impossibile. Si prende un intervallo infinitesimo del valore e si

definisce la probabilità che la variabile vi cada all’interno: la probabilità è cosi definita dalla funzione di

densità ed è individuata dall’area sottesa alla curva in un dato intervallo.

Variabili Aleatorie Unidimensionale

Ha una sola variabile casuale, supporto.

Variabili Aleatorie Multidimensionale

Ha più variabili casuali.

Ad ogni evento sono associati più numeri reali ordinati e si studia la distribuzione di probabilità: se le

caratteristiche considerate sono due, è una Variabile Aleatoria Bidimensionale (o Bivariata). Ogni

dimensione è, a sua volta, una Variabile Aleatoria Unidimensionale detta Variabile Componente.

Ad ogni evento è associata una probabilità del suo verificarsi che assume una distribuzione ben precisa.

5.2 Valori Caratteristici di una Distribuzione Teorica di Probabilità

Come per le distribuzioni di frequenze, anche per le Distribuzioni di Probabilità si possono definire i valori

caratteristici che permettono di identificare la distribuzione.

La media aritmetica prende il nome di Valore Atteso e si indica con μ (mu), mentre la variabilità di una

distribuzione di probabilità si misura attraverso la Varianza e si indica con σ

2

(sigma quadro).

 Valore medio (operatore di tendenza centrale)

 Varianza (operatore di dispersione)

5.3 Esempi di Distribuzioni Teoriche di Probabilità per Variabili Aleatorie Discrete

Le principali distribuzioni di probabilità per Variabili Aleatorie Discrete sono la Bernoulliana (o binomiale) e

la Poissoniana; da un punto di vista teorico la distribuzione di probabilità descrive e associa la probabilità che

ci si aspetta per puro effetto del caso.

La Distribuzione Bernoulliana (o Binomiale) è adatta quando ci si occupa di fenomeni che possono avere

solo due esiti (vero-falso, vivo-morto, testa-croce) e che sono indipendenti e che si escludono reciprocamente.

Se P è la probabilità che si verifichi un evento (successo) e q è l’insuccesso (1-p), allora la probabilità che

l’evento successo si presenti esattamente k-volte in n-prove e dato dall’ Equazione.

Pk si legge “Probabilità, combinatoria

n

k

, p

k

per q

n-k

  • n è il numero di prove
  • k è il numero di successi (n-k e il numero degli insuccessi)
  • p è la probabilità di successo
  • q è la probabilità che accada il contrario (1-p)

Questa equazione descrive quello che succede quando p=0,5, quindi anche q=0,5; ci sono due alternative, di

cui una soltanto è vera (moneta non truccata), che graficamente appare con un andamento a “campana”, cioè

simmetrica; p=q e k può assumere solo valori interi positivi, ha somma uguale ad 1 ed i parametri p e q sono

detti Caratteristici della Distribuzione.

Il discorso cambia se p ≠ q, la funzione definisce dei valori della probabilità e diventano asimmetrici:

diventano asimmetrici positivi se p>0,5, e in questa situazione torna più utile la distribuzione di probabilità

binomiale.

 es. nella costruzione di un test si inseriscono dei distrattori tali da evitare che la probabilità di rispondere

correttamente per puro effetto del caso sia di 0,5 (p=q); con il calcolo della distribuzione teorica della

probabilità binomiale, è possibile calcolare il numero di distrattori sufficienti a costruire un test dove poter

osservare teoricamente quale sarà la probabilità di osservare le risposte corrette date per puro effetto del caso.

più distrattori si inseriscono, meno è alta la probabilità di rispondere correttamente per puro effetto del

caso.

Le proprietà della distribuzione binomiale simmetrica da ricordare:

  • è simmetrica perché p = q =0,5 (se p≠q e asimmetrica, positiva per p>0,5)
  • è discreta perché k può assumere solo valori interi
  • ha somma uguale ad 1
  • i parametri p e q sono detti caratteristici della distribuzione
  • la media (il valore atteso) μ=n*p
  • la varianza σ

2

= npq

5.4 Esempi di Distribuzioni Teoriche di Probabilità per Variabili Aleatorie Continue

Variabile Aleatoria Normale

La Variabile Aleatoria Normale (o Gaussiana) è la distribuzione teorica per eccellenza nella statistica

inferenziale e costituisce un punto di riferimento nella ricerca empirica.

Il suo successo e dovuto allo sviluppo della Teoria degli Errori Accidentali

Supponendo di effettuare n-volte la misurazione di un fenomeno, se lo strumento è tarato, il risultato

dell’osservazione sarà determinato dal valore vero T e da una perturbazione accidentale (non sistematica) di

grandezza variabile, indicata con

ε :

x

n

= T + ε

n

La componente accidentale ε può essere considerata come la somma algebrica degli effetti di un considerevole

numero di cause tra loro indipendenti; le misure di una grandezza ripetute numerose volte si distribuiscono

attorno ad un valore, in modo che al crescere del valore assoluto dell’errore diminuisce la sua frequenza.

La frequenza di ciascun errore positivo è uguale alla frequenza dell’errore negativo di pari valore assoluto

(simmetria), perciò la Curva di Gauss è nata per descrivere l’errore accidentale.

Se si standardizzano i valori di questi k-campioni, si avranno k-variabili casuali standardizzate (z 1

, z

2

, z

3

, z

k

tutte distribuite normalmente con la stessa media e la stessa varianza, in quanto standardizzate (μ = 0; σ

2

La sommatoria dei quadrati di queste k-variabili normali standardizzate è a sua volta una variabile casuale e

prende il nome di χ

2

La distribuzione del χ

2

varia in funzione del parametro ν:

  • per un grado di libertà è quasi una curva che scende
  • per 6 gradi di libertà presenta una gobba
  • poi va sintoticamente a zero.

In generale una distribuzione χ2 presenta sempre una gobba per poi scendere sintoticamente verso lo zero.

La distribuzione F di Fischer – Snedecor è definita come rapporto tra due variabili casuali χ

2

: è una

distribuzione molto usata nell’analisi della varianza e viene utilizzata per prendere decisioni statistiche.

Ha a che fare con distribuzioni che possono assumere solo valori positivi ed è caratterizzata da due parametri

che sono corrispondenti ai gradi di libertà del numeratore e del denominatore.

È una distribuzione unidimensionale e come casi speciali tende ad altre distribuzioni, ad esempio:

  • quando ν =1 (numeratore)e ν2 (denominatore) tende ad ∞, F tende alla Normale Standardizzata.
  • quando ν =1 (numeratore)e ν2= valore piccolo (denominatore), la distribuzione F sarà uguale alla

distribuzione t

2

(T di student)

  • quando ν = valore piccolo (numeratore) e ν2 (denominatore) è grande (tende ad ∞), la distribuzione F tende

alla distribuzione χ

2

La distribuzione T di student (t 2

) prende il nome dallo pseudonimo (student) utilizzato da Gosset quando era

uno studente e metteva in crisi i suoi insegnanti sapendone più di loro.

È definita come un rapporto tra una variabile casuale normale standardizzata e la radice quadrata di una

variabile χ

2

divisa per i suoi gradi di libertà, a condizione che le due variabili siano tra loro indipendenti.

È utile nei casi in cui i gradi di libertà siano pochi.

La T di student, al crescere dei gradi di libertà (fino al limite massimo 30), tende ad assomigliare alla

distribuzione normale. La forma della distribuzione dipende dai GdL, le diverse curve sono campanulari e

simmetriche (platicurtiche).

5.5 La Logica di Fondo dell’Inferenza Statistica

L’Inferenza Statistica permette di fornire risposte probabilistiche su aspetti incogniti di una popolazione

partendo da dati campionari.

Concetto di Popolazione (o Universo)

Si definisce “popolazione” un qualsiasi insieme di elementi simili tra loro per una o più caratteristiche che

rappresentano l’oggetto dello studio; può essere

  • Finita  costituita da un numero finito di unità, comunque molto grande

Se la popolazione è finita, la probabilità di estrazione di un’unità con una certa caratteristica è indipendente

dalle precedenti estrazioni effettuate solo a patto che, dopo ogni estrazione, si proceda al reinserimento di

ogni unita estratta nella lista di estrazione

definito Campionamento Bernoulliano o Campionamento Casuale Semplice con Ripetizione

  • Infinita  vengono trattati come popolazioni anche gli insiemi che non sono enumerabili e che si

realizzeranno in futuro.

Concetto di Campione

Il campione è un sottoinsieme della popolazione, cioè una raccolta finita di elementi estratti da una

popolazione.

Lo scopo dell’estrazione è di ottenere informazioni sulla popolazione, pertanto il campione deve essere

rappresentativo della popolazione da cui viene estratto, per corrispondere a queste esigenze il campione viene

individuato con un campionamento casuale; la casualità è la garanzia della rappresentatività di un campione.

L’inferenza statistica consiste principalmente nel fare delle induzioni su alcuni particolari valori caratteristici

delle distribuzioni di variabili in una popolazione a partire dai dati campionari.

Questi valori caratteristici vengono definiti parametri (media, mediana, indici di variabilità, ecc) e sono

indicati con le lettere dell’alfabeto greco (media: μ - varianza: σ

2

  • deviazione standard: σ).

Le induzioni sono possibili a partire dai valori caratteristici, rintracciabili in un campione estratto da una

popolazione in modo casuale; per questo sono ritenute omologhe ai parametri, vengono definite statistiche

campionarie ed i valori sono indicati con l’alfabeto latino (media: x - varianza: s

2

  • deviazione standard: s).

Si definisce “Statistica Campionaria” la statistica calcolata per le osservazioni che compongono il campione

(T); in generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti

dell’omologo parametro della popolazione ( θ ).

5.6 Distribuzioni Campionarie o Varianza Campionaria

Una Distribuzione Campionaria è la distribuzione relativa ad una specifica statistica calcolata su più campioni

di n-dimensione, tutti estratti dalla stessa popolazione.

Una Statistica Campionaria è, a sua volta, una variabile aleatoria con una sua distribuzione di probabilità.

Questo genere di statistiche ha dei valori (media, deviazione Standard, varianza, ecc) che variano attorno

all’omologo parametro della popolazione.

In virtù di questa attrazione delle statistiche da parte del parametro corrispondente, è ragionevole tentare una

stima del parametro (fisso, ma sconosciuto) a partire dalla statistica osservata; tale stima sarà caratterizzata da

un certo margine di errore accidentale, in quanto operiamo su uno solo dei campioni potenzialmente estraibili

dalla popolazione: la prossimità/distanza della statistica dal parametro, sarà, cioè, influenzata dal caso.

5.7 L’Utilizzo delle Leggi di Probabilità nei Problemi di Inferenza Statistica

L’inferenza statistica permette di fornire risposte (incerte o probabilistiche) a domande di conoscenza su

aspetti incogniti di una popolazione, a partire da informazioni empiriche (o dati) relative ad un campione.

Il percorso che segue l’inferenza statistica si svolge attraverso le seguenti fasi:

  1. estrazione di un campione della popolazione
  2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione
  3. stima dei parametri nella popolazione in base ai risultati forniti dal campione

Si distinguono due principali modi con cui si impostano le procedure di inferenza statistica, essi sono

interconnessi, e sono:

Test sulle Ipotesi Statistiche

Sono procedure che portano il ricercatore a trattenere o respingere un’ipotesi statistica.

Disponendo di dati campionari, si possono controllare la tenuta di determinate affermazioni anche nella

popolazione di riferimento. Si suddividono in due grandi famiglie:

  • Test Funzionali (Parametrici): vengono applicati a ipotesi che riguardano parametri di una popolazione.
  • Test Distribution-Free (Non Parametrici): le uniche informazioni si traggono dal campione.

Procedure di Stima

Servono per identificare il valore incognito di certi parametri della legge di probabilità assunta come

modello; si articolano in due classi di operazioni:

  • Stima Puntuale: consiste nell’ottenere un singolo valore che sia un buon rappresentante del parametro.
  • Stima Intervallare: consiste nell’individuare un intervallo, non troppo grande, in cui, con una certa

probabilità, cadrà il parametro, a partire dal dato che si calcola sul campione.

Le due classi di operazioni sono complementari: a prescindere dal metodo impiegato, non si potrà mai

sapere quanto la stima puntuale sia vicina al parametro vero.

La costruzione di un intervallo attorno alla stima puntuale aumenta la probabilità di indovinare il parametro

vero, anche se ciò va a discapito della precisione.

Metodo di Stima e Verifica delle Ipotesi sono due opzioni alternative, anche se, in termini formali, la

stima intervallare è una diversa formulazione della verifica delle ipotesi, e viceversa.