Statistica bivariata

1.TIPO DI RELAZIONI TRA DUE VARIABILI. Affermare che tra due variabili c’è relazioni, vuol dire che è possibile

prevedere una variabile a partire da un’altra. Le relazioni tra due variabili x e y possono essere di due tipi

- Possiamo trovare una relazione simmetrica, detta anche di interdipendenza/associazione, dove troviamo la

variabile x e y che si influenzano reciprocamente.

- Possiamo trovare una relazione asimmetrica, detta anche di dipendenza, dove troviamo la variabile x che influenza

y o y che influenza x, è una relazione unidirezionale.m5

Inoltre, anche se molto raro, possiamo trovarci di fronte a una relazione perfetta, quando a ogni variabile di x ne

corrisponde una di y e viceversa; oppure ci possiamo trovarci di fronte a una relazione imperfetta quando al variare

delle modalità di x, la distribuzione di y non cambia; oppure ancora possiamo trovarci di fronte a una relazione

spuria, cioè ingannevole in quanto sembra che la relazioni tra le variabili ci sia ma in realtà questa è data per effetto

di altre variabili che intervengono nelle variabili che abbiamo preso in considerazione.

2. TABELLA DOPPIA quaderno

3. MISURE DI ESISTENZA DEL LEGAME/MISURE DI TIPO ASSOCIATIVO. Le misure di esistenza del legame vengono

utilizzate in funzione del tipo di variabile che prendiamo in considerazione, infatti distinguiamo le misure per variabili

qualitative, le misure per variabili quantitative, e le misure per graduatorie.

3.1. MISURE DI TIPO ASSOCIATIVO PER VARIABILI QUALITATIVE.

- Lo strumento che utilizziamo per visualizzare simultaneamente le due variabili è la tabella a doppia entrata *

- L’indice che utilizziamo per calcolare l’esistenza del legame è l’indice chi quadro. Esso si esprime facendo la

sommatoria delle frequenze osservate – le frequenze teoriche, il tutto alla seconda, fratto le frequenze teoriche.

Le frequenze teoriche corrispondono all’ipotesi di indipendenza, ovvero esprimono i valori, ipotizzando che non vi

sia legame tra le variabili.

- Per misurare l’intensità del legame utilizziamo l’indice v di Cramer. Esso si esprime facendo la radice quadrata di x2

fratto il suo valore massimo ovvero n*m. Il suo valore varia tra 0 e 1, se questo si avvicina a 1 allora siamo di fronte a

un legame intenso, se questo si avvicina a 0 allora siamo adi fronte a un legame basso

3.2. MISURE DI TIPO ASSOCIATIVO PER VARIABILI QUANTITATIVE.

- Lo strumento che utilizziamo per visualizzare simultaneamente le due variabili è il diagramma di dispersione.

Questo diagramma, è l’equivalente della tabella doppia. È uno strumento che utilizza l’asse verticale per la variabile y

e l’asse orizzontale per la variabile x; i valori di x e y sono rappresentati del diagramma da un punto, e ogni punto

corrisponde a ogni unità che compone il fenomeno statistico.

- L’indice che utilizziamo per calcolare l’intensità del legame è la covarianza. Questa esprime la variabilità congiunta

di due caratteri, questa è inoltre una misura della dispersione ed esprime gli scostamenti dalla media. Si esprime

calcolando la sommatoria degli scarti dalla media di x, per egli scarti della media di y, fratto la numerosità. I suoi

valori sono compresi tra + infinito e – infinito, se il suo valore fa 0 allora il legame è assente

- Per misurare l’intensità del legame che abbiamo trovato, utilizziamo l’indice di correlazione lineare r, questa ci

fornisce delle indicazioni circa la direzione del legame tra due variabili. Si esprime facendo la covarianza di x e y,

fratto il massimo della covarianza, che si trova calcolando il sigma di x per il sigma di y. Il suo valore varia da 1 a -1, se

questo si avvicina a 1 allora il legame è diretto e positivo, se si avvicina a 0 allora il legame è molto basso, se si

avvicina a -1 allora il legame sarà inverso e negativo.

Il segno – o + sta per “inverso” e “diretto”; il suo valore sta per l’intensità. Questa misura non risente dell’unità di

misura

Anteprima parziale del testo

Scarica sintesi d statistica bivariata e più Schemi e mappe concettuali in PDF di Statistica Sociale solo su Docsity!

Statistica bivariata 1.TIPO DI RELAZIONI TRA DUE VARIABILI. Affermare che tra due variabili c’è relazioni, vuol dire che è possibile prevedere una variabile a partire da un’altra. Le relazioni tra due variabili x e y possono essere di due tipi

Possiamo trovare una relazione simmetrica, detta anche di interdipendenza/associazione, dove troviamo la variabile x e y che si influenzano reciprocamente.
Possiamo trovare una relazione asimmetrica, detta anche di dipendenza, dove troviamo la variabile x che influenza y o y che influenza x, è una relazione unidirezionale.m Inoltre, anche se molto raro, possiamo trovarci di fronte a una relazione perfetta, quando a ogni variabile di x ne corrisponde una di y e viceversa; oppure ci possiamo trovarci di fronte a una relazione imperfetta quando al variare delle modalità di x, la distribuzione di y non cambia; oppure ancora possiamo trovarci di fronte a una relazione spuria, cioè ingannevole in quanto sembra che la relazioni tra le variabili ci sia ma in realtà questa è data per effetto di altre variabili che intervengono nelle variabili che abbiamo preso in considerazione.

TABELLA DOPPIA quaderno
MISURE DI ESISTENZA DEL LEGAME/MISURE DI TIPO ASSOCIATIVO. Le misure di esistenza del legame vengono utilizzate in funzione del tipo di variabile che prendiamo in considerazione, infatti distinguiamo le misure per variabili qualitative, le misure per variabili quantitative, e le misure per graduatorie. 3.1. MISURE DI TIPO ASSOCIATIVO PER VARIABILI QUALITATIVE.

Lo strumento che utilizziamo per visualizzare simultaneamente le due variabili è la tabella a doppia entrata *
L’indice che utilizziamo per calcolare l’esistenza del legame è l’indice chi quadro. Esso si esprime facendo la sommatoria delle frequenze osservate – le frequenze teoriche, il tutto alla seconda, fratto le frequenze teoriche. Le frequenze teoriche corrispondono all’ipotesi di indipendenza, ovvero esprimono i valori, ipotizzando che non vi sia legame tra le variabili.
Per misurare l’intensità del legame utilizziamo l’indice v di Cramer. Esso si esprime facendo la radice quadrata di x fratto il suo valore massimo ovvero n*m. Il suo valore varia tra 0 e 1, se questo si avvicina a 1 allora siamo di fronte a un legame intenso, se questo si avvicina a 0 allora siamo adi fronte a un legame basso 3.2. MISURE DI TIPO ASSOCIATIVO PER VARIABILI QUANTITATIVE.
Lo strumento che utilizziamo per visualizzare simultaneamente le due variabili è il diagramma di dispersione. Questo diagramma, è l’equivalente della tabella doppia. È uno strumento che utilizza l’asse verticale per la variabile y e l’asse orizzontale per la variabile x; i valori di x e y sono rappresentati del diagramma da un punto, e ogni punto corrisponde a ogni unità che compone il fenomeno statistico.
L’indice che utilizziamo per calcolare l’intensità del legame è la covarianza. Questa esprime la variabilità congiunta di due caratteri, questa è inoltre una misura della dispersione ed esprime gli scostamenti dalla media. Si esprime calcolando la sommatoria degli scarti dalla media di x, per egli scarti della media di y, fratto la numerosità. I suoi valori sono compresi tra + infinito e – infinito, se il suo valore fa 0 allora il legame è assente
Per misurare l’intensità del legame che abbiamo trovato, utilizziamo l’indice di correlazione lineare r, questa ci fornisce delle indicazioni circa la direzione del legame tra due variabili. Si esprime facendo la covarianza di x e y, fratto il massimo della covarianza, che si trova calcolando il sigma di x per il sigma di y. Il suo valore varia da 1 a -1, se questo si avvicina a 1 allora il legame è diretto e positivo, se si avvicina a 0 allora il legame è molto basso, se si avvicina a -1 allora il legame sarà inverso e negativo. Il segno – o + sta per “inverso” e “diretto”; il suo valore sta per l’intensità. Questa misura non risente dell’unità di misura

3.3. MISURE DI TIPO ASSOCIATIVO PER GRADUATORIE.

Per calcolare l’esistenza del legame e per misurare la sua intensità usiamo un unico indice che è il rho di Spearman, detto anche coefficiente di cograduazione. Ci consente di studiare la relazione tra 2 variabili che sono due graduatorie, o almeno una delle due deve essere una graduatoria (in quanto possiamo costruire la seconda graduatoria a partire dalla prima, infatti si individua il valore più piccolo della prima graduatoria e gli si attribuisce il valore di 1, man mano che crescono i valori, cresce anche il punteggio nella graduatoria che stiamo costruendo). Si esprime facendo 6 * sommatoria di “di con i”2, fratto n * n2 -1, il tutto meno 1. N sta per la numerosità, mentre “di” sta per la differenza tra i ranghi (le posizioni) in graduatoria ( si calcola facendo il punteggio della graduatoria x- il punteggio della graduatoria y). Il suo valore varia da 1 a -1, se questo si avvicina a 1 allora il legame è diretto e positivo, se si avvicina a 0 allora il legame è molto basso, se si avvicina a -1 allora il legame sarà inverso e negativo. Il segno – o + sta per “inverso” e “diretto”; il suo valore sta per l’intensità.

COSA HANNO IN COMUNE L’INDICE DI RHO E LA CORRELAZIONE LINEARE. Hanno in comune lo stesso modo di interpretare il risultato. Ovvero in entrambi i casi il valore varia da 1 a -1, se questo si avvicina a 1 allora il legame tra le due variabili è diretto e positivo, se si avvicina a 0 allora il legame è molto basso, se si avvicina a -1 allora il legame sarà inverso e negativo. Il segno – o + sta per “inverso” e “diretto”; il suo risultato trovato invece sta per l’intensità.
COSA è IL MODELLO DI REGRESSIONE. Utilizziamo il modello di regressione lineare quando ci troviamo di fronte a variabili quantitative, dove è presente un legame asimmetrico tra x e y, in cui x influenza y ma non viceversa. Questo modello infatti ci permette di studiare y a partire da x, e di esprimere la dipendenza funzionale tra queste due variabili. Quando la loro relazione è funzionale, vuol dire che è lineare, e vuol dire che la y varia al variare di x, in base alla funzione f.

La funzione lineare è y=a+bx, qui indichiamo con y la variabile dipendente; con x la variabile indipendente; a e b invece sono i parametri. L’identificazione di questi parametri passa per un criterio, che corrisponde al metodo dei minimi quadrati: per cui da una nube di punti sul diagramma di dispersione, passano infinite rette, e noi attraverso l’identificazione dei parametri della retta di regressione, scegliamo quella retta che rende minima la distanza tra il valore previsto dal modello, e il suo valore osservato, questa è chiamata retta dei minimi quadrati. Una volta trovata e disegnata la retta, dobbiamo capire se questa si adatta bene al nostro contesto empirico osservato o meno, per fare ciò esistono delle misure, dette misure di regressione. La misura di regressione che noi utilizziamo per la retta di regressione è il coefficiente di regressione lineare R2, detto anche coefficiente di determinazione, questo è una misura di buon adattamento; indica la proporzione di variabilità di y spiegata dalla variabile x.
R2 è il quadrato della correlazione lineare, infatti il suo risultato può essere solo positivo; il risultato varia tra 0 e 1, se il risultato si avvicina a 1 allora sarà maggiormente accurata la previsione della retta, se il risultato si avvicina a 0 allora la previsione della retta sarà meno accurata.
Per quanto riguarda i parametri a e b nello specifico: indichiamo con b il coefficiente di regressione, che esprime quanto cambia y quando x cambia di una unità (questo nella retta si chiama coefficiente angolare, che corrisponde alla pendenza della retta); indichiamo con a la retta di regressione (questa nella retta si chiama funzione lineare e corrisponde all’intercetta) Secondo la funzione y=a+bx, possiamo trovare a facendo la media di y-b*media di x; possiamo trovare b facendo la covarianza di x e y fratto la varianza di x

DISTRIBUZIONE NORMALE E T DI STUDENT. Esistono delle variabili casuali continue, le cui distribuzioni di probabilità o funzioni di densità sono note in quanto ne sono già stati studiati i parametri. Infatti sia le distribuzioni di probabilità e le funzioni di intensità dipendono dai parametri (infatti al variare del parametro, cambia la distribuzione). Una importante distribuzione di probabilità è la distribuzione normale, usata per le variabili casuali continue. Essa è caratterizzata da una curva dalla forma campanulare, simmetrica e unimodale, che dipende da due parametri quali la media (la media ne identifica la posizione sull’asse delle ascisse) e la deviazione standard (il sigma ne identifica l’altezza). Questa curva inoltre è asintotica rispetto all’asse delle ascisse questo vuol dire che si avvicina all’asse ma non lo tocca mai. Quando abbiamo una variabile che si distribuisce normalmente e ha come parametri media 0 e dev.st 1, siamo di fronte a una distribuzione normale standardizzata.

Nella distribuzione normale, il rapporto tra la media e il sigma è tale per cui: entro uno scarto di sigma dalla media, c’è sempre il 68% di probabilità; entro due scarti di sigma dalla media, c’è sempre il 95% di probabilità; entro tre scarti di sigma dalla media, c’è sempre il 99% di probabilità. Solitamente la percentuale viene fissata al 95 o 99%.
Una variabile casuale continua si distribuisce normalmente quando il sigma è noto, quando invece il sigma non è noto, bisogna stimalo attraverso il dato campionario, in questo caso (se il sigma non è noto) siamo di fronte alla distribuzione t di student (la quale risulta un po' più piatta della normale); ma al crescere della numerosità campionaria, la t di student e la normale tendono a coincidere. 8.1. DIFFERENZA DISTRIBUZIONE NORMALE E T DI STUDENT. Graficamente, la distribuzione t di student si differisce dalla distribuzione normale in quanto ha le code della curva più spesse, ed è più bassa. Questo vuol dire che il rapporto tra la media e il sigma è tale per cui, entro uno scarto dalla media, ad esempio c’è meno del 68% d probabilità, quindi troveremo dei valori che sono più distanti dalla media della distribuzione. Un'altra differenza è che la distribuzione normale varia al variare della media e di sigma; mentre la distribuzione t di student varia al variare della numerosità.

CAMPIONE. Un campione statistico è un gruppo di unità elementari che fornisce un sottoinsieme della popolazione, un campione statistico è affidabile quando ha al suo interno della variabilità, infatti esso è costruito in modo tale da consentire, con un rischio definito di errore, di generalizzare l’intera popolazione. Più il campione è variabile, più è rappresentativo della popolazione. Questo sta alla base dell’inferenza statistica.
INFERENZA STATISTICA. L’obbiettivo dell’inferenza statistica è quello di rilevare le informazioni di un certo numero di casi, che sono un sottoinsieme della popolazione; questo lo possiamo fare quando il campione è di tipo probabilistico. L’inferenza statistica si articola in due ambiti che sono: teoria della stima (ha l’obbiettivo di stimare delle grandezze che nella popolazione sono ignote) e verifica di ipotesi (il ricercatore formula delle ipotesi sul valore dei parametri della popolazione e utilizza l’informazione campionaria per verificare l’ipotesi che ha formulato). 10.1. LA TEORIA DELLA STIMA. Stimare significa attribuire un valore ad un dato incognito, stimiamo infatti qualcosa che non conosciamo. La stima riguarda i parametri della popolazione, e il campione di una popolazione va estratto casualmente, questo genera uno spazio campionario. Quando parliamo di stima facciamo riferimento al collettivo di interesse e non alla singola unità. La stima si articola in 2 modalità: la stima puntuale e la stima intervallare.

--LA STIMA PUNTUALE. Parliamo di stima puntuale quando attraverso un valore, un singolo numero, stimiamo il parametro incognito. Le funzioni che utilizziamo per stimare i parametri che non conosciamo, si chiamano funzioni dei dati campionari, e riguarda quindi la statistica campionaria.

Un parametro, intanto è una costante che sintetizza la popolazione ed ha un valore che non è noto, e si riferisce alla popolazione.
Infatti utilizziamo la media campionaria per stimare la media della popolazione; utilizziamo la varianza campionaria per stimare la varianza della popolazione; utilizziamo la proporzione campionaria per stimare la proporzione della popolazione. -Quando la funzione dei dati campionari viene utilizzata per stimare un parametro incognito, prende il nome di stimatore, esso è una variabile casuale. Inoltre il valore che assume lo stimatore si chiama stima. Conosciamo 3 tipi di stimatori, infatti sono 3 i parametri principale che abbiamo studiato e sono la media, la varianza e la proporzione.
Lo stimatore da origine a una distribuzione dei dati campionari, detta anche distribuzione delle stime, o distribuzione di campionamento. Una distribuzione delle stime è un insieme delle stime, calcolate su tutti i possibili campioni di uguale numerosità, estraibili con lo stesso schema di estrazione della popolazione; è la distribuzione di probabilità che specifica la probabilità per i piccoli valori che la statistica può assumere. La distribuzione delle stime inoltre è caratterizzata da alcuni elementi, uno di questi è la misura della variabilità (ovvero corrisponde alla deviazione standard della popolazione, nell’ambito della statistica descrittiva), che nell’ambito della stima prende il nome di errore standard.
L’errore standard, quindi, esprime la variabilità della distribuzione delle stime; l’affidabilità di queste stime, visto che va a calcolare lo scostamento dei valori delle stime, dal valore vero (che sarebbe la media della distribuzione). Come per la deviazione standard, più basso è il valore dell’errore standard, più bassa sarà la variabilità (vuol dire che i valori saranno vicini tra di loro), e più affidabile sarà il risultato.
nella scelta di uno stimatore ci si basa su alcune proprietà, infatti per essere considerato “buono” uno stimatore, deve avere 3 proprietà: --correttezza --consistenza --efficienza --STIMA INTERVALLARE. Parliamo di stima intervallare quando, attraverso un insieme di valori, stimiamo il parametro incognito. Infatti, una stima intervallare è un intervallo di valori, che con una probabilità prefissata dal ricercatore (solitamente al 95%) contiene il valore vero del parametro. Questi intervalli sono detti intervalli di confidenza. Quando costruiamo questi intervalli è importante sapere se la distribuzione ha una curva normale o t di student, in quanto l’intervallo dipende dalla curva, cioè dalla sua altezza e dalle sue code; infatti gli estremi degli intervalli dipendono dalla media campionaria e dall’errore standard della distribuzione, oltre che da alfa, cioè la probabilità prefissata dal ricercatore. Per costruire un intervallo dobbiamo quindi trovare il suo limite inferiore e il suo limite superiore grazie a questi dati. Gli intervalli molto ampi non sono informativi, però allo stesso tempo c’è una maggiore possibilità, che all’interno di un ampio intervallo, ci sia il valore ricercato. Infatti al crescere della dimensione campionaria, la variabilità e quindi l’errore standard, diminuisce.

sintesi d statistica bivariata, Schemi e mappe concettuali di Statistica Sociale

Documenti correlati

Anteprima parziale del testo

Scarica sintesi d statistica bivariata e più Schemi e mappe concettuali in PDF di Statistica Sociale solo su Docsity!

3.3. MISURE DI TIPO ASSOCIATIVO PER GRADUATORIE.