Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica per Scienze Economiche e Sociali: Distribuzioni Bivariate e Dipendenza, Appunti di Statistica Economica

Una introduzione alle distribuzioni bivariate e alla dipendenza statistica, con un focus sulla correlazione lineare e l'analisi delle contingenze quadrate. come calcolare la frequenza relativa congiunta, le frequenze marginali, e le frequenze condizionate, e come valutare la dipendenza statistica tra due variabili. Viene inoltre introdotto l'indice di covarianza e quello di correlazione lineare.

Tipologia: Appunti

2020/2021

Caricato il 22/06/2021

ally-luppi
ally-luppi 🇮🇹

3 documenti

1 / 5

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
INTRODUZIONE ALLA STATISTICA PER SCIENZE ECONOMICHE E SOCIALI 2019
LE DISTRIBUZIONI BIVARIATE
Individuare i legami di casualità, una dei due caratteri è sempre predominante sull'altro .
Limitiamo la nostra ricerca a due caratteri X e Y
OBBIETTIVI:
- studiare l' associazione tra i due caratteri : come si comportano i due caratteri insieme
- il comportamento dei due caratteri singolarmente
SAPER RICONOSCERE 3 DISTRIBUZIONI :
1) Congiunta : vediamo come si comportano i due caratteri insieme , quindi guardiamo le Fi o % all' interno
della tabella
" quanti sono i passeggeri sopravvissuti e che viaggiavano in I° classe ?"
2) Distribuzioni Marginali : di RIGA ( carattere X senza il carattere Y )
di COLONNA ( carattere Y senza il carattere X )
3) Distribuzioni Condizionate : se vogliamo fare un'analisi + approfondita su un carattere piuttosto che un
altro , possiamo vedere cosa avviene nei vari sottogruppi.
Le frequenze marginali di riga e di colonna (i totali ) ci dicono come si comportano i due carattere
indipendentemente da come si comporta Y/X '' distribuzione univariate"
Non è possibile mettere a confronto due collettivi con numerosità differente tra loro per questo è necessario
trovare le FREQUENZE RELATIVE CONGIUNTE
fi = valore cella / nr complessivo di osservazioni
A questo punto bisogna eliminare il peso delle differenze data dalle grandezze delle popolazione
DISTRIBUZIONI CODIZIONATE
= fi / il totale di riga/ colonna
solo adesso è possibile analizzare insieme i valori
L'ANALISI DELL' ASSOCIAZIONE TRA VARIABILI
verifica se il verificarsi di un dato evento influenza ciò che avviene nell' altro carattere
STUDIO DELLA RELAZIONE TRA CARATTERI
- Connessi : ASSOCIAZIONE O DIPENDENZA
OBBIETTIVO : Valutare il grado di dipendenza
- Indipendenti : Se non c'è dipendenza non ha senso studiare la connessione tra i caratteri
INDIPENDENZA STATISTICA : due caratteri sono detti indipendenti nel momento in cui non sussiste alcuna
relazione di causa/effetto tra loro
Per verificare in maniera rapida se c'è indipendenza tra i caratteri
Moltiplico le frequenze marginali per cella ( X1 *Y1)/ nr osservazioni totali
se il risultato è uguale alle frequenze assolute ( i numeri interni della tabella ) si può dire che i caratteri sono
INDIPENDENTI ,
se il risultato è differente allora vuole dire che tra i caratteri c'è DIPENDENZA
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Statistica per Scienze Economiche e Sociali: Distribuzioni Bivariate e Dipendenza e più Appunti in PDF di Statistica Economica solo su Docsity!

LE DISTRIBUZIONI BIVARIATE

Individuare i legami di casualità, una dei due caratteri è sempre predominante sull'altro.

Limitiamo la nostra ricerca a due caratteri X e Y

OBBIETTIVI:

  • studiare l' associazione tra i due caratteri : come si comportano i due caratteri insieme
  • il comportamento dei due caratteri singolarmente SAPER RICONOSCERE 3 DISTRIBUZIONI :
  1. Congiunta : vediamo come si comportano i due caratteri insieme , quindi guardiamo le Fi o % all' interno della tabella " quanti sono i passeggeri sopravvissuti e che viaggiavano in I° classe ?"
  2. Distribuzioni Marginali : di RIGA ( carattere X senza il carattere Y ) di COLONNA ( carattere Y senza il carattere X )
  3. Distribuzioni Condizionate : se vogliamo fare un'analisi + approfondita su un carattere piuttosto che un altro , possiamo vedere cosa avviene nei vari sottogruppi. Le frequenze marginali di riga e di colonna (i totali ) ci dicono come si comportano i due carattere indipendentemente da come si comporta Y/X '' distribuzione univariate" Non è possibile mettere a confronto due collettivi con numerosità differente tra loro per questo è necessario trovare le FREQUENZE RELATIVE CONGIUNTE fi = valore cella / nr complessivo di osservazioni A questo punto bisogna eliminare il peso delle differenze data dalle grandezze delle popolazione DISTRIBUZIONI CODIZIONATE = fi / il totale di riga/ colonna solo adesso è possibile analizzare insieme i valori L'ANALISI DELL' ASSOCIAZIONE TRA VARIABILI verifica se il verificarsi di un dato evento influenza ciò che avviene nell' altro carattere STUDIO DELLA RELAZIONE TRA CARATTERI
  • Connessi : ASSOCIAZIONE O DIPENDENZA OBBIETTIVO : Valutare il grado di dipendenza
  • Indipendenti : Se non c'è dipendenza non ha senso studiare la connessione tra i caratteri INDIPENDENZA STATISTICA : due caratteri sono detti indipendenti nel momento in cui non sussiste alcuna relazione di causa/effetto tra loro Per verificare in maniera rapida se c'è indipendenza tra i caratteri Moltiplico le frequenze marginali per cella ( X1 *Y1)/ nr osservazioni totali se il risultato è uguale alle frequenze assolute ( i numeri interni della tabella ) si può dire che i caratteri sono INDIPENDENTI , se il risultato è differente allora vuole dire che tra i caratteri c'è DIPENDENZA

VALUTARE IL GRADO DI DIPENDENZA

Cij = il valore della frequenza assoluta n ij - n ' ij (il valore ricavato dalla ricerca di indipendenza ) Le differenze prendono il nome di CONTINGENZE la somma di tutte le contingenze darà somma = a 0 l' indice per misurare questo gradi di dipendenza è detto (^) x^2 DI PERSON prendiamo quindi la somma al quadrato delle CONTINGENZE / la somma dei valori venuti fuori da calcolo della dipendenza OSSERVAZIONI SULLA DIPENDENZA STATISTICA :

  1. assume valore zero se c'è perfetta indipendenza
  2. Assume valori tanto più grandi quanto più le frequenze teoriche si differenziano da quelle osservate
  3. solo valori positivi ≥ 0
  4. il suo valore dipende dalla numerosità del collettivo , se abbiamo due collettivi differenti ( uno più grande dell' altro ) a parità di altra informazioni , il risultato sarà più alto nel collettivo più grande.
  5. il valore massimo che può assumere è noto e si calcola : max (^) x^2 = nr collettivo ***** [ ( H-1); ( K-1) ] ( il valore più piccolo tra H-1 e K-1 ) Dato che conosciamo il valore massimo , possiamo a questo punto conoscere il grado di intensità del risultato ottenuto attraverso la V di Cramer V di Cramer =x 2 √ max x 2 i valori che può assumere sono compresi tra 0 e 1 O = massima indipendenza 1 = massima dipendenza tra i caratteri Sapere che due caratteri sono MASSIMAMENTE DIPENDENTI tra loro ci permette di stabilire in maniera univoca la modalità dell' altro carattere. CASO 1 _ DISTRIBUZIONI TABALLA DELLE CONTINGENZE QUADRATA ovvero stesso nr di osservazioni per Y che per X E' facile determinare come si comporta il carattere Y all' aumentare di una unità aggiuntiva del carattere X Y è massimamente dipendente da X CASO 2 _ DISTRIBUZIONI TABELLA DELLE CONTINGENZE RETTANGOLARE se conosco Y ( carattere con più osservazioni ) la X è massimamente dipendente Non posso dire il contrario però X è massimamente dipendente da Y Y non è massimamente dipendente da X SE ENTRAMBI I CARATTERI SONO DI TIPO QUANTITATIVO

INDICE DI CORRELAZIONE LINEARE

PXY = σxyxy / σxy = Ƹ ( Xi-M(x) ) * ( Yi-M(y) )/ nr di osservazioni y * σxy = Ƹ ( Xi-M(x) ) * ( Yi-M(y) )/ nr di osservazioni x i valori che può assumere sono tra -1 ; 1 PXY = 1 legame lineare perfetto , X e Y sono concordi in maniera perfetta e crescente PXY = -1 perfetto legame lineare discorde Se Y e X sono indipendenti allora PXY = 0 tuttavia se esiste un legame di tipo non lineare il risultato di PXY = 0 in ogni caso. FORMULA ALTERNATIVA DELLA COVARIANZA σxy = Ƹ ( Xi-M(x) ) * ( Yi-M(y) )/ nr di osservazioni xy = Ƹ ( XY) / nr osservazioni - M(x)M(y) In caso di tabella a doppia entrata gli indici vanno adattati aggiungendo le frequenze LA REGRESSIONE LINEARE Descrivere in maniera puntuale la relazione presente tra due variabili

  • Ci aiuta nell' interpretazione delle variabili con un carattere dipendente e l' altro indipendente
  • Ci permette di prevedere il valore della variabile dipendente dato un valore della variabile dipendente
  • Modello descrittivo : descrive la relazione esistente tra due variabili MODELLO SEMPLICE CHE POX STUDIARE E' LA RETTA Y = β0+ β1x Y = variabile dipendente β0= l' intercetta = valore della variabile dipendente nel caso in cui la variabile indipendente fosse x= β1 = c. angolare della retta = inclinazione della retta come varia Y in corrispondenza ad un incremento unitario di x X = variabile indipendente o di regressione Prendiamo in esame la retta perché
  • è più semplice
  • molti fenomeni in natura di rappresentano con questa forma Per fare i calcoli prendiamo dei numeri che si avvicinano a quelli della retta quindi sono delle stime Si chiamano le stime dei minimi quadrati dei coefficienti di regressione β1 = σxy = Ƹ ( Xi-M(x) ) * ( Yi-M(y) )/ nr di osservazioni xy / σxy 2 x β0= M(y)- β1*M(x) β1 = ci dice che se il carattere x fosse uguale a 0 , il carattere Y sarebbe pari al suo valore β0= ci dice che il carattere x aumentasse di 1 unità il valore assunto di β0 sarebbe la variazione di Y necessario poi verificare di quanto si discostano i valori trovati da quelli teorici e si ottiene e = residuo MISURARE LA BONTA' DELLA REGRESSIONE

R

σxyxy | σxyxσxyy ⟩ 2 il coefficiente di determinazione puo' assumere valori tra 0 e 1 R (^2) = 0 - il modello non rappresenta i nostri dati R (^2) = 1 il modella spiega perfettamente la variabile dipendente Se P negativo( vicino a -1 ) = caratteri discordanti e (^) R^2 positivo ( vicino a 1 ) = la retta rappresenta bene i nostri dati Se P positivo ( centrale ) = i nostri dati sono concordi e (^) R^2 positivo ( vicino lo 0) = la retta spiega male i nostri dati Se P negativo ( vicino allo 0 ) e (^) R^2 ( molto vicino a 0) c'è una forte relazione tra i dati ma non di tipo lineare , non possiamo procedere con la retta di regressione. R (^2) = un valore basso , può essere possibile per 2 motivi :

  1. il modello lineare è adatto a rappresentare la relazione esclusivamente tra X e Y , ma i dati hanno una forte variabilità
  2. il modello lineare non è adatto a rappresentare la relazione esistente tra X e Y Per fare questo tipo di verifica necessario analizzare tramite un grafico i residui dei valori osservati ( coppie di punti )
  • SE IL MODELLO LINEARE E' ADATTO , I PUNTI SI SPARGERANNO IN MANIERA CASUALE SUL PIANO
  • SE IL MODELLO LINEARE NON E' ADATTO , I PUNTI SEGUIRANNO UN ANDAMENTO LINEARE RIPETUTA.