Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Riassunti statistica bivariata, Schemi e mappe concettuali di Statistica

riassunti di statistica bivariata

Tipologia: Schemi e mappe concettuali

2015/2016

Caricato il 28/02/2016

carziii
carziii 🇮🇹

2 documenti

1 / 4

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Classicazione di due caratteri: tabelle di contingenza
Le tabelle di contingenza sono un particolare tipo di tabelle a doppia entrata (cioè tabelle con etichette di
riga e di colonna), utilizzate in statistica per rappresentare e analizzare le relazioni tra due o più variabili.
In esse si riportano le frequenze congiunte delle
variabili.
Indipendenza:
data una tabella di contingenza, due variabili X e Y si dicono
indipendenti se le modalità di X non inuenzano il vericarsi
delle modalità di Y, e viceversa l’indipendenza statistica è una
relazione bidirezionale: se X è indipendente da Y anche Y è
indipendente da X. Se tutte le distribuzioni condizionate sono
uguali (per
riga e contestualmente per colonna) allora il
presentarsi di una particolare modalità di un
fenomeno, non è inuenzato dal presentarsi
dell’altro. Se tutte le distribuzioni condizionate di X sono uguali, allora sono necessariamente uguali alla
distribuzione marginale di X. Se tutte le distribuzioni condizionate di Y sono uguali, allora sono
necessariamente uguali alla distribuzione marginale di Y. In formule si ha indipendenza quando:
In assenza di indipendenza statistica si parla di connessione: le due variabili X e Y tendono ad inuenzarsi
reciprocamente e tra di loro esiste una qualche relazione generica l’indipendenza statistica e la
connessione sono concetti che si escludono reciprocamente.
Indice chi-quadrato di Pearson e sua versione normalizzata (o l'indice V di Cramer):
Per valutare se e in che misura due variabili X e Y sono tra loro indipendenti si utilizza il c.d. indice di
associazione chi-quadrato (χ 2), che si basa sul confronto tra le frequenze assolute osservate j (contenute
nella tabella di contingenza) e le frequenze teoriche j’ che si osserverebbero in caso di perfetta
indipendenza tra X e Y. In formula si ha che:
Dove cij sono le dierenze (contingenze) tra le frequenze assolute osservate j e le frequenze teoriche j
Da un tabella normale a doppia entrata come quella di seguito:
ricaviamo le frequenze teoriche secondo la formula:
pf3
pf4

Anteprima parziale del testo

Scarica Riassunti statistica bivariata e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

Classificazione di due caratteri: tabelle di contingenza Le tabelle di contingenza sono un particolare tipo di tabelle a doppia entrata (cioè tabelle con etichette di riga e di colonna), utilizzate in statistica per rappresentare e analizzare le relazioni tra due o più variabili.

In esse si riportano le frequenze congiunte delle variabili.

Indipendenza: data una tabella di contingenza, due variabili X e Y si dicono indipendenti se le modalità di X non influenzano il verificarsi delle modalità di Y, e viceversa l’indipendenza statistica è una relazione bidirezionale: se X è indipendente da Y anche Y è indipendente da X. Se tutte le distribuzioni condizionate sono uguali (per riga e contestualmente per colonna) allora il presentarsi di una particolare modalità di un fenomeno, non è influenzato dal presentarsi dell’altro. Se tutte le distribuzioni condizionate di X sono uguali, allora sono necessariamente uguali alla distribuzione marginale di X. Se tutte le distribuzioni condizionate di Y sono uguali, allora sono necessariamente uguali alla distribuzione marginale di Y. In formule si ha indipendenza quando:

In assenza di indipendenza statistica si parla di connessione: le due variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste una qualche relazione generica l’indipendenza statistica e la connessione sono concetti che si escludono reciprocamente.

Indice chi-quadrato di Pearson e sua versione normalizzata (o l'indice V di Cramer): Per valutare se e in che misura due variabili X e Y sono tra loro indipendenti si utilizza il c.d. indice di associazione chi-quadrato (χ 2), che si basa sul confronto tra le frequenze assolute osservate fij (contenute nella tabella di contingenza) e le frequenze teoriche fij’ che si osserverebbero in caso di perfetta indipendenza tra X e Y. In formula si ha che:

Dove cij sono le differenze (contingenze) tra le frequenze assolute osservate fij e le frequenze teoriche fij

Da un tabella normale a doppia entrata come quella di seguito:

ricaviamo le frequenze teoriche secondo la formula:

es: 200x70/500, 200x120/500, 200x80/500……

Tali valori vengono riportati in una tabella, detta di indipendenza. Le differenze tra la tabella iniziale semplice a doppia entrata e la tabella delle frequenze teoriche vengono riportate in una ulteriore tabella, detta delle contingenze*.

ATTENZIONE: I totali di riga e di colonna di una tabella delle contingenze sono sempre pari a 0

ATTENZIONE : tabella di contingenza ≠ tabella delle contingenze*!

Da cui

Il χ 2 assume:

  • valore = 0 se i caratteri sono perfettamente indipendenti (dunque le contingenze sono nulle)
  • valore > 0 se i caratteri sono associati (il valore sarà tanto maggiore quanto più grande sarà la differenza tra le frequenze osservate e quelle teoriche).

Per stabilire se la connessione tra X e Y è alta o bassa è possibile ricorrere alla normalizzazione dell’indice. A tal fine è necessario rapportare il valore di χ 2 ottenuto al suo massimo, che è:

Dove r è il numero delle righe della tabella e c il numero delle colonne

Es. ( Poiché nella colonna sono presenti 3 righe e 5 colonne, il massimo in questo caso)

Nella sua forma normalizzata, il χ 2 sarà allora espresso come:

Il valore dell’indice normalizzato è allora:

Tale valore indica che esiste un basso livello di associazione tra Zona di residenza e Marca dell’auto acquistata.

NB. Si ricorda che essendo normalizzata, quest’ultima misura assume valori compresi tra 0 e 1.

Studio congiunto di due caratteri quantitativi: Nel caso in cui si intenda approfondire l’analisi del legame esistente tra due variabili quantitative (continue o discrete) X e Y così da cogliere oltre all’intensità anche l’eventuale natura lineare (proporzionale) del legame, è possibile ricorrere al concetto di correlazione lineare. Si dice che X e Y sono correlate positivamente (o negativamente) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità proporzionalmente crescenti (o decrescenti) dell’altro.

Covarianza e coefficiente di correlazione: Un primo modo di misurare il legame tra due variabili quantitative X e Y è quello di analizzare la covarianza delle stesse variabili, ovvero la media aritmetica dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie. In formula si indica come:

Dove n = numero di modalità es nella tabella sottostante n =

In caso di distribuzione in classi diventa:

Per calcolarla costruiamo una tabella come di seguito:

Vogliamo utilizzare i dati per ricavare un’equazione che permetta di prevedere il consumo pro-capite di gelato in un certo mese, nota la temperatura del mese. E’ noto, infatti, che il consumo di gelato non è costante nell’anno, ma è influenzato dalle condizioni climatiche, in particolare dalla temperatura.

  • si stima una relazione lineare positiva tra temperatura e consumo di gelato;
  • si valuta che in presenza di una temperatura media mensile di 0 gradi F il consumo pro-capite di gelato sia pari a 0.202 pinte;
  • si stima che per ogni aumento della temperatura pari ad un grado, il consumo di gelato aumenti di 0.0031 pinte.

Errore medio F 0 E 0

Bontà di adattamento: coefficiente di determinazione: