Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica - appunti secondo parziale, Sbobinature di Statistica

Sbobinature delle lezioni della professoressa Silvia Bacci riguardanti il secondo parziale del suo corso di Statistica

Tipologia: Sbobinature

2019/2020

In vendita dal 21/12/2021

chiarabucelli
chiarabucelli 🇮🇹

4.5

(23)

64 documenti

1 / 6

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA (secondo parziale)
03\11\2020
ANALISI DELLASSOCIAZIONE TRA VARIABILI CATEGORIALI
Variabile quantitativa: assume valori che rappresentano i diversi ordini di grandezza
(si misurano su scala di intervalli e scala di rapporti)
Variabile categoriale (o qualitativa): assume valori che identificano un insieme di categorie
(si misurano su scala nominale e scala ordinale)
In generale, si ha associazione tra due variabili se la distribuzione di una variabile varia al variare
della distribuzione di probabilità di un’altra variabile.
Tra due variabili categoriali, una assume generalmente il ruolo
di variabile risposta, l’altra di variabile esplicativa (quella che
potrebbe influenzare l’altra). Un modo per verificare questa
associazione è attraverso l’analisi della tavola di contingenza
(tabella a doppia entrata).
Frequenze relative (o probabilità) condizionate: permettono di
capire se tra x ed y esiste o meno associazione tra le due.
Se x e y sono indipendenti, si devono verificare queste
uguaglianze
(= le frequenze relative condizionate devono essere tutte
uguali)
Indipendenza statistica: nella Popolazione due variabili
categoriali sono statisticamente indipendenti se tutte le distribuzioni condizionate di una variabile
a ciascuna categoria dell’altra sono identiche
Dipendenza statistica: se, nella Popolazione, tutte le distribuzioni condizionate di una variabile a
ciascuna categoria dell’altra NON sono identiche, allora esiste associazione tra due variabili che
sono dette statisticamente dipendenti
Dipendenza perfetta: comunque si osservi una x, siamo in grado di dire quale y si è
verificata, per cui Y dipende perfettamente da X (viceversa non è vero)
-questa è rara e si osserva esclusivamente quando tra le due variabili esiste una dipendenza
deterministica (ovvero una delle due variabili è funzione dell’altra)
Interdipendenza perfetta: adesso la dipendenza perfetta è bilaterale
A causa della variabilità
campionaria, le distribuzioni
condizionate nel campione
saranno in generale diverse da
quelle osservabili a livello di
intera Popolazione.
È plausibile ritenere che queste differenze a livello di distribuzioni condizionate osservate nel
campione siano dovute soltanto al caso? Ci vuole uno strumento di inferenza statistica.
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Statistica - appunti secondo parziale e più Sbobinature in PDF di Statistica solo su Docsity!

STATISTICA – (secondo parziale)

03 \ 11 \ 2020 ANALISI DELL’ASSOCIAZIONE TRA VARIABILI CATEGORIALI Variabile quantitativa: assume valori che rappresentano i diversi ordini di grandezza (si misurano su scala di intervalli e scala di rapporti) Variabile categoriale ( o qualitativa ): assume valori che identificano un insieme di categorie (si misurano su scala nominale e scala ordinale) In generale, si ha associazione tra due variabili se la distribuzione di una variabile varia al variare della distribuzione di probabilità di un’altra variabile. Tra due variabili categoriali, una assume generalmente il ruolo di variabile risposta , l’altra di variabile esplicativa (quella che potrebbe influenzare l’altra). Un modo per verificare questa associazione è attraverso l’analisi della tavola di contingenza (tabella a doppia entrata). Frequenze relative ( o probabilità ) condizionate: permettono di capire se tra x ed y esiste o meno associazione tra le due. Se x e y sono indipendenti, si devono verificare queste uguaglianze (= le frequenze relative condizionate devono essere tutte uguali ) Indipendenza statistica: nella Popolazione due variabili categoriali sono statisticamente indipendenti se tutte le distribuzioni condizionate di una variabile a ciascuna categoria dell’altra sono identiche Dipendenza statistica: se, nella Popolazione, tutte le distribuzioni condizionate di una variabile a ciascuna categoria dell’altra NON sono identiche , allora esiste associazione tra due variabili che sono dette statisticamente dipendenti

  • Dipendenza perfetta: comunque si osservi una x, siamo in grado di dire quale y si è verificata, per cui Y dipende perfettamente da X ( viceversa non è vero )
  • questa è rara e si osserva esclusivamente quando tra le due variabili esiste una dipendenza deterministica ( ovvero una delle due variabili è funzione dell’altra )
  • Interdipendenza perfetta: adesso la dipendenza perfetta è bilaterale A causa della variabilità campionaria , le distribuzioni condizionate nel campione saranno in generale diverse da quelle osservabili a livello di intera Popolazione. È plausibile ritenere che queste differenze a livello di distribuzioni condizionate osservate nel campione siano dovute soltanto al caso? Ci vuole uno strumento di inferenza statistica.

06 \ 11 \ 2020 ANALISI DELL’ASSOCIAZIONE TRA VARIABILI CATEGORIALI Chi quadrato è esattamente uguale a zero solo se x e y sono indipendenti Questo chi quadro sarà sempre maggiore o uguale a zero , poiché le frequenze non sono mai negative. Test delle ipotesi Test chi-quadrato di indipendenza H0: le variabili sono statisticamente indipendenti H1: le variabili sono statisticamente dipendenti Il test richiede che i dati siano ottenuti attraverso un campionamento casuale e che il campione sia sufficientemente grande Proprietà della distribuzione Chi-quadro:

  • è definita in +
  • è asimmetrica positiva ( coda allungata verso dx )
  • la sua forma dipende dall’unico parametro «gradi di libertà» gdl
  • la sua media è μ=gdl ; la sua varianza è s2 =2gdl;
  • all’aumentare dei gdl la distribuzione tende alla Normale Quando H0 è vera, le frequenze osservate e attese tendono ad essere vicine in ogni cella e la statistica test assume valori relativamente piccoli. Se H0 è falsa, alcune differenze saranno rilevanti, elevando il valore della statistica test. Più grande è il valore di chi quadro, maggiore è l’evidenza campionaria contro H In tavola di contingenza con r righe e c colonne, per verificare “H0: indipendenza”: gdl= (r-1) x (c-1) Metodo del p valore Si preferisce rifiutare H0 , piuttosto che dire di avere un campione raro 10 \ 11 \ 2020 TEST CHI-QUADRATO DI INDIPENDENZA
  • per essere affidabile, richiede che le frequenze attese in ogni cella siano pari almeno a 5
  • si applica generalmente a variabili nominali
  • non è necessario individuare una variabile risposta e una esplicativa
  • non dice nulla o quasi sulla forza dell’associazione

Calcolo dell’Odd-Ratio Relative Risk ( rischio relativo ) Rapporto tra due probabilità di successo TAVOLE 2 X 2 (ESEMPIO ESERCIZIO) Esempio Chi-quadro Si scopre che c’è associazione tra queste due variabili, quindi valutiamo ora la struttura di questa associazione, tramite i residui standardizzati aggiustati = +/- 21. Esempio residui standardizzati Ora valutiamo la forza dell’associazione, tramite il calcolo degli odd-ratio Probabilità Condizionate Calcolo dei due odd Esempio di Esempio di Odd-ratio relative risk

13 \ 11 \ 2020 ASSOCIAZIONE TRA VARIABILI ORDINALI Quando le variabili categoriali sono di tipo ordinale è possibile sfruttare l’informazione che proviene dall’ordinamento naturale delle loro modalità. Supponiamo che X e Y siano due variabili ordinali. In questo caso si parla di:

  • Associazione positiva: quando soggetti classificati con elevati valori di X tendono a manifestare anche elevati valori di Y e viceversa
  • Associazione negativa: quando soggetti classificati con elevati valori di X tendono a manifestare bassi valori di Y Una coppia di casi statistici è:
  • concordante quando uno dei due casi è superiore all’altro in entrambe le variabili osservate (=C)
  • discordante quando uno dei due casi è superiore all’altro in una variabile, ma inferiore nella seconda variabile che compone l’osservazione (=D) Se C-D >0 ho un’ associazione positiva , se C-D <0 ho un’ associazione negativa. C e D però risentono della dimensione campionaria. Per eliminare tale effetto quindi si

standardizza la differenza C-D per il numero di coppie totali (C+D): 𝛾 =

𝐶−𝐷 𝐶+𝐷 Esempio coppie concordanti Esempio coppie discordanti C= 16x (36+21+12+8)

  • 36x (21+8) + 11x (12+8) + 36x8= 2784 D= 15x (36+11+12+2)
  • 21x (2+12) + 36x (11+2) + 36x2= 1749 𝛾 = 2784 − 1749 2784 + 1749

Proprietà di gamma:

  • il valore di gamma varia tra - 1 e +
  • il segno di gamma indica se l’associazione è positiva o negativa
  • maggiore è il valore assoluto di gamma (=più vicino a - 1 o +1 ), più forte è l’associazione
  • un indice pari a zero si raggiunge quando C e D sono uguali 17 - 19 \ 11 \ 2020 ASSOCIAZIONE TRA VARIABILI QUANTITATIVE Scatter plot ( =grafico di dispersione ): il grafico evidenzia l’associazione tra le variabili X e Y