Analisi Statistica: Tipi di Variabili, Grafici e Test di Associazione | Sintesi del corso di Statistica

STATISTICA- cap 1.

La statistica è l arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo

obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda. In breve,

la statistica è l arte e la scienza di apprendere i dati. I metodo statistici ci aiutano ad analizzare le questioni

in maniera oggettiva. L’approccio statistico alla risoluzione dei problemi è un processo di analisi che

coinvolge 4 componenti:

1- Formulazione di una domanda statistica;

2- raccolta dei dati;

3-l’analisi dei dati

4- interpretazione dei risultati.

Le 3 componenti principali della statistica che servono per rispondere a una domanda statistica.

- Disegno



si riferisce alla pianificazione della raccolta dei dati che consentiranno di fare adeguatamente

luce sul problema oggetto di interesse;

- Analisi descrittiva sintetizzare e analizzare i dati che sono stati ottenuti; l’obiettivo principale è quello di

ridurre i dati a semplici sintesi senza distorcere o perdere troppa informazione. L’analisi descrittiva è utile

quando i dati sono disponibili per l intera popolazione, al contrario l’inferenza statistica è utilizzata quando i

dati sono disponibili solamente per un campione ma vogliamo prendere decisioni o previsioni riguardanti

l’intera popolazione.

- Inferenza prendere decisioni e fare previsioni sulla base dei dati per rispondere alla domanda statistica.

La statistica descrittiva e l’inferenza sono modi complementari di analizzare i dati. La statistica descrittiva

fornisce sintesi utili e ci aiuta a trovare tendenze e schemi nei dati, mentre le inferenze ci aiuta a fare

previsioni e a decidere se le tendenze e gli schemi osservati sono significativi, uno strumento metodologico

dell’inferenza è la probabilità.

DIFFERENZA TRA PARAMETRO E STATISTICA: Il parametro è una sintesi numerica di una popolazione. La

statistica è una sintesi numerica di un campione preso dalla popolazione. ( es: la percentuale della

popolazione di tutti i cittadini adulti della florida che sono favorevoli al controllo sulle pistole è un

parametro).

CAMPIONE: Le entità che misuriamo in uno studio sono chiamate soggetti. Solitamente i soggetti sono

persone. I soggetti possono essere scuole ( es: media di voti nella classe); paesi (es: percentuale di persone

povere in un paese); giorni (es: ammontare di denaro speso in caffè).

La popolazione è l’insieme complessivo dei soggetti a cui siamo interessati.

Il campione è sottoinsieme della popolazione di cui abbiamo dati a disposizione, spesso selezioniamo

casualmente. Il campionamento casuale indica la medesima chance di una popolazione di essere scelto ( es:

un insegnante che sceglie un alunno facendo dei bigliettino, sorteggio).

L’USO DEL COMPUTER E SOFTWARE STATISTICI:I ricercatori di oggi non devono compiere a mano calcoli

statistici complessi perché esistono dei programmi che consentono di eseguire analisi statistiche. Ciò

permettere di eseguire calcoli lungi e a volte impossibili da eseguire a mano.

R è un file di dati che prende il nome di data-frame. Ogni riga di una data-frame contiene quindi le misure

relative a un particolare soggetto ( es: genere, gruppo etnic). Ogni colonna data-frame contiene le misure

relative a una determinata caratteristica( genere di tutti i soggetti). Altre caratteristiche sono di tipo

numerico ( età) mentre altre consistono in etichette di categorie di appartenenza (femmina, maschio).

Molti studi disegnano esperimenti o indagini allo scopo di raccogliere dati per rispondere a questioni di

interesse; spesso è opportuno sfruttare file già esistenti detti Database.

VARIABILI - cap.2

I metodi statistici permettono di misurare e interpretare le variabili. Una variabile è una caratteristica

oggetto di osservazione in uno studio. Le variabili possono essere:

QUALITATIVE (categorie) se ciascuna osservazione appartiene a un insieme di possibili categorie.

QUANTITATIVE (numeriche) se le osservazioni assumono valori numerici cui corrispondono diversi ordini

di grandezza della variabile stessa. ( es: temperatura massima giornaliera, millimetri di pioggia). Inoltre le

variabili quantitative si dividono in: discrete(se assume un insieme di numeri distinti come 0,1,2 es: numero

di animali domestici per famiglia, il numero di figli per coppia) e continue (se i valori che può assumere

Analisi Statistica: Tipi di Variabili, Grafici e Test di Associazione, Sintesi del corso di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Analisi Statistica: Tipi di Variabili, Grafici e Test di Associazione e più Sintesi del corso in PDF di Statistica solo su Docsity!

STATISTICA- cap 1.

VARIABILI - cap.

RIASSUNTO DIAGNOSTICA STATISTICA

ASSOCIAZIONE: CONTINGENZA, CORRELAZIONE E REGRESSIONE cap. 3

LA PROBABILITA’ NELLA VITA DI TUTTI I GIORNI. CAPTOLO 5

DISTRIBUZIONI DI PROBABILITA’. CAPITOLO 6

CAPITOLO 9. INFERENZA STATISTICA. TEST DI SIGNIFICATIVITA’ SU IPOTESI.

INTERPRETAZIONI ERRATE DEI RISULTATI DEI TEST DI SIGNIFUCATIVITA’:

CAPITOLO 10. CONFRONTO DI DUE GRUPPI.

CAPITOLO 11. COME ANALIZZARE LE ASSOCIAZIONI FRA VARIABILI QUALITATIVE

Ma esiste un associazione tra il numero di sollevamenti di 60 libbre alla panca e il peso massimo

sollevato alla panca? Bisgona guardare i dati. Lo scatteplot, per ciascuna osservazione, mostra un

punto che indica il valore delle due variabili. I punti ripotati nel grafico ci permette di individuare se

c’è un associazione lineare tramite la retta x, y detta retta di regressione. La retta ci permette di

individuare il residuo, la media. L’equazione di una retta di regressione ci permette di individuare

un modello. Il modello è una semplice approssimazione della relazione fra variabili in una

popolazione. Formula retta di regressione: μy = α + βx

Il modello di regressione tiene conto anche della distribuzione condizionata

DESCRIVERE LA FORZA DELL’ASSOCIAZIONE: (CORRELAZIONE)

Nel modello lineare la pendenza ci permette di sapere se l’associazione è negativa o positiva.

La correlazione ( r ) descrive l associaizone lineare tra due variabili.

La correlazione è la pendenza standardizzata. Correlazione= pendenza quando x e y hanno la

medesiam deviazione standard.

Una proprietà importante della correlazione è che, per ogni valore di x, il valore previsto per y è

relativamente più vicino alla sua media di quanto x lo sia alla sua ( si parla di regressione verso la

media). Es. pag 528

La tabella che riporta le somme dei quadrati utilizzate nell’analisi di regressione è chiamata tavola

dell’analisi della varianza, o in forma abbreviata ANOVA.

I FATTORI CHE INFLUENZANO LA CORRELAZIONE:

Nella regressione gli outlier possono influenzare eccessivamente la pendenza e la correlazione. Una

singola osservazione può esercitare un’influenza molto forte se il suo valore di x è eccezionalmente

grande o eccezionalmente piccolo e se cade piuttosto distante dalla tendenza del resto dei dati. Se ad

esempio troviamo una correlazione tra anni di istruzione completati e il reddito annuale. Potresti

misurare queste variabili per un campione di individui. Fare previsioni sugli individui sui risultati di

sintesi di aggregazioni di dati individuali prende il nome di distorsione ecologica e si dovrebbe

evitare. Es meglio pag 533.

GLI ASSUNTI DELL’ANALISI DI REGRESSIONE:

1) Le medie di y nella popolazione in corrispondenza dei vari valori di x hanno una relazione

lineare con x, ossia: μy = α + βx

2) I dati sono stati raccolti riccorendo alla randomizzazione, per esempio mediante il

campionamento casuale o un esperimento randomizzato;

3)I valori di y nella popolazione, un corrispondenza di ciascun valore di x, seguendo una

distribuzione normale, con le medesime deviazioni standard per ciascun valore di x.

Un intervallo di confidenza ci dice con quale precisione possiamo stimare una pendenza:

Un p-value piccolo nel test di significatività per H 0 : β =0 suggerisce che la retta di regressione della

popolazione ha pendenza diversa da zero. Per sapere quanto la pendenza β cade distante da 0,

costruiamo un intervallo di confidenza. La formula per un intervallo di confidenza al 95% per β è:

b ± t0,25(se)

Il t-score può essere determinato con R p consultano una tavola di distribuzione t (come la tavola B)

con df = n-2.

LA VARIABILITà DEI DATI ATTORNO ALLA RETTA DI REGRESSIONE

Un residuo è un errore di previsione, ossia la differenza di y- ŷ tra un valore osservato y e il suo

valore previsto ŷ. Il residuo standardizzato si calcola:

y – ŷ

se(y-ŷ)

VERIFICARE LA DISTRIBUZIONE DELLA VARIABILE DI RISPOSTA CON UN

ISTOGRAMMA DEI RESIDUI:

Per identificare osservazioni anormale è utile costruire un istogramma dei residui. Ciò aiuta anche a

verificare l’assunto per l’inferenza secondo cui la distribuzione di y è normale. Se questo assunto è

vero, i residui hanno una distribuzione approssimativamente a forma di campana. Per svolgere

questa verifica possiamo ricorrere ai software, come R, che ci permettono di costruire istogrammi

dei residui o dei residui standardizzati.

LA DEVIAZIONE STANDARD RESIDUA E L’ERRORE QUADRATICO MEDIO (MEAN

SQUARE ERROR, MSE):

Ricordiamo che l’equazione di previsione campionaria ŷ = α + bx stima l’equazione di regressione

di una popolazione, μy = α + βx. Per l’inferenza statistica, il modello di regressione assume inoltre

che la distribuzione condizionata di y per ciascun valore fissato di x è normale, con la stessa

deviazione standard per ogni x. Questa deviazione standard, indicata con σ, si riferisce alla

variabilità dei valori di y per tutti i soggetti con lo stesso valore di x. Si tratta di un parametro che

può essere stimato a partire dai dati campionari.

La stima chiamata deviazione standard residua è: ( sistemare pag 542

s= √ ∑ (y-ŷ)^2

TAVOLA DELL’ANALISI DELLA VARIANZA (ANOVA) SINTETIZZA LA

VARIABILITA’

sono meno efficienti delle tecniche alternative (ad esempio: regressione lineare). L'ipotesi alla base

Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite