Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Statistica: Tipi di Variabili, Grafici e Test di Associazione, Sintesi del corso di Statistica

Una introduzione alla statistica descrivendo le variabili quantitative e qualitative, il calcolo della modalità e della frequenza, i grafici utilizzati per variabili qualitative e quantitative, l'associazione tra due variabili e i test di dispersione e regressione. Vengono presentati concetti come media ponderata, distribuzione campionaria, stima puntuale e intervallare, ipotesi nulla e alternativa, p-value e test di significatività.

Tipologia: Sintesi del corso

2020/2021

Caricato il 16/05/2022

giusy-89
giusy-89 🇮🇹

4.3

(19)

18 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA- cap 1.
La statistica è l arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo
obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda. In breve,
la statistica è l arte e la scienza di apprendere i dati. I metodo statistici ci aiutano ad analizzare le questioni
in maniera oggettiva. L’approccio statistico alla risoluzione dei problemi è un processo di analisi che
coinvolge 4 componenti:
1- Formulazione di una domanda statistica;
2- raccolta dei dati;
3-l’analisi dei dati
4- interpretazione dei risultati.
Le 3 componenti principali della statistica che servono per rispondere a una domanda statistica.
- Disegno
si riferisce alla pianificazione della raccolta dei dati che consentiranno di fare adeguatamente
luce sul problema oggetto di interesse;
- Analisi descrittiva sintetizzare e analizzare i dati che sono stati ottenuti; l’obiettivo principale è quello di
ridurre i dati a semplici sintesi senza distorcere o perdere troppa informazione. L’analisi descrittiva è utile
quando i dati sono disponibili per l intera popolazione, al contrario l’inferenza statistica è utilizzata quando i
dati sono disponibili solamente per un campione ma vogliamo prendere decisioni o previsioni riguardanti
l’intera popolazione.
- Inferenza prendere decisioni e fare previsioni sulla base dei dati per rispondere alla domanda statistica.
La statistica descrittiva e l’inferenza sono modi complementari di analizzare i dati. La statistica descrittiva
fornisce sintesi utili e ci aiuta a trovare tendenze e schemi nei dati, mentre le inferenze ci aiuta a fare
previsioni e a decidere se le tendenze e gli schemi osservati sono significativi, uno strumento metodologico
dell’inferenza è la probabilità.
DIFFERENZA TRA PARAMETRO E STATISTICA: Il parametro è una sintesi numerica di una popolazione. La
statistica è una sintesi numerica di un campione preso dalla popolazione. ( es: la percentuale della
popolazione di tutti i cittadini adulti della florida che sono favorevoli al controllo sulle pistole è un
parametro).
CAMPIONE: Le entità che misuriamo in uno studio sono chiamate soggetti. Solitamente i soggetti sono
persone. I soggetti possono essere scuole ( es: media di voti nella classe); paesi (es: percentuale di persone
povere in un paese); giorni (es: ammontare di denaro speso in caffè).
La popolazione è l’insieme complessivo dei soggetti a cui siamo interessati.
Il campione è sottoinsieme della popolazione di cui abbiamo dati a disposizione, spesso selezioniamo
casualmente. Il campionamento casuale indica la medesima chance di una popolazione di essere scelto ( es:
un insegnante che sceglie un alunno facendo dei bigliettino, sorteggio).
L’USO DEL COMPUTER E SOFTWARE STATISTICI:I ricercatori di oggi non devono compiere a mano calcoli
statistici complessi perché esistono dei programmi che consentono di eseguire analisi statistiche. Ciò
permettere di eseguire calcoli lungi e a volte impossibili da eseguire a mano.
R è un file di dati che prende il nome di data-frame. Ogni riga di una data-frame contiene quindi le misure
relative a un particolare soggetto ( es: genere, gruppo etnic). Ogni colonna data-frame contiene le misure
relative a una determinata caratteristica( genere di tutti i soggetti). Altre caratteristiche sono di tipo
numerico ( età) mentre altre consistono in etichette di categorie di appartenenza (femmina, maschio).
Molti studi disegnano esperimenti o indagini allo scopo di raccogliere dati per rispondere a questioni di
interesse; spesso è opportuno sfruttare file già esistenti detti Database.
VARIABILI - cap.2
I metodi statistici permettono di misurare e interpretare le variabili. Una variabile è una caratteristica
oggetto di osservazione in uno studio. Le variabili possono essere:
QUALITATIVE (categorie) se ciascuna osservazione appartiene a un insieme di possibili categorie.
QUANTITATIVE (numeriche) se le osservazioni assumono valori numerici cui corrispondono diversi ordini
di grandezza della variabile stessa. ( es: temperatura massima giornaliera, millimetri di pioggia). Inoltre le
variabili quantitative si dividono in: discrete(se assume un insieme di numeri distinti come 0,1,2 es: numero
di animali domestici per famiglia, il numero di figli per coppia) e continue (se i valori che può assumere
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica Analisi Statistica: Tipi di Variabili, Grafici e Test di Associazione e più Sintesi del corso in PDF di Statistica solo su Docsity!

STATISTICA- cap 1.

La statistica è l arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda. In breve, la statistica è l arte e la scienza di apprendere i dati. I metodo statistici ci aiutano ad analizzare le questioni in maniera oggettiva. L’approccio statistico alla risoluzione dei problemi è un processo di analisi che coinvolge 4 componenti: 1- Formulazione di una domanda statistica; 2- raccolta dei dati; 3-l’analisi dei dati 4- interpretazione dei risultati. Le 3 componenti principali della statistica che servono per rispondere a una domanda statistica.

  • Disegno  si riferisce alla pianificazione della raccolta dei dati che consentiranno di fare adeguatamente luce sul problema oggetto di interesse;
  • Analisi descrittiva  sintetizzare e analizzare i dati che sono stati ottenuti; l’obiettivo principale è quello di ridurre i dati a semplici sintesi senza distorcere o perdere troppa informazione. L’analisi descrittiva è utile quando i dati sono disponibili per l intera popolazione, al contrario l’inferenza statistica è utilizzata quando i dati sono disponibili solamente per un campione ma vogliamo prendere decisioni o previsioni riguardanti l’intera popolazione.
  • Inferenza  prendere decisioni e fare previsioni sulla base dei dati per rispondere alla domanda statistica. La statistica descrittiva e l’inferenza sono modi complementari di analizzare i dati. La statistica descrittiva fornisce sintesi utili e ci aiuta a trovare tendenze e schemi nei dati, mentre le inferenze ci aiuta a fare previsioni e a decidere se le tendenze e gli schemi osservati sono significativi, uno strumento metodologico dell’inferenza è la probabilità. DIFFERENZA TRA PARAMETRO E STATISTICA: Il parametro è una sintesi numerica di una popolazione. La statistica è una sintesi numerica di un campione preso dalla popolazione. ( es: la percentuale della popolazione di tutti i cittadini adulti della florida che sono favorevoli al controllo sulle pistole è un parametro). CAMPIONE: Le entità che misuriamo in uno studio sono chiamate soggetti. Solitamente i soggetti sono persone. I soggetti possono essere scuole ( es: media di voti nella classe); paesi (es: percentuale di persone povere in un paese); giorni (es: ammontare di denaro speso in caffè). La popolazione è l’insieme complessivo dei soggetti a cui siamo interessati. Il campione è sottoinsieme della popolazione di cui abbiamo dati a disposizione, spesso selezioniamo casualmente. Il campionamento casuale indica la medesima chance di una popolazione di essere scelto ( es: un insegnante che sceglie un alunno facendo dei bigliettino, sorteggio). L’USO DEL COMPUTER E SOFTWARE STATISTICI:I ricercatori di oggi non devono compiere a mano calcoli statistici complessi perché esistono dei programmi che consentono di eseguire analisi statistiche. Ciò permettere di eseguire calcoli lungi e a volte impossibili da eseguire a mano. R è un file di dati che prende il nome di data-frame. Ogni riga di una data-frame contiene quindi le misure relative a un particolare soggetto ( es: genere, gruppo etnic). Ogni colonna data-frame contiene le misure relative a una determinata caratteristica( genere di tutti i soggetti). Altre caratteristiche sono di tipo numerico ( età) mentre altre consistono in etichette di categorie di appartenenza (femmina, maschio). Molti studi disegnano esperimenti o indagini allo scopo di raccogliere dati per rispondere a questioni di interesse; spesso è opportuno sfruttare file già esistenti detti Database.

VARIABILI - cap.

I metodi statistici permettono di misurare e interpretare le variabili. Una variabile è una caratteristica oggetto di osservazione in uno studio. Le variabili possono essere: QUALITATIVE (categorie) se ciascuna osservazione appartiene a un insieme di possibili categorie. QUANTITATIVE (numeriche) se le osservazioni assumono valori numerici cui corrispondono diversi ordini di grandezza della variabile stessa. ( es: temperatura massima giornaliera, millimetri di pioggia). Inoltre le variabili quantitative si dividono in: discrete(se assume un insieme di numeri distinti come 0,1,2 es: numero di animali domestici per famiglia, il numero di figli per coppia) e continue (se i valori che può assumere

costituiscono un intervallo, come altezza, peso,) TABELLA DI FREQUENZA: per una variabile quantitativa il valore numerico che si presenta con maggiore frequenza è la moda. Per sintetizzare il numero di osservazioni per categoria si possono usare: 1- proporzioni  la proporzione di osservazioni che competono a una categoria è pari al rapporto fra la frequenza assoluta (il conteggio) di osservazioni in quella categoria e il numero totale di osservazioni. 2 - percentuali  è la proporzione moltiplicata per 100. Le proporzioni e le percentuali sono note, soprattutto nel mondo anglosassone, anche come frequenze relative. GRAFICI DEI DATI Spesso guardare un grafico ci permette di farci un idea su una data set. Grafici per variabili qualitative abbiamo il: 1- diagramma a torte: è un cerchio in cui a ciascuna modalità corrisponde uno spicchio di torta. L’ampiezza dello spicchio corrisponde solitamente la percentuale che compete a ciascuna modalità. 2- il diagramma a barre: mostra delle barre verticali di uguale base per ogni categoria. L’altezza di ciascun rettangolo è la percentuale di ogni modalità. I rettangoli sono di solito uniformemente distanziati. Il grafico a barre è generalmente più facile da interpretare. GRAFICO DI PARETO è un particolare grafico a barre che prende il nome dall’economista italiano Vilfredo Pareto. Le barre sono ordinate in relazione alla frequenza dalla più alta alla più bassa. E’ utilizzata soprattutto nelle applicazioni economiche per identificare le situazioni più frequenti. Grafici per variabili quantitative abbiamo il: 1- Grafico a punti ( dot plot): bisogna disegnare una linea orizzontale, etichettarla con il nome della variabile e indicare su tale assi alcuni valori regolarmente distanziati della variabile stessa, per ogni osservazione disegnare un punto sulla linea orizzontale in corrispondenza del valore che ha assunto. ES: 2- Diagramma ramo-foglia : ogni osservazione è rappresentato con un ramo e una foglia. Il ramo solitamente rappresenta tutte le cifre del valore da rappresentare con eccezione dell’ultima che sarà una foglia. I dati devono essere ordinati in senso non decrescente. I rami vanno collocati in una colonna a cominciare dal minimo valore rilevato. Una linea verticale separerà tale colonna dalle foglie dove vengono riportati le ultime cifre dei numeri rilevati in corrispondenza del ramo. Es:

RIASSUNTO DIAGNOSTICA STATISTICA

5-Il range interquartile (IQR) è la distanza tra il terzo e il quarto quartile. Si calcola: Q3( Quartile terzo)- Q1(quartile primo). Per calcolare la presenza di eventuali outlier: 1,5x IQR. Un osservazione è un potenziale outlier se cado sotto 1,5x IQR da Q1 o se si colloca sopra 1.5x IQR da Q3. 6- Box plot: i quartili e il valore minimo o massimo sono le cinque le 5 misure spesso utilizzare per sintetizzare la tendenza centrale e la variabilità di distribuzione. La varianza a 5 numeri prende il nome di box plot. Il box di un box plot contiene il 50% centrale delle osservazioni effettuate, dal primo al terzo quartile. Un segmento verticale all’interno del box evidenzia la mediana. Le linee orizzontali che partono dal box prendono il nome di baffi, essi si estendono fino a includere il resto dei dati con eclusione degli outlier. Es. Un box plot, a differenza dell’istogramma,non mostra alcune caratteristiche della distribuzione come il picco o valli. 7- Z-score: è il numero di deviazioni standard che la seprano dalla media. si calcola: osservazione-media/ deviazione standard.

ASSOCIAZIONE: CONTINGENZA, CORRELAZIONE E REGRESSIONE cap. 3

Quando si analizzano dati che riguardano due variabili, il primo passo è quello di distinguere tra:

  • Variabile di risposta: è la variabile di esito rispetto alla quale operiamo eventuali confronti.
  • Variabile esplicativa: è categorica, essa individua i gruppi da confrontare rispetto ai valori assunti dalla variabile di risposta. Quando la variabile esplicativa è quantitativa essa definisce il cambiamento nei diversi valori numerici da confrontare rispetto ai valori assunti dalla variabile di risposta. Es: 1314 donne inglesi è stato chiesto se avessero fumato o meno. Vent anni dopo, un follow-up ha registrato la sopravvivenza o meno di ciascuna donna. I ricercatori volevano valutare eventuali legami tra il fumo e la sopravvivenza delle donne nei vent anni coperti dallo studio. La condizione relativa alla sopravvivenza è la variabile di risposta; il fumo è la variabile esplicativa. Associazione tra due variabili è presente quando è più probabile che un determinato valore della prima variabile si verifiche in corrispondenza di determinati valori della seconda variabile. ES. è più probabile per le fumatrici sopravvivere durante il periodo dello studio rispetto a quanto accade per le non fumatrici. L’associazione tra due variabili categoriche avviene tramite la tabella di contingenza: è una forma di sintesi per visualizzare simultaneamente due variabili categoriche. Le sue righe elencano le categorie di una delle due variabili, mentre le sue colonne elencano le categorie dell’altra. Ogni cella della tabella contiene il numero di osservazioni che, nel campione, sono da riferirsi a una determinata combinazione di categorie delle due variabili qualitative. Ogni combinazione di righe e di colonna in una tabella contingenza è chiamata cella. Il procedimento che porta da un set di dati elementari al calcolo delle frequenze per le celle di una tabella di contingenza si chiama anche tabulazione incrociata.

-Proporzioni condizionate esiste una differenza nella proporzione di pesticidi presenti tra agricoltura biologica e agricoltura tradizionale? Bisogna compararle e prende il nome di proporzione condizionate poiché il calcolo è condizionato al tipo di agricoltura. Si chiama proporzione marginale quando questo calcolo è ricavato dal totale riportato al margine della tabella stessa. Es: pag 85 Con la tabella di contingenza possiamo stabilire se è presente un’associazione tra le variabili ( es. tra agricoltura e numero di pesticidi presenti). Qualora il risultato del numero dei pesticidi fosse uguale in entrambe le agricolture allora non ci sarebbe associazione e quindi la presenza dei pesticidi è indipendente dal tipo di agricoltura utilizzata, ma se è diverso il numero di pesticidi nell’agricoltura c’è un associazione. Nella pratica, quando si vuole studiare l’associazione tra due variabili, ci si trova di fronte a tre casi:

  • Le variabili devono essere categoriche, come il tipo di agricoltura o la presenza di pesticidi.
  • Una variabile può essere quantitativa e l altra categorica es: il reddito e il genere.
  • entrambe le variabili possono essere quantitative. SCATTERPLOT: Quando si studiano due variabili quantitative è prassi comune indicare la variabile di risposta con y e variabili esplicativa con x. Lo strumento grafico utilizzato prende il nome di scatterplot. Uno scatterplot o grafico di dispersione è uno strumento grafico utilizzabile per due variabili quantitative, che usa l’asse orizzontale (x) per la variabile esplicativa x e l’asse verticale (y) per la variabile di risposta y. I valori x e y per un individuo o per un’unità sono rappresentati da un punto relativo ai due assi. Associazione di uno scatterplot. Due variabili quantitative x e y sono associate positivamente quando i valori elevati di x tendono a presentarsi con valori elevati di y e quando, viceversa, valori bassi di x tendono a manifestarsi assieme a valori bassi di y. Associazione positiva: se x aumenta y tende ad aumentare. Due variabili quantitative x e y sono associate negativamente quando i valori altri della prima variabile tendono a presentarsi in corrispondenza di valori bassi della seconda e quando valori bassi dell’una tendono a manifestarsi in corrispondenza di valori alti dell’altra. Associazione negativa: se x aumenta, y tende a diminuire. Correlazione: c’è una correlazione tra le variabili quando nello scatterplot si crea una linea retta. La correlazione indicata con r, può assumere valore tra -1 e +1. Più il valore di r è vicino allo 0 più la correlazione è positiva. Es: Il calcolo del coefficiente di correlazione: valore osservato-media/ deviazione standard Correlazione appropriata: se x cresce allora y decresce e poi tende a crescere. Ciò crea una sorta di U neò grafico. ES:

INDAGINE CAMPIONARIA  SI seleziona un campione di soggetti da una popolazione e si raccolgono i dati su di essi. Esso rappresenta una tipologia comune di studio non sperimentale. I passi per l’indagine campionaria sono:

  • individuare la popolazione oggetto di studio;
  • compilare un elenco di soggetti dal quale estrarre il campione ( detto frame di campionamento).
  • adottare un metodo per scegliere i soggetti a partire dall elenco ( detto disegno campionario). E’ possibile ottenere un campione rappresentativo se si lascia che sia il caso, piuttosto che la convenienza cioè selezionare il campione. Il campione casuale semplice di n soggetti provenienti di una popolazione è uno dei possibili campione di quella dimensione tutti con la stessa probabilità di essere estratti.
  • Metodi di raccolti dei dati nelle indagini campionarie: i 3 metodi più comuni sono:
  1. Intervista personale è un intervista face to face, un intervistatore pone un elenco di domande predefinite ai soggetti. Un vantaggio è rappresentato dal fatto che i soggetti sono più coinvolti a partecipare. Svantaggio è il costo.
  2. Intervista telefonica simile all’intervista personale ma condotta al telefono. Vantaggio il costo. Svantaggio il tempo in quanto è un intervista breve.
  3. Questionario auto-somministrato i soggetti devono rispondere ad un questionario inviato loro per posta ordinaria o per posta elettronica. Vantaggio economico. Svantaggio il numero dei soggetti che non parteciperanno è più elevato.
  • Raccolta dati: possono essere presenti delle distorsioni dei dati;
  1. Distorsione campionaria può essere legata al tipo di campionamento. Può essere legato alla sottocopertura, quando si ha una frame di campionamento che manca di rappresentare alcune parti di popolazione Es: in un intervista telefonica non raggiungerà mai i senzatetto, detenuti ecc.
  2. Distorsione da non risposta quando i soggetti di rifiutano di partecipare. Mancanza di dati.
  3. Distorsione da risposta un intervistatore può porre una domanda in moda tale che i soggetti siano portati a dare una certa risposta oppure i soggetti posson mentire per paura di dare la risposta sbagliata. Esistono cattivi metodi di campionamento.
  • Campioni di convenienza Campione casuale. Es: quando ti fermano per strada o in un negozio per chiederti di partecipare a un indagine.
  • Campioni su base volontaria i soggetti entrano volontariamente a far parte del campione. Es: questionari che troviamo su internet che compiliamo. Gli elementi di un buon esperimento.
  • Gruppo di controllo esiste il gruppo sperimentale e il gruppo di controllo come confronto. Es. due gruppi che fumano, ad un gruppo viene dato un antidepressivo ad uno una pillola senza principio attivo facendogli credere sia un antidepressivo (effetto placebo). Vedere gli effetti in entrambi.
  • Randomizzazione selezionare i due gruppi sperimentale e di controllo con le stesse caratteristiche.
  • Eseguire lo studio “in cieco” i soggetti non devono conoscere a quale trattamento sono stati assegnati l antidepressivo o il placebo. Se ne i soggetti ne coloro che hanno rapporti con i soggetti sanno il trattamento assegnato è meglio ed è detto in doppio cieco. Infine è possibile apportare un processo di replicazione che ha due significati: 1- assegnare più unità sperimentali a un trattamento; 2- ripetere un esperimento simile. ALTRI METODI DI CONDURRE STUDI SPERIMENTALI E NON SPERIMENTALI. CAMPIONI:
  1. campionamento a grappolorispetto al disegno di campionamento non prevede l'estrazione di singole unità della popolazione, ma di grappoli di individui, cioè agglomerati di unità statistiche. Esempi di grappoli sono: le famiglie, le classi scolastiche, i reparti di lavoro o le camere di ospedale.
  1. campionamento casuale a grappolo
  2. campione casuale stratificato divide la popolazione in gruppi distinti detti strati e quindi selezione un campione casuale semplice da ciascun strato.es: studenti università stratificati in base alla loro condizione lavorativa. STUDI OSSERVAZIONALI:
  3. Studio retrospettivo uno studio che guarda ciò che è accaduto nel passato. Es: studio sulla relazione fumo-tumore al polmone guardava indietro nel tempo per conoscere se i soggetti con tumore del polmone erano fumatori.
  4. Studio prospettivo segue in avanti nel tempo i soggetti che vi partecipano. Non si può stabilire una relazione causa-effetto con uno studio osservazionale.

LA PROBABILITA’ NELLA VITA DI TUTTI I GIORNI. CAPTOLO 5

PROBABILITA’ in riferimento a un esperimento randomizzato o a un campione casuale oppure a qualsivoglia fenomeno casuale, la probabilità di un determinato risultato è la proporzione di volte che quel risultato si realizza in una lunga serie di osservazioni. Essa può essere: frequenza relativa e probabilità soggettiva. PASSI PER CALCOLARE LA PROBABILITA’:

  • spazio campionario  Elencare i possibili esiti di una prova.
  • evento  è un sottoinsieme di uno spazio campionario. Un evento corrisponde a un particolare esito oppure a un gruppo di possibili esiti.
  • calcolare la probabilità di coppie di eventi
  1. complementare di un eventoDato un evento A, il resto dello spazio campionario che non è contenuto in quell’evento prende il nome di complementare A.
  2. eventi disgiunti due eventi A e B non hanno esiti in comune Alcuni eventi vengono ricavati da altri, es: dati due eventi A e B la circostanza che si verificano simultaneamente entrambi costituisce anch essa un evento , ciò è detto INTERSEZIONE cioè quegli esiti che si trovano sia in A che in B. L’evento composto degli esiti di A e/o B è l’UNIONE di A con B.
  3. se gli eventi A e B sono indipendenti si calcola = A x B CALCOLARE LA PROBABILITA’ CONDIZIONATA cioè di come individuare la probabilità di un evento quando sappiamo l’esito si trova in un particolare punto dello spazio campionario. Per due eventi A e B, la probabilità condizionata di A dato che B si è verificato è pari a= P(A e B)/ P(B) dove P sta per evento A dato dall’evento B. lo slash verticale rappresenta l operazione di condizionamento e quindi simboleggia la parola dato. MODELLO DI PROBABILITA’- esso specifica i possibili esiti di uno spazio campionario e fornisce le assunzioni sulle quali basare il calcolo delle probabilità di eventi composti a partire dagli esiti in parola.

DISTRIBUZIONI DI PROBABILITA’. CAPITOLO 6

-Variabile casuale è una misurazione numerica degli esiti di un fenomeno casuale. Spesso, la casualità risulta dall’uso del campionamento casuale o di un esperimento randomizzato per raccogliere i dati. -Distribuzione di probabilità di una variabile casuale discreta la variabile casuale discreta X assume un insieme di realizzazioni “distinti” ( quali 0,1,2..). La sua distribuzione di probabilità assegna una probabilità P(x) a ogni possibile valore di x. Le variabili casuali possono essere continue cioè presentano intervalli ed è rappresentato graficamente da una curva. Ciascun intervallo ha probabilità tra 0 e 1. Il Parametro è la caratteristica numerica di una popolazione ( media di una distribuzione di probabilità). MEDIALa media di una distribuzione di probabilità per una variabile casuale discreta si calcola

  • Stima intervallare  è un intervallo di valori entro il quale si ritiene cada il valore del parametro. Le stime puntuali rappresentano la forma di inferenza più comunemente riportata dai mezzi di comunicazione di massa. Una stima intervallare indica tale precisione producendo un intervallo di valori intorno alla stima puntuale. Dal momento che le stime intervallari contengono il parametro con un certo grado di confidenza, ci riferiamo a esse con il termine intervalli di confidenza. Un intervallo di confidenza è un intervallo che contiene i valori più credibili per il parametro. La probabilità che questo metodo produca un intervallo che contiene il parametro è detto: livello di confidenza: questo è un numero scelto in modo da essere vicino a 1; in genere è posto uguale a 0.95. Quando la distribuzione campionaria è approssimativamente normale, un intervallo di confidenza al 95% ha un margine di errore pari a 1.96 deviazione standard. Il simbolo ^ posto sopra la p sta ad indicare la proporzione campionaria. ERRORE STANDARD indica una stima della deviazione standard di una distribuzione campionaria. Se=(errore standard). ES: Nel 2010 la GSS ha chiesto agli intervistati se fossero disposti a pagare di più per proteggere l’ambiente. Su un totale di n= 1361 rispondenti, 637 hanno espresso una volontà in tal senso. DOMANDE: a) trova un intervallo di confidenza al 95% per la proporzione di adulti americani che, al momento dell’indagine, erano disposti a pagare di più. RISPOSTE E APPROFONDIMENTI: a) La proporzione campionaria che rappresenta la stima della proporzione p della popolazione è p^= 637/1361= 0.468. L’errore standard della popolazione campionaria è pari a: Impiegando questo se, un intervallo di confidenza al 95% per la proporzione della popolazione è: b) con un livello di confidenza del 95% stimiamo che la proporzione di americani adulti disposti a pagare di più per proteggere l’ambiente sia almeno 0.44 ma non superiore a 0.49 poiché calcolando l errore standard La formula per l’intervallo di confidenza p^ +1.96 se è adeguata quando si ha a che fare con grandi campioni casuali. Se abbiamo invece un livello di confidenza diverso dal 95% cioè 0.95 l’errore di margine è più grande quindi nel caso ad esempio del 99% l’intervallo di confidenza si calcola allo stesso modo ma l’inferenza è meno precisa. Avere un margine di errore più grande è il prezzo che dobbiamo pagare per avere una maggiore sicurezza( 99% invece di 95%) di inferire correttamente dove cade p. Quando i media riportano il margine di errore, si tratta del margine di errore per un intervallo di confidenza al 95%. L’approccio soggettivista tratta i parametri come variabili casuali. Le inferenze statistiche che si basano sulla definizione soggettiva della probabilità, fanno in realtà affermazioni probabilistiche a proposito di parametri. Ad esempio, seguendo questo approccio è possibile affermare che la probabilità che p sia compreso tra 0.44 e 0.49 è 0.95. L’inferenza statistica che si basa sulla definizione soggettiva della probabilità è nota come statistica Bayesiana. COSTRUIRE UN INTERVALLO DI CONFIDENZA PER STIMARE LA MEDIA DI UNA POPOLAZIONE. La media campionaria x rappresenta la stima puntuale della media della popolazione. Come costruire? Es: è stato studiato quante ore le persone in un giorno gurdano la tv. E’ emerso: N(numero persone)= 1324 media = 2. deviazione standard= 2. errore standard= 0.

margine di errore= 0. t-score= 1. estrazione interferenza= 2. Considerando la media campionaria x=2.98 e la deviaizone standard s=2.66 osserviamo che il più piccolo valore possibile (cioè 0) cade appena al di sotto di una deviazione standard rispetto alla media. Questo mostra come la distribuzione del numero di ore trascorse guardando la tv abbia un asimmetria positiva, con una lunga coda verso destra. Dal momento che la deviazione standard campionaria sia= 2.66 e che la dimensione del campionaria è n= 1324, l’errore standard della media campionaria è se= s/ √n= 0.0731 ore. La distribuzione t assomiglia ad una distribuzione normale standard indicata con df=n-1. NUOVI METODI DI STIMA BASATI SULL IMPIEGO DEL COMPUTER BOOTSTRAP: si basa sulla simulazione, campionando ripetutamente a partire dai dati osservati. In questo metodo, la distribuzione dei dati osservati viene impiegata come se fosse la distribuzione della popolazione. Ogni volta vengono ricampionate, con rimessa, esattamente n osservazioni dalla distribuzione dei dati. Ciascuno degli n dati osservati ha sempre probabilità pari a 1/n di essere selezionato per entrare a far parte delle “nuove” osservazioni. Sul nuovo campione di dimensione n viene calcolata la stima puntuale del parametro. Si ricampiona quindi un nuovo insieme di n osservazioni dalla distribuzione dei dati originali e si calcola una nuova stima puntuale.

CAPITOLO 9. INFERENZA STATISTICA. TEST DI SIGNIFICATIVITA’ SU IPOTESI.

Il test di significatività è il secondo grande metodi per eseguire inferenze statistiche relative a una popolazione. I passi per eseguire un test di significatività: 1.ASSUNTI Ogni test si basa su assunti ovvero richiede che alcune condizioni siano soddisfatte per poterlo applicare; 2- IPOTESI  lo scopo principale di molte ricerche consiste nel valutare se i dati supportano alcune affermazioni o previsioni. Queste affermazioni sono ipotesi. In statistica, un ipotesi è un affermazione relativa a una popolazione. L’ipotesi può essere nulla o alternativa. Ipotesi nulla: si afferma che il parametro assume un particolare valore; SIMBOLO Ho Ipotesi alternativa: si afferma che il valore del parametro è uno fra quelli presenti in un certo intervallo di valori alternativi. SIMBOLO Hα 3-STATISTICA TEST  descrive quanto questa stima puntuale si colloca lontano dal valore del parametro specifico nell’ipotesi nulla. In generale questa distanza è misurata come numero di errori standard intercorrenti tra la stima puntuale e il parametro. 4- P-VALUE  è la probabilità di ottenere un valore della statistica test come quello osservato o uno ancora più estremo considerando vera l’ipotesi nulla. Quanto più piccolo è un p-value, tanto più forte è l’evidenza contro H 0. 5-CONCLUSIONE  Riporta e interpreta il p-value nel contesto dello studio. Sulla base del p-value decidi se rifiutare o non rifiutare H 0. TEST DI SIGNIFICATIVITA’ SU PROPORZIONI. Quando si ha a che fare con variabili qualitative, i parametri di interesse sono le proporzioni con cui le modalità di quelle variabili si presentano sulla popolazione. I passo di un test di significatività su proporzioni sono: 1-ASSUNTI  -La variabile è qualitativa;

  • I dati sono stati ottenuti impiegando la randomizzazione ( un campione casuale o un esperimento randomizzato);
  • La dimensione del campione è sufficientemente grande da far sì che la distribuzione della proporzione campionaria p^^ sia approssimativamente normale. Tale approssimazione è buona quando sia il numero atteso di successi sia quello di insuccessi sono almeno pari a 15.

H 0 : μ = μ 0 dove μ 0 rappresenta un particolare valore per la media della popolazione. L’ipotesi alternativa bidirezionale prende in considerazione i valori al di soto e al sopra di quello specificato sotto H 0 (μ 0 ). Sono altresì possibili ipotesi alternative monodirezionali. 3- STATISTICA TEST  La statistica test misura quanto lontano la media campionaria x cade rispetto al valore μ 0 specificato nell’ipotesi nulla. La distanza è calcolata: (x-μ 0 ) = media nel campione- media sotto l’ipotesi nulla se errore standard della media campionaria. L’errore standard è dato da= se= s/√n In definitiva la statistica test è: t= (x- μ 0 ) = ( x- μ 0 ) se s/√n Nella statistica test abbiamo impiegato il simbolo t invece del simbolo z. Questa statistica test è detta statistica t. 4 P- VALUE  è una probabilità relativa a una o a entrambe le code della distribuzione della statistica test, a seconda di come è stata specificata l’ipotesi alternativa. 5- CONCLUSIONE La conclusione di un test di significatività riporta il p-value e interpreta quanto esso dice in relazione alla domanda che ha motivato il test. LA STATISTICA T E LA STATISTICA Z HANNO LA STESSA FORMA. forma della statistica test: stima parametro- valore del parametro sotto l’ipotesi nulla Errore standard della stima. Pag 382. DUE POTENZIALI TIPI DI ERRORE NELLE DECISIONI BASATE SUI TEST DI SIGNIFICATIVITA’. I test sono soggetti a due potenziali tipi di errori, chiamati errore di primo (I) tipo ed errore di secondo (II) tipo. Si verifica un errore di tipo I quando Ho è vera e la si rifiuta. SI verifica un errore di II tipo quando H 0 è falsa e non la si rifiuta. Questi due tipi di errori si possono verificare in qualsiasi processo decisionale che comporti due opzioni, una delle quali è sbagliata. Quando l insieme dei valori della statistica test porta a rifiutare H 0 , è detta regione di rifiuto. LIMITI DEI TEST DI SIGNIFICATIVITA’. Quando eseguiamo un test di significatività, la sua importanza principale consiste nello studiare se il valore vero del parametro è:

  • maggiore o minore rispetto al valore specificato in H 0 e
  • sufficientemente diverso dal valore specificato in H 0 da essere di importanza pratica. Una variabile ordinale è una variabile qualitativa le cui modalità possono essere in quelche modo ordinate da un livello inferiore a un livello superiore. Benchè i test di significatività siano utili, la maggior parte degli statistici crede che questo metodo sia stato sovraenfatizzato nella ricerca poiché:
  • un test di significatività indica soltanto se il particolare valore del parametro specificato in H 0 possa essere considerato un valore plausibile.
  • un intervallo di confidenza è più informativo invece, dal momento che ci fa vedere l’intero insieme di valori plausibili.

INTERPRETAZIONI ERRATE DEI RISULTATI DEI TEST DI SIGNIFUCATIVITA’:

  1. Non rifiutare Ho non significa accettare Ho. Quando si ottiene un p-value maggiore di 0.05 e il livello di significatività è 0.05, non è possibile concludere che H 0 è corretta.
  2. La significatività statistica non significa significatività pratica. Un p-value piccolo non ci dice se il valore del parametro differisce sensibilmente, dal punto di vista pratico, dal valore specificto in H 0.
  3. Il p-value non può essere interpretato come la probabilità che H 0 sia vera. Il p-value è: P( la statistica test assume un valore ≥ a quello osservato, H 0 è vera). NON P ( H è vera, valore osservato dalla statistica test).
  4. E’ fuorviante riportare i risultati soltanto se essi sono statisticamente significativi. Alcune riviste scientifiche adottano la politca di pubblicare i risultati di uno studio soltanto se il p-value è minore di 0.05.
  5. Alcuni test possono essere statisticamente significativi solo per caso.
  6. Effetti reali possono essere così grandi come le stime iniziali riportate dai media. Anche se un risultato statustucamente significativo rappresenta un effetto reale, l’effetto può essere più piccolo di quello suggerito nel primo articolo pubblicato su di esso. QUANTO E’ VEROSIMILE COMMETTERE IN ERRORE II TIPO ( NON RIFIUTARE H 0 SEBBENE SIA FALSA). Quando H 0 è falsa, si commette un errore di II tipo quando non si rifiuta H 0. Non esiste un solo valore di probabilità associato a questo tipo di errore, dal momento che l’ipotesi alternativa Ha fa riferimento a un intevallo di valori possibili per il parametro. La probabilità di rifiutare Ho quando H 0 è falsa è detta potenza del test. Potenza= 1- P (errore di II tipo).

CAPITOLO 10. CONFRONTO DI DUE GRUPPI.

Quando la variabile di risposta è di tipo qualitativo, le inferenze mettono a confronto i gruppi nei termini delle proporzioni di soggetti ricadenti in una deterinata categoria a livello di popolazione. Es pag 416. Anche per la differenza fra due proporzioni campionarie si calcola la devizione standard. L’errore standard è: RIASSUNTO PAGINA 460

CAPITOLO 11. COME ANALIZZARE LE ASSOCIAZIONI FRA VARIABILI QUALITATIVE

Come detto nel capitolo 3, fra due varibaili esiste una associazione se un particolare valore di una variabile tende a presentarsi con maggiore frequenza insieme a certi valori dell’altra variabile; es: se essere felici risulta più frequente quando una persona ha un reddito sopra la media. INDIPENDENZA E DIPENDENZA (ASSOCIAZIONE) Bisogna individuare se una percentuale di una variabile dipende o meno da un'altra variabile (felicità- reddito). Cioè le proporzioni condizionate (cioè sono le proporzioni riferite alla categoria di una variabile qualitativa che vengono calcolate condizionatamente al valore di un'altra variabile). Due varibili sono dette indipendenti se le distribuzioni condizionate della popolazione relative a una delle due variabili sono identiche all’interno dei livello dell’altra variabile (es. la probabilità di osservare un particolare livello di felicità è la stessa sia nelle donne che negli uomini). Le variabili sono dipendenti (ovvero associate) se le distribuzioni condizionate non sono identiche. COME SAGGIARE L’IPOTESI DI INDIPENDENZA FRA VARIABILI QUALITATIVE La media della distribuzione di una frequenza osservata è la frequenza attesa di cella che si calcola: frequenza attesa: = (tot. Riga) x (tot. Colonna) totale generale

Ma esiste un associazione tra il numero di sollevamenti di 60 libbre alla panca e il peso massimo

sollevato alla panca? Bisgona guardare i dati. Lo scatteplot, per ciascuna osservazione, mostra un

punto che indica il valore delle due variabili. I punti ripotati nel grafico ci permette di individuare se

c’è un associazione lineare tramite la retta x, y detta retta di regressione. La retta ci permette di

individuare il residuo, la media. L’equazione di una retta di regressione ci permette di individuare

un modello. Il modello è una semplice approssimazione della relazione fra variabili in una

popolazione. Formula retta di regressione: μy = α + βx

Il modello di regressione tiene conto anche della distribuzione condizionata

DESCRIVERE LA FORZA DELL’ASSOCIAZIONE: (CORRELAZIONE)

Nel modello lineare la pendenza ci permette di sapere se l’associazione è negativa o positiva.

La correlazione ( r ) descrive l associaizone lineare tra due variabili.

La correlazione è la pendenza standardizzata. Correlazione= pendenza quando x e y hanno la

medesiam deviazione standard.

Una proprietà importante della correlazione è che, per ogni valore di x, il valore previsto per y è

relativamente più vicino alla sua media di quanto x lo sia alla sua ( si parla di regressione verso la

media). Es. pag 528

La tabella che riporta le somme dei quadrati utilizzate nell’analisi di regressione è chiamata tavola

dell’analisi della varianza, o in forma abbreviata ANOVA.

I FATTORI CHE INFLUENZANO LA CORRELAZIONE:

Nella regressione gli outlier possono influenzare eccessivamente la pendenza e la correlazione. Una

singola osservazione può esercitare un’influenza molto forte se il suo valore di x è eccezionalmente

grande o eccezionalmente piccolo e se cade piuttosto distante dalla tendenza del resto dei dati. Se ad

esempio troviamo una correlazione tra anni di istruzione completati e il reddito annuale. Potresti

misurare queste variabili per un campione di individui. Fare previsioni sugli individui sui risultati di

sintesi di aggregazioni di dati individuali prende il nome di distorsione ecologica e si dovrebbe

evitare. Es meglio pag 533.

GLI ASSUNTI DELL’ANALISI DI REGRESSIONE:

1) Le medie di y nella popolazione in corrispondenza dei vari valori di x hanno una relazione

lineare con x, ossia: μy = α + βx

2) I dati sono stati raccolti riccorendo alla randomizzazione, per esempio mediante il

campionamento casuale o un esperimento randomizzato;

3)I valori di y nella popolazione, un corrispondenza di ciascun valore di x, seguendo una

distribuzione normale, con le medesime deviazioni standard per ciascun valore di x.

Un intervallo di confidenza ci dice con quale precisione possiamo stimare una pendenza:

Un p-value piccolo nel test di significatività per H 0 : β =0 suggerisce che la retta di regressione della

popolazione ha pendenza diversa da zero. Per sapere quanto la pendenza β cade distante da 0,

costruiamo un intervallo di confidenza. La formula per un intervallo di confidenza al 95% per β è:

b ± t0,25(se)

Il t-score può essere determinato con R p consultano una tavola di distribuzione t (come la tavola B)

con df = n-2.

LA VARIABILITà DEI DATI ATTORNO ALLA RETTA DI REGRESSIONE

Un residuo è un errore di previsione, ossia la differenza di y- ŷ tra un valore osservato y e il suo

valore previsto ŷ. Il residuo standardizzato si calcola:

y – ŷ

se(y-ŷ)

VERIFICARE LA DISTRIBUZIONE DELLA VARIABILE DI RISPOSTA CON UN

ISTOGRAMMA DEI RESIDUI:

Per identificare osservazioni anormale è utile costruire un istogramma dei residui. Ciò aiuta anche a

verificare l’assunto per l’inferenza secondo cui la distribuzione di y è normale. Se questo assunto è

vero, i residui hanno una distribuzione approssimativamente a forma di campana. Per svolgere

questa verifica possiamo ricorrere ai software, come R, che ci permettono di costruire istogrammi

dei residui o dei residui standardizzati.

LA DEVIAZIONE STANDARD RESIDUA E L’ERRORE QUADRATICO MEDIO (MEAN

SQUARE ERROR, MSE):

Ricordiamo che l’equazione di previsione campionaria ŷ = α + bx stima l’equazione di regressione

di una popolazione, μy = α + βx. Per l’inferenza statistica, il modello di regressione assume inoltre

che la distribuzione condizionata di y per ciascun valore fissato di x è normale, con la stessa

deviazione standard per ogni x. Questa deviazione standard, indicata con σ, si riferisce alla

variabilità dei valori di y per tutti i soggetti con lo stesso valore di x. Si tratta di un parametro che

può essere stimato a partire dai dati campionari.

La stima chiamata deviazione standard residua è: ( sistemare pag 542

s= √ ∑ (y-ŷ)^2

n-2 n-2 srebbe df

TAVOLA DELL’ANALISI DELLA VARIANZA (ANOVA) SINTETIZZA LA

VARIABILITA’

L' analisi della varianza ( ANOVA , dall'inglese Analysis of Variance ) è un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi. L'ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso. Si usano queste tecniche quando le variabili esplicative sono di tipo nominale (discreto). Nulla impedisce di usare queste tecniche anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in tal caso

sono meno efficienti delle tecniche alternative (ad esempio: regressione lineare). L'ipotesi alla base

dell'analisi della varianza è che dati G gruppi, sia possibile scomporre la varianza in due componenti: Varianza interna ai gruppi (anche detta Varianza Within ) e Varianza tra i gruppi ( Varianza Between ). La ragione che spinge a compiere tale distinzione è la convinzione, da parte del ricercatore, che determinati fenomeni trovino spiegazione in caratteristiche proprie del gruppo di appartenenza. Varianza residua (errore quadratico medio): La varianza residua è la somma dei quadrati dei residui (cioè la devianza residua) divisa per il suo valore dei df (dimensione campionaria-2). La sua radice quadrata s è la dimensione tipica di un residuo ( ossia di un errore di prevsione).

Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite

come la variabile casuale F di Fisher:

F= varianza spiegata

varianza residua

SOFRTWARE STATISTICO R:

Il calcolo dell'ANOVA con il software R si esegue in diversi modi: a seconda dei dati da analizzare.

Prima di procedere nel calcolo vero e proprio è necessario verificare i seguenti assunti:

1. Indipendenza dei punteggi osservati (se i soggetti sono tra loro indipendenti ci troviamo

nell'opzione 'TRA CASI'; se l'assunto non è rispettato (ovvero si fanno più misurazioni agli

stessi soggetti) siamo nell'opzione 'ENTRO CASI' che segue modalità di calcolo proprie);

2. normalità della distribuzione;

3. omoschedasticità (o omogeneità delle varianze)

REGRESSIONE ESPONENZIALE: UN MODELLO PER LA NON LINEARITA’

La retta è senz altro l equazione più comune per un modello di regressione. Qualche volta lo scatterplot indica una relazione sostanzialmente curvilinea, In tali casi funzioni di tipo lineare non sono più appropriate. A volte all aumentare di x, y tende ad andare verso l alto per poi riscendere (nel grafico) creando una curva. Un modello di regressione esponenziale è descritto dalla formula: μy = αβx