










Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla statistica descrivendo le variabili quantitative e qualitative, il calcolo della modalità e della frequenza, i grafici utilizzati per variabili qualitative e quantitative, l'associazione tra due variabili e i test di dispersione e regressione. Vengono presentati concetti come media ponderata, distribuzione campionaria, stima puntuale e intervallare, ipotesi nulla e alternativa, p-value e test di significatività.
Tipologia: Sintesi del corso
1 / 18
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











La statistica è l arte e la scienza del disegno di studi e dell’analisi dei dati che tali studi producono. Il suo obiettivo ultimo è la traduzione dei dati in conoscenza e comprensione del mondo che ci circonda. In breve, la statistica è l arte e la scienza di apprendere i dati. I metodo statistici ci aiutano ad analizzare le questioni in maniera oggettiva. L’approccio statistico alla risoluzione dei problemi è un processo di analisi che coinvolge 4 componenti: 1- Formulazione di una domanda statistica; 2- raccolta dei dati; 3-l’analisi dei dati 4- interpretazione dei risultati. Le 3 componenti principali della statistica che servono per rispondere a una domanda statistica.
I metodi statistici permettono di misurare e interpretare le variabili. Una variabile è una caratteristica oggetto di osservazione in uno studio. Le variabili possono essere: QUALITATIVE (categorie) se ciascuna osservazione appartiene a un insieme di possibili categorie. QUANTITATIVE (numeriche) se le osservazioni assumono valori numerici cui corrispondono diversi ordini di grandezza della variabile stessa. ( es: temperatura massima giornaliera, millimetri di pioggia). Inoltre le variabili quantitative si dividono in: discrete(se assume un insieme di numeri distinti come 0,1,2 es: numero di animali domestici per famiglia, il numero di figli per coppia) e continue (se i valori che può assumere
costituiscono un intervallo, come altezza, peso,) TABELLA DI FREQUENZA: per una variabile quantitativa il valore numerico che si presenta con maggiore frequenza è la moda. Per sintetizzare il numero di osservazioni per categoria si possono usare: 1- proporzioni la proporzione di osservazioni che competono a una categoria è pari al rapporto fra la frequenza assoluta (il conteggio) di osservazioni in quella categoria e il numero totale di osservazioni. 2 - percentuali è la proporzione moltiplicata per 100. Le proporzioni e le percentuali sono note, soprattutto nel mondo anglosassone, anche come frequenze relative. GRAFICI DEI DATI Spesso guardare un grafico ci permette di farci un idea su una data set. Grafici per variabili qualitative abbiamo il: 1- diagramma a torte: è un cerchio in cui a ciascuna modalità corrisponde uno spicchio di torta. L’ampiezza dello spicchio corrisponde solitamente la percentuale che compete a ciascuna modalità. 2- il diagramma a barre: mostra delle barre verticali di uguale base per ogni categoria. L’altezza di ciascun rettangolo è la percentuale di ogni modalità. I rettangoli sono di solito uniformemente distanziati. Il grafico a barre è generalmente più facile da interpretare. GRAFICO DI PARETO è un particolare grafico a barre che prende il nome dall’economista italiano Vilfredo Pareto. Le barre sono ordinate in relazione alla frequenza dalla più alta alla più bassa. E’ utilizzata soprattutto nelle applicazioni economiche per identificare le situazioni più frequenti. Grafici per variabili quantitative abbiamo il: 1- Grafico a punti ( dot plot): bisogna disegnare una linea orizzontale, etichettarla con il nome della variabile e indicare su tale assi alcuni valori regolarmente distanziati della variabile stessa, per ogni osservazione disegnare un punto sulla linea orizzontale in corrispondenza del valore che ha assunto. ES: 2- Diagramma ramo-foglia : ogni osservazione è rappresentato con un ramo e una foglia. Il ramo solitamente rappresenta tutte le cifre del valore da rappresentare con eccezione dell’ultima che sarà una foglia. I dati devono essere ordinati in senso non decrescente. I rami vanno collocati in una colonna a cominciare dal minimo valore rilevato. Una linea verticale separerà tale colonna dalle foglie dove vengono riportati le ultime cifre dei numeri rilevati in corrispondenza del ramo. Es:
5-Il range interquartile (IQR) è la distanza tra il terzo e il quarto quartile. Si calcola: Q3( Quartile terzo)- Q1(quartile primo). Per calcolare la presenza di eventuali outlier: 1,5x IQR. Un osservazione è un potenziale outlier se cado sotto 1,5x IQR da Q1 o se si colloca sopra 1.5x IQR da Q3. 6- Box plot: i quartili e il valore minimo o massimo sono le cinque le 5 misure spesso utilizzare per sintetizzare la tendenza centrale e la variabilità di distribuzione. La varianza a 5 numeri prende il nome di box plot. Il box di un box plot contiene il 50% centrale delle osservazioni effettuate, dal primo al terzo quartile. Un segmento verticale all’interno del box evidenzia la mediana. Le linee orizzontali che partono dal box prendono il nome di baffi, essi si estendono fino a includere il resto dei dati con eclusione degli outlier. Es. Un box plot, a differenza dell’istogramma,non mostra alcune caratteristiche della distribuzione come il picco o valli. 7- Z-score: è il numero di deviazioni standard che la seprano dalla media. si calcola: osservazione-media/ deviazione standard.
Quando si analizzano dati che riguardano due variabili, il primo passo è quello di distinguere tra:
-Proporzioni condizionate esiste una differenza nella proporzione di pesticidi presenti tra agricoltura biologica e agricoltura tradizionale? Bisogna compararle e prende il nome di proporzione condizionate poiché il calcolo è condizionato al tipo di agricoltura. Si chiama proporzione marginale quando questo calcolo è ricavato dal totale riportato al margine della tabella stessa. Es: pag 85 Con la tabella di contingenza possiamo stabilire se è presente un’associazione tra le variabili ( es. tra agricoltura e numero di pesticidi presenti). Qualora il risultato del numero dei pesticidi fosse uguale in entrambe le agricolture allora non ci sarebbe associazione e quindi la presenza dei pesticidi è indipendente dal tipo di agricoltura utilizzata, ma se è diverso il numero di pesticidi nell’agricoltura c’è un associazione. Nella pratica, quando si vuole studiare l’associazione tra due variabili, ci si trova di fronte a tre casi:
INDAGINE CAMPIONARIA SI seleziona un campione di soggetti da una popolazione e si raccolgono i dati su di essi. Esso rappresenta una tipologia comune di studio non sperimentale. I passi per l’indagine campionaria sono:
PROBABILITA’ in riferimento a un esperimento randomizzato o a un campione casuale oppure a qualsivoglia fenomeno casuale, la probabilità di un determinato risultato è la proporzione di volte che quel risultato si realizza in una lunga serie di osservazioni. Essa può essere: frequenza relativa e probabilità soggettiva. PASSI PER CALCOLARE LA PROBABILITA’:
-Variabile casuale è una misurazione numerica degli esiti di un fenomeno casuale. Spesso, la casualità risulta dall’uso del campionamento casuale o di un esperimento randomizzato per raccogliere i dati. -Distribuzione di probabilità di una variabile casuale discreta la variabile casuale discreta X assume un insieme di realizzazioni “distinti” ( quali 0,1,2..). La sua distribuzione di probabilità assegna una probabilità P(x) a ogni possibile valore di x. Le variabili casuali possono essere continue cioè presentano intervalli ed è rappresentato graficamente da una curva. Ciascun intervallo ha probabilità tra 0 e 1. Il Parametro è la caratteristica numerica di una popolazione ( media di una distribuzione di probabilità). MEDIALa media di una distribuzione di probabilità per una variabile casuale discreta si calcola
margine di errore= 0. t-score= 1. estrazione interferenza= 2. Considerando la media campionaria x=2.98 e la deviaizone standard s=2.66 osserviamo che il più piccolo valore possibile (cioè 0) cade appena al di sotto di una deviazione standard rispetto alla media. Questo mostra come la distribuzione del numero di ore trascorse guardando la tv abbia un asimmetria positiva, con una lunga coda verso destra. Dal momento che la deviazione standard campionaria sia= 2.66 e che la dimensione del campionaria è n= 1324, l’errore standard della media campionaria è se= s/ √n= 0.0731 ore. La distribuzione t assomiglia ad una distribuzione normale standard indicata con df=n-1. NUOVI METODI DI STIMA BASATI SULL IMPIEGO DEL COMPUTER BOOTSTRAP: si basa sulla simulazione, campionando ripetutamente a partire dai dati osservati. In questo metodo, la distribuzione dei dati osservati viene impiegata come se fosse la distribuzione della popolazione. Ogni volta vengono ricampionate, con rimessa, esattamente n osservazioni dalla distribuzione dei dati. Ciascuno degli n dati osservati ha sempre probabilità pari a 1/n di essere selezionato per entrare a far parte delle “nuove” osservazioni. Sul nuovo campione di dimensione n viene calcolata la stima puntuale del parametro. Si ricampiona quindi un nuovo insieme di n osservazioni dalla distribuzione dei dati originali e si calcola una nuova stima puntuale.
Il test di significatività è il secondo grande metodi per eseguire inferenze statistiche relative a una popolazione. I passi per eseguire un test di significatività: 1.ASSUNTI Ogni test si basa su assunti ovvero richiede che alcune condizioni siano soddisfatte per poterlo applicare; 2- IPOTESI lo scopo principale di molte ricerche consiste nel valutare se i dati supportano alcune affermazioni o previsioni. Queste affermazioni sono ipotesi. In statistica, un ipotesi è un affermazione relativa a una popolazione. L’ipotesi può essere nulla o alternativa. Ipotesi nulla: si afferma che il parametro assume un particolare valore; SIMBOLO Ho Ipotesi alternativa: si afferma che il valore del parametro è uno fra quelli presenti in un certo intervallo di valori alternativi. SIMBOLO Hα 3-STATISTICA TEST descrive quanto questa stima puntuale si colloca lontano dal valore del parametro specifico nell’ipotesi nulla. In generale questa distanza è misurata come numero di errori standard intercorrenti tra la stima puntuale e il parametro. 4- P-VALUE è la probabilità di ottenere un valore della statistica test come quello osservato o uno ancora più estremo considerando vera l’ipotesi nulla. Quanto più piccolo è un p-value, tanto più forte è l’evidenza contro H 0. 5-CONCLUSIONE Riporta e interpreta il p-value nel contesto dello studio. Sulla base del p-value decidi se rifiutare o non rifiutare H 0. TEST DI SIGNIFICATIVITA’ SU PROPORZIONI. Quando si ha a che fare con variabili qualitative, i parametri di interesse sono le proporzioni con cui le modalità di quelle variabili si presentano sulla popolazione. I passo di un test di significatività su proporzioni sono: 1-ASSUNTI -La variabile è qualitativa;
H 0 : μ = μ 0 dove μ 0 rappresenta un particolare valore per la media della popolazione. L’ipotesi alternativa bidirezionale prende in considerazione i valori al di soto e al sopra di quello specificato sotto H 0 (μ 0 ). Sono altresì possibili ipotesi alternative monodirezionali. 3- STATISTICA TEST La statistica test misura quanto lontano la media campionaria x cade rispetto al valore μ 0 specificato nell’ipotesi nulla. La distanza è calcolata: (x-μ 0 ) = media nel campione- media sotto l’ipotesi nulla se errore standard della media campionaria. L’errore standard è dato da= se= s/√n In definitiva la statistica test è: t= (x- μ 0 ) = ( x- μ 0 ) se s/√n Nella statistica test abbiamo impiegato il simbolo t invece del simbolo z. Questa statistica test è detta statistica t. 4 P- VALUE è una probabilità relativa a una o a entrambe le code della distribuzione della statistica test, a seconda di come è stata specificata l’ipotesi alternativa. 5- CONCLUSIONE La conclusione di un test di significatività riporta il p-value e interpreta quanto esso dice in relazione alla domanda che ha motivato il test. LA STATISTICA T E LA STATISTICA Z HANNO LA STESSA FORMA. forma della statistica test: stima parametro- valore del parametro sotto l’ipotesi nulla Errore standard della stima. Pag 382. DUE POTENZIALI TIPI DI ERRORE NELLE DECISIONI BASATE SUI TEST DI SIGNIFICATIVITA’. I test sono soggetti a due potenziali tipi di errori, chiamati errore di primo (I) tipo ed errore di secondo (II) tipo. Si verifica un errore di tipo I quando Ho è vera e la si rifiuta. SI verifica un errore di II tipo quando H 0 è falsa e non la si rifiuta. Questi due tipi di errori si possono verificare in qualsiasi processo decisionale che comporti due opzioni, una delle quali è sbagliata. Quando l insieme dei valori della statistica test porta a rifiutare H 0 , è detta regione di rifiuto. LIMITI DEI TEST DI SIGNIFICATIVITA’. Quando eseguiamo un test di significatività, la sua importanza principale consiste nello studiare se il valore vero del parametro è:
Quando la variabile di risposta è di tipo qualitativo, le inferenze mettono a confronto i gruppi nei termini delle proporzioni di soggetti ricadenti in una deterinata categoria a livello di popolazione. Es pag 416. Anche per la differenza fra due proporzioni campionarie si calcola la devizione standard. L’errore standard è: RIASSUNTO PAGINA 460
Come detto nel capitolo 3, fra due varibaili esiste una associazione se un particolare valore di una variabile tende a presentarsi con maggiore frequenza insieme a certi valori dell’altra variabile; es: se essere felici risulta più frequente quando una persona ha un reddito sopra la media. INDIPENDENZA E DIPENDENZA (ASSOCIAZIONE) Bisogna individuare se una percentuale di una variabile dipende o meno da un'altra variabile (felicità- reddito). Cioè le proporzioni condizionate (cioè sono le proporzioni riferite alla categoria di una variabile qualitativa che vengono calcolate condizionatamente al valore di un'altra variabile). Due varibili sono dette indipendenti se le distribuzioni condizionate della popolazione relative a una delle due variabili sono identiche all’interno dei livello dell’altra variabile (es. la probabilità di osservare un particolare livello di felicità è la stessa sia nelle donne che negli uomini). Le variabili sono dipendenti (ovvero associate) se le distribuzioni condizionate non sono identiche. COME SAGGIARE L’IPOTESI DI INDIPENDENZA FRA VARIABILI QUALITATIVE La media della distribuzione di una frequenza osservata è la frequenza attesa di cella che si calcola: frequenza attesa: = (tot. Riga) x (tot. Colonna) totale generale
n-2 n-2 srebbe df
L' analisi della varianza ( ANOVA , dall'inglese Analysis of Variance ) è un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi. L'ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso. Si usano queste tecniche quando le variabili esplicative sono di tipo nominale (discreto). Nulla impedisce di usare queste tecniche anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in tal caso
dell'analisi della varianza è che dati G gruppi, sia possibile scomporre la varianza in due componenti: Varianza interna ai gruppi (anche detta Varianza Within ) e Varianza tra i gruppi ( Varianza Between ). La ragione che spinge a compiere tale distinzione è la convinzione, da parte del ricercatore, che determinati fenomeni trovino spiegazione in caratteristiche proprie del gruppo di appartenenza. Varianza residua (errore quadratico medio): La varianza residua è la somma dei quadrati dei residui (cioè la devianza residua) divisa per il suo valore dei df (dimensione campionaria-2). La sua radice quadrata s è la dimensione tipica di un residuo ( ossia di un errore di prevsione).
La retta è senz altro l equazione più comune per un modello di regressione. Qualche volta lo scatterplot indica una relazione sostanzialmente curvilinea, In tali casi funzioni di tipo lineare non sono più appropriate. A volte all aumentare di x, y tende ad andare verso l alto per poi riscendere (nel grafico) creando una curva. Un modello di regressione esponenziale è descritto dalla formula: μy = αβx