









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei fenomeni statistici, classificandoli in qualitativi (ordinali e categoriali) e quantitativi (discreti e continui). Esplora le scale di modalità, i principi di esaustività e mutua esclusività, e le fasi dell'analisi statistica, dalla rilevazione all'elaborazione dei dati. Approfondisce le rappresentazioni grafiche, le proprietà della media aritmetica, le misure di variabilità e dispersione, e l'analisi delle relazioni statistiche tra fenomeni. Introduce concetti come indipendenza statistica, covarianza e correlazione lineare, variabili casuali discrete e continue, e la variabile casuale normale, essenziale per l'inferenza statistica. Infine, tratta la variabilità campionaria e le proprietà degli stimatori, offrendo una guida dettagliata per l'analisi statistica dei dati.
Tipologia: Dispense
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Definizione Statistica = insieme di metodologie e strumenti formali per la trattazione quantitativa dei fenomeni osservabili nella realtà sociale, in natura o in laboratorio. Definizione Unità statistiche = supporti delle diverse manifestazioni del fenomeno statistico presso cui è possibile osservare e registrare i dati, cioè rilevarli. L’insieme delle unità statistiche sulle quali interessa studiare il fenomeno è chiamato popolazione statistica o universo di riferimento (in inglese target). Il numero di unità statistiche che compongono la popolazione statistica di riferimento è chiamato numerosità o dimensione di U. I fenomeni di interesse nelle scienze sociali si manifestano in genere su popolazioni umane e finite. N può rappresentare un attributo, una categoria o un numero. Classificazione dei fenomeni statistici e Scale di modalità
Coefficiente di variazione = è un indice puro, cioè senza unità di misura; si costruisce ponendo a rapporto la deviazione standard con la media aritmetica. È confrontabile tra fenomeni con diverso ordine di grandezza e diversa unità di misura e tra fenomeni rilevati su popolazioni diverse. È valutabile come percentuale della media.
Statistica bivariata si occupa della rilevazione congiunta di una coppia di fenomeni statistici sulla stessa U. L’obiettivo diventa la descrizione del comportamento congiunto di X e Y su U e l’analisi dell’eventuale relazione statistica esistente fra i due fenomeni. Il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata in cui sono presenti due nuovi indici: indice i con riferimento al fenomeno X e indice j con riferimento al fenomeno Y. Sulle righe si pongono le k modalità xi e sulle colonne le h modalità yj di Y. Sulla tabella a doppia entrata si leggono informazioni sia di tipo bivariato, cioè che riguardano X e Y congiuntamente, sia di tipo monovariato, cioè che riguardano X e Y presi singolarmente. Frequenze congiunte = frequenza con cui si manifesta ciascuna coppia di modalità (xi, yj) all’incrocio fra la i-esima riga e la j-esima colonna. L’interno della tabella a doppia entrata costituisce la variabile statistica doppia che è lo strumento base della statistica descrittiva bivariata. La somma di tutte le frequenze congiunte riproduce la numerosità N di U. Frequenze marginali = frequenze che riguardano i fenomeni X e Y considerati singolarmente e separatamente. Si aggiunge un punto in sostituzione dell’indice dell’altro fenomeno (quello che marginalmente non è considerato). Frequenze condizionate = frequenze che permettono di analizzare il comportamento di un fenomeno condizionatamente all’altro e vengono chiamate percentuali di riga e percentuali di colonna. Sono frequenze relative ottenute dal rapporto tra le frequenze congiunte e la frequenza marginale della modalità con cui si condiziona. Fissando l’attenzione sulle singole righe o sulle singole colonne separatamente si costruiscono le variabili statistiche condizionate. Il fenomeno condizionante è chiamato variabile esplicativa o variabile indipendente e il fenomeno condizionato è chiamato variabile risposta o variabile dipendente. Se fra X e Y non esiste alcuna relazione statistica allora essi sono statisticamente indipendenti. Condizione di indipendenza statistica = se tutte le k serie di frequenze condizionate sono uguali fra loro e uguali alla marginale, significa che, sia condizionatamente alle k modalità xi di X sia marginalmente, Y si comporta allo stesso modo. È simmetrica, cioè biunivoca: se X è indipendente statisticamente da Y, allora anche Y è indipendente statisticamente da X. Le frequenze teoriche di indipendenza statistica realizzano la condizione di indipendenza statistica. Ad ogni tabella osservata di dati rilevati nella realtà si può accostare la corrispondente tabella teorica di indipendenza statistica. Quando la condizione di indipendenza statistica è verificata, le due tabelle coincidono. Se si conclude che X e Y non sono statisticamente indipendenti, allora fra essi esiste una connessione. È necessario misurare il grado di connessione per poterla utilizzare come evidenza empirica a supporto di successive interpretazioni e decisioni.
L’indice di connessione è il metodo più utilizzato per misurare la connessione. Si considera la differenza fra le frequenze congiunte e le frequenze teoriche di indipendenza statistica. Se fra X e Y esiste indipendenza statistica, tutte queste differenze sono nulle. Se le differenze sono vicine a 0 indicano che la connessione è bassa, quindi che i due fenomeni sono connessi ma si influenzano poco l’un l’altro. Quanto più è ampia questa distanza, tanto più i due fenomeni si influenzano sensibilmente. Il valore assoluto dell’indice non consente la valutazione, cioè non è interpretabile, quindi serve normalizzarlo. E per normalizzarlo serve trovare il suo massimo. Valore massimo del χ² = il valore che assumerebbe in caso di massima connessione fra i due fenomeni. È il valore pari a N moltiplicato per il più piccolo fra il numero delle righe k e il numero delle colonne h meno 1. DIMOSTRAZIONE Indice di connessione normalizzato è sempre comoreso fra 0 e 1 e moltiplicato per 100 è interpretabile come percentuale di connessione. Quando almeno uno dei due fenomeni congiuntamente osservati su U è quantitativo, è possibile aumentare il livello di analisi introducendo quattro nuovi indici di sintesi di analisi delle distribuzioni che sono: Media marginale di Y, Varianza marginale di Y, Media condizionata di Y dato xi, Varianza condizionata di Y dato xi. (valgono anche al contrario per X) Associatività delle medie condizionate = la media aritmetica delle medie condizionate, ponderata con le numerosità delle sotto-popolazioni, coincide con la media marginale. Scomposizione della varianza marginale = la varianza marginale di Y si scompone nella somma di due componenti:
Metodo dei minimi quadrati = criterio con cui viene scelta la retta che meglio approssima la spezzata di regressione. Consiste nell’esprimere in una formula la distanza fra i dati osservati e la retta di regressione e nell’assegnare ai parametri del modello il valore che rende minima tale distanza. Sostituendo le soluzioni dei minimi quadrati nella retta di regressione si ottiene la retta dei minimi quadrati, che rende minima la distanza totale fra i dati osservati e il modello. Una volta sostituiti i parametri a e b con le soluzioni dei minimi quadrati, la distanza totale fra i valori reali osservati e la retta ci dà il residuo totale della retta, chiamato anche devianza residua. Il residuo è nullo quando sono nulle tutte le distanze fra i valori osservati e i valori teorici del modello, cioè quando la retta si adatta perfettamente ai dati reali. È la parte di variabilità di Y che non è catturata dalla retta dei minimi quadrati. Devianza spiegata = è la parte di variabilità spiegata dalla retta dei minimi quadrati Devianza totale = si scompone nella somma delle due parti, residua e spiegata. Bontà di adattamento della retta = percentuale che misura quanto è buono il modello costruito, cioè l’adattamento della retta dei minimi quadrati ai dati osservati. Con il coefficiente di correlazione lineare Rho si misura la correlazione lineare fra X e Y. Quando assume valore 0 (DS=0) la retta lascia tutto residuo e non spiega niente della variabilità di Y. Quando assume valore 1 (DR=0) la retta non lascia alcun residuo e spiega perfettamente la variabilità di Y. La retta di regressione dei m.q. passa sempre per il punto di coordinate X medio e Y medio che ne rappresenta il baricentro. Annullamento degli scarti del modello di regressione = gli scarti ponderati non elevati al quadrato ma presi con il loro segno, quando non sono nulli, possono essere positivi o negativi e se vengono sommati si ottiene sempre 0. In media gli scarti ponderati si compensano sempre.
L’osservazione esaustiva della popolazione di U è chiamata censimento, mentre l’osservazione parziale di una parte di U è detta rilevazione campionaria. La rilevazione campionaria è preferibile al censimento per ragioni di budget e di precisione. L’inferenza indica il generico processo logico di passaggio dalla premessa alla conclusione. L’inferenza statistica è un’inferenza induttiva che procede dal campione alla popolazione. Essa si basa sui campioni casuali, cioè selezionati senza criteri o sistematicità. La casualità del campione è granzia della sua rappresentatività. Teoria delle probabilità = lo strumento scientifico per trattare il caso e i suoi effetti, in modo da controllare e valutare il rischio che deriva delle incertezze. Situazione deterministica = è noto l’intero insieme di circostanze che determinano E, che quindi è prevedibile a priori con certezza. Situazione casuale = l’insieme di circostanze che determinano E è noto solo parzialmente. Esperimento casuale = esperimento condotto sotto l’effetto del caso, cioè quando è nota solo una parte delle circostanze che consentirebbero di prevederne il risultato con certezza a priori, cioè prima di effettuare fisicamente l’esperimento. Evento elementare = ciascuno dei possibili esiti di un esperimento casuale. Spazio campionario = l’insieme di tutti i possibili esiti di un esperimento casuale, quindi l’insieme di tutti gli eventi elementari elencabili a priori.
Evento casuale = un qualunque sottoinsieme dello spazio campionario. È un concetto più generale del concetto di evento elementare. La probabilità di un evento casuale E è un numero associato a E che ne quantifica a priori il grado di incertezza ovvero la possibilità di realizzazione. Probabilità, definizione classica = P(E) è il rapporto fra il numero di casi favorevoli a E e il numero di tutti i casi possibili.
Per controllare l’errore di stima dobbiamo tener conto di tutte le possibili stime ottenibili da tutti i possibili campioni che potrebbero capitare, serve quindi lo stimatore. Stimatore = è la v.c. che interpreta tutti i possibili valori della stima su tutti i possibili campioni estraibili da U; è definito sull’intero spazio campionario. La stima è un numero, lo stimatore è una variabile casuale. Media campionaria = media degli n dati campionari necessaria a stimare l’ignota media Mu di U. Proprietà statistiche di uno stimatore servono a controllare l’errore campionario e interpretano formalmente i concetti di bontà, affidabilità, accuratezza e precisione.
L’errore di stima della media campionaria è tanto minore quanto più è grande il campione. Standard error dello stimatore = stima dell’errore medio di stima. Lo SE è un numero calcolato sul campione che stima l’errore medio che si commette sostituendo all’ignoto parametro la stima calcolata sul medesimo campione.
Pro stima puntuale = è un metodo generale sempre applicabile ed è semplice. Contro stima puntuale = è difficile avvicinarsi e azzeccare l’ignoto valore del parametro (può dare una falsa impressione di precisione). A livello pratico l’errore medio di stima lo si può solo stimare con lo standard error Pro e contro stima intervallare = è meno precisa ma più affidabile, produce un insieme di possibili valori ragionevolmente sostituibili all’ignoto parametro. Intervallo di confidenza = è un intervallo di valori calcolato sui dati campionari, per il quale si può confidare, a un prescelto livello probabilistico, che contenga l’ignoto valore del parametro oggetto di stima. L’affidabilità della stima intervallare è quantificata con una probabilità. Condizioni per il calcolo degli intervalli di confidenza: A) Il fenomeno di interesse è ben interpretato da una v.c. Normale B) La numerosità del campione n è sufficientemente grande da potersi riferire al caso dei grandi campioni Tipologie di intervalli di confidenza: