


















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispenza dettagliata per studiare statistica secondo parziale
Tipologia: Dispense
1 / 26
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



















Tipi di staƟsƟca
I caraƩeri quanƟtaƟvi sono dei numeri reali che descrivono una proprietà oggeƫva dell’unità staƟsƟca e possono essere divisi in: DiscreƟ: caraƩere che può essere definito come “numero di” (ad esempio numero di volte che farò l’esame di staƟsƟca). È un caraƩere discreto perché non posso farlo 1,4 volte. Finito, numeri interi; ConƟnui: infinito, numeri reali (ad esempio pesi, misure, soldi ecc). Distribuzione di frequenze univariate La staƟsƟca descriƫva univariata si occupa di tuƫ gli strumenƟ descriƫvi per l’analisi di un solo caraƩere estraƩo dalla matrice dei daƟ, ossia una colonna. La distribuzione di frequenza consiste nell’organizzare i daƟ elementari sinteƟzzando il nostro caraƩere. È cosƟtuita da due colonne. Nella prima colonna ci sono tuƩe le modalità diverse fra di loro (in ordine crescente se il caraƩere è ordinabile). Le modalità sono appunto tuƫ i daƟ consideraƟ, quindi come si esplicita il fenomeno. Nella seconda colonna bisogna inserire le frequenze associate alle modalità. n = numero totale di unità staƟsƟche k = numero di modalità disƟnte x i (i piccolo) = modalità disƟnte (i = 1,2,…k) n i (i piccolo) = frequenze (assolute) (i = 1,2,…k) Nota bene che n e k sono diversi tra di loro Tipi di frequenze
Istogramma L’istogramma, per caraƩeri quanƟtaƟvi conƟnui (o discreƟ con modalità di classi), prevede che in corrispondenza ad ogni classe si disegni un reƩangolo con base proporzionale all’ampiezza della classe e altezza proporzionale alla frequenza o alla densità se le classi sono di diversa ampiezza. Grafico delle frequenze cumulate Il grafico delle frequenze cumulate è un grafico cartesiano per la rappresentazione dell’andamento dei valori delle frequenze cumulate assolute o relaƟva. È deƩo anche “grafico a gradini”. Distribuzione di frequenza bivariate (doppie) La staƟsƟca descriƫva bivariata si occupa di tuƫ gli strumenƟ descriƫvi per l’analisi di due caraƩeri congiuntamente estraƫ dalla matrice dei daƟ. Questa ci servirà per studiare le possibili relazioni tra quesƟ caraƩeri. In genere la sintesi avviene aƩraverso la costruzione di una tabella di frequenza a doppia entrata che può essere faƩa con caraƩeri di qualsiasi combinazione (entrambi qualitaƟvi, entrambi quanƟtaƟvi o misƟ). Sulla prima riga meƫamo le possibili modalità di un caraƩere e sulla prima colonna le modalità del secondo caraƩere. Le modalità se possibile si meƩono in ordine crescente. La tabella a doppia entrata include: Frequenze congiunte nij che definiscono il numero di unità staƟsƟche che possiedono contemporaneamente la modalità i del caraƩere X e la modalità j del caraƩere Y; Frequenza marginale ni. che definisce il numero di unità staƟsƟche che possiedono la modalità i del caraƩere X (a prescindere dal valore delle modalità di Y); Frequenza marginale n.j che definisce il numero di unità staƟsƟche che possiedono la modalità j del caraƩere Y (a prescindere dal valore delle modalità di X). Il totale n deve risultare come somma delle frequenze congiunte e somma delle frequenze marginali di X e Y Le frequenze marginali, a differenza di quelle congiunte, non possono essere uguali a zero perché altrimenƟ tuƩa una colonna/riga sarebbe faƩa di zeri e non ha senso. Le frequenze congiunte, invece, possono perché vuol dire che non è stata trovata una coppia. La distribuzione marginale X è formata dalle modalità di X xi e dalle corrispondenƟ frequenze marginali ni. La distribuzione marginale Y è formata dalle modalità di Y yj e dalle corrispondenƟ frequenze marginali n.j
Ci sono due distribuzioni condizionate: X|y (X fissata una modalità di Y) e Y|x (Y fissata una modalità di X). Se si scambia x con y sulla tabella, non vale più la regola della riga e della colonna. Le condizionate di X|y sono k, così come Y|x in cui ce ne sono h. Grafico di dispersione o scaƩer plot Le coppie di modalità di due caraƩeri (ad esempio x e y), osservate per ciascuna unità staƟsƟca, vengono rappresentate come punƟ di un piano cartesiano in cui assi ortogonali corrispondono ai due caraƩeri. Il punto in questo caso rappresenta la singola unità staƟsƟca. Il punto, nella foto, segnala la presenza di una frequenza congiunta diversa da zero in corrispondenza delle coppie di modalità dei caraƩeri della tabella (coppia (1,1) con frequenza 15). Grafico tabelle a doppia entrata (a bolla) Le coppie di modalità di due caraƩeri quanƟtaƟvi, osservate per ciascuna unità staƟsƟca, vengono rappresentate come punƟ di un piano cartesiano i cui assi ortogonali corrispondono ai due caraƩeri. Il punto rappresenta la frequenza congiunta diversa da zero oppure è un cerchio (o bolla) proporzionale al valore della frequenza congiunta associata. La bolla, nella foto, è proporzionale al valore della frequenza congiunta associata alle coppie di modalità dei caraƩeri della tabella (coppia (1,1) con frequenza 15).
Indici di posizione Gli indici di posizione sono valori sinteƟci che evidenziano le caraƩerisƟche essenziali della distribuzione del caraƩere. AƩraverso gli indici di posizione è possibile confrontare variabili staƟsƟche con valori che rappresentano i livelli/valori Ɵpici di due diverse distribuzioni. Un indice di posizione è una funzione dei daƟ che gode di alcune proprietà.
Media aritmeƟca Data la variabile staƟsƟca (caraƩere quanƟtaƟvo) X, la media aritmeƟca è data dalla seguente formula: La media aritmeƟca ha quaƩro proprietà diverse che sono:
Indici di variabilità Gli indici di posizione sono indici sinteƟci che sosƟtuiscono alle diverse modalità del caraƩere un’unica modalità che possa ritenersi “rappresentaƟva di tuƩe le altre”. TuƩavia, da solo, l’indice di posizione appare insufficiente: non è deƩo infaƫ che le due distribuzioni con la stessa media abbiano un medesimo comportamento. La variabilità è l’aƫtudine di un caraƩere ad assumere modalità differenƟ. In base alle varie Ɵpologie di caraƩere si calcolano gli: indici di mutabilità o eterogeneità per i caraƩeri qualitaƟvi, indici di variabilità o dispersione per i caraƩeri quanƟtaƟvi. A prescindere dal caraƩere, tuƫ gli indici di variabilità devono soddisfare le seguenƟ proprietà generali. Un indice di variabilità/mutabilità v (X) gode delle seguenƟ proprietà:
Proprietà della varianza Come per la media aritmeƟca, che è l’indice di posizione più uƟlizzato, anche per la varianza tante sono le proprietà. Le proprietà della varianza sono due:
Grafici box-plot (o box&whiskers) È un grafico riassunƟvo dei maggiori indici descriƫvi univariaƟ che consente confronƟ “visivi” tra diverse variabili. Per ogni variabile vengono rappresentate: mediana (Q₂); primo e terzo quarƟle (Q₁ e Q₃); differenza interquarƟle H = Q₃ - Q₁; minimo e massimo. Il box è la scatola rossa. È delimitate da Q₁ e Q₃ mentre la linea nera al suo interno indica la mediana Q₂. L’altezza del box è H = Q₃ - Q₁ in cui si trova il 50% delle unità staƟsƟche.
Dall’analisi della distribuzione doppia di frequenza riportata nella tabella a doppia entrata è possibile misurare il grado di associazione tra due caraƩeri, ovvero l’intensità del loro legame di dipendenza. ParƟamo dall’analizzare le situazioni estreme assumendo, per ora, che i caraƩeri siano entrambi qualitaƟvi: Intensità nulla indipendenza; Intensità massima dipendenza funzionale. Indipendenza stocasƟca X e Y sono indipendenƟ stocasƟcamente se tuƩe le frequenze condizionate relaƟve sono uguali tra loro e uguali alla frequenza marginale relaƟva. La modalità della variabile rispeƩo a cui si condiziona non modifica la distribuzione di frequenza (relaƟva) dell’altra variabile. La variabile condizionata non cambia al variare della condizionante (cambiando gruppo non cambia la distribuzione dell’altra variabile) e sono uguali anche alla marginale relaƟva. Teorema di faƩorizzazione X e Y sono indipendenƟ stocasƟcamente se e solo se le frequenze osservate (nij) coincidono con le frequenze teoriche n^(ij), cioè se: o usando le frequenze relaƟve:
ConƟngenze Le conƟngenze assolute sono date dalla differenza tra frequenze osservate e frequenze teoriche Indice di connessione – Chi quadrato Questo indice è basato sui valori delle conƟngenze e delle frequenze teoriche, infaƫ è dato dalla somma di tuƩe le conƟngenze al quadrato diviso tuƩe le conƟngenze teoriche. Questo indice è sempre maggiore/uguale a zero. Minima connessione indipendenza stocasƟca X²min = 0 (osservate = teoriche); Massima connessione dipendenza funzionale X²max = n min[(h – 1),(k – 1)] Associazione spuria Può accadere che l’associazione tra due caraƩeri risulƟ maggiore di 0 (e dunque anche l’indice di connessione Chi-quadrato sia non nullo) anche se i caraƩeri sono tra loro logicamente indipendenƟ. Si parla in questo caso di associazione spuria. Vediamo un esempio. La tabella che segue riporta la distribuzione congiunta della variabile X = numero di case possedute e Y=frequenza al ristorante (al mese) di un colleƫvo di 90 famiglie. Già dal calcolo della prima frequenza teorica (45*52/90=26) si può osservare che essa non coincide con la frequenza osservata (31). Ne consegue che l’indice di connessione Chi-quadrato non potrà essere nullo. Possiamo concludere che la frequenza al ristorante dipende dal numero di case possedute? È più ragionevole pensare che l’effeƩo di associazione rilevato empiricamente possa essere stato indoƩo da una terza variabile Z=Reddito che agisce direƩamente sia su X che su Y inducendo una associazione in realtà non presente direƩamente tra X e Y.
Supponiamo di avere rilevato sulle stesse 90 famiglie anche la variabile reddito suddivisa in due modalità: basso e alto. Costruiamo la doppia entrata di (X,Y)|Z = basso e la tabella a doppia entrata di (X,Y)|Z = alto. Condizionando rispeƩo alla variabile reddito si può verificare che l’associazione tra X e Y è nulla. Le frequenze congiunte sono proporzionali e le frequenze teoriche coincidono con quelle osservate!!! Dunque l’indice Chi- quadrato per entrambe le tabelle è nullo. X e Y sono dunque indipendenƟ. L’associazione che avevamo osservato era indoƩa dall’effeƩo concomitante di Z su entrambe le variabili. Per questo si chiama associazione spuria. Paradosso di Simpson Il paradosso di Simpson consiste nell’osservare una certa associazione/relazione quando i daƟ sono divisi per gruppi, ma questa associazione/relazione sparisce o cambia quando gli stessi daƟ sono consideraƟ tuƫ insieme. Questo paradosso è dovuto al faƩo che il tasso di disoccupazione è neƩamente maggiore nel gruppo che ha una maggiore percentuale di diplomaƟ (i giovani). Trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione e età, nonché quella tra età e Ɵtolo di studio) fa giungere a conclusioni errate! Questo stesso errore era stato faƩo durante la pandemia nella valutazione dell’efficacia dei vaccini. Dipendenza in media: funzione di regressione Quando almeno uno dei caraƩeri della tabella a doppia entrata è quanƟtaƟvo, ad esempio Y, è possibile misurare la sua associazione con un caraƩere X (potenzialmente anche qualitaƟvo) nell’oƫca di indagare come varia Y al variare delle modalità di X. Essendo il caraƩere Y quanƟtaƟvo, è possibile effeƩuare il confronto tra le distribuzioni condizionate in modo analiƟco usando degli indicatori di sintesi come la media e la varianza condizionata dipendenza in media. La funzione che in xi assume il valore della media condizionata (passa per le medie condizionate) prende il nome di funzione di regressione. La funzione (o spezzata) di regressione misura il legame in media tra due variabili. È una funzione che passa tra i daƟ (per la proprietà di internalità della media aritmeƟca) e che congiunge tra loro le medie condizionate.
Bisogna stare aƩenƟ a non confondere l’indipendenza stocasƟca con l’indipendenza in media. L’indipendenza stocasƟca è l’uguaglianza delle distribuzioni di frequenza relaƟva delle variabili condizionate e richiede molte condizioni rispeƩo alla media. È simmetrica per cui: indipendenza stocasƟca di X da Y indipendenza stocasƟca di Y da X. Se c’è n’è una vale anche l’altra. L’indipendenza in media, invece, è l’uguaglianza delle medie delle variabili condizionate Y|x o X|y. Non è simmetrica, infaƫ: indipendenza di X da Y non comporta indipendenza di Y da X. Indipendenza stocasƟca indipendenza in media si di Y|x che di X|y (non vale però il viceversa). Dipendenza funzionale (caso massimo) Caso Y|x: ad ogni x corrisponde una e una sola Y. I daƟ coincidono con le medie, yj = μy(xi), quindi le varianze condizionate sono tuƩe nulle. La funzione di regressione diventa l’interpolante dei daƟ: yj = μy(xi). Caso X|y: ad ogni y corrisponde una e una sola X. I daƟ coincidono con le medie, xi = μx(yj), quindi le varianze condizionate sono tuƩe nulle. La funzione di regressione diventa l’interpolante dei daƟ: xi = μx(yj).
Conceƫ primiƟvi della probabilità La teoria della probabilità è necessaria per misurare l’incertezza associata ai cosiddeƫ fenomeni aleatori, vale a dire a quei fenomeni il cui risultato è incerto. Esempio: lancio di un dado regolare. La probabilità misura dunque il grado di incertezza connesso al risultato di una prova aleatoria. Non potremo dire con certezza quale sarà il numero che appare sulla faccia superiore del dado a seguito di un lancio, ma potremo misurarne il grado di incertezza aƩraverso la probabilità. Le enƟtà fondamentali della probabilità sono: la prova (o esperimento aleatorio), l’evento e la probabilità. Il legame logico – formale tra queste enƟtà è dato dalla proposizione seguente: in una data prova, l’evento A si verifica con probabilità P(A). La prova è un esperimento conto due o più possibili esiƟ incerƟ.
EvenƟ L’oggeƩo dello studio della probabilità è l’evento. Iniziamo con introdurre la nozione di evento elementare (lo indicheremo col simbolo greco ω seguito da un pedice i = 1, …, k con i ≥ 2). L’ evento elementare ωi è uno dei possibili esiƟ della prova. Tali esiƟ debbono essere fra loro incompaƟbili, cioè se si verifica un evento elementare ω1, allora non si può verificare l’evento ω2. Ad esempio nel lancio di una moneta regolare gli evenƟ elementari sono rispeƫvamente testa e croce, ovvero ω1 = {T} e ω2 = {C}. L’insieme di tuƫ gli evenƟ elementari connessi ad un esperimento aleatorio cosƟtuiscono lo spazio campionario definito con la leƩere greca = {ω1, ω2, … , ωK}. Esempio: lancio di una moneta = {T, C} con ω1= {T}, ω2= {C}. Lancio di un dado = {1, 2, 3, 4, 5, 6} con ω1= {1}, ω2= {2}, ω3= {3}, ω4= {4}, ω5= {5}, ω6= {6}. ParƟta di calcio = {1, X, 2} con ω1= {1}, ω2= {X}, ω3= {2}. Per evento non elementare A si intende un soƩoinsieme dello spazio campionario a sua volta scomposto in uno o più evenƟ elementari. Esempio: lancio di un dado = {1, 2, 3, 4, 5, 6} con ω1= {1}, ω2= {2}, ω3= {3}, ω4= {4}, ω5= {5}, ω6= {6}. L’evento A1 = {«numero pari»} = {2, 4, 6}; l’evento A2 = {«numero dispari»} = {1, 3, 5}; l’evento A3 = {«I tre numeri più bassi»} = {1, 2, 3}; l’evento A4 = {«numeri > 4»} = {5, 6}. Esistono due parƟcolari evenƟ ovvero: Evento impossibile: definito dall’insieme vuoto, che non include nessuno degli evenƟ elementari connessi con l’esperimento aleatorio: A impossibile = { }; Evento certo: si verifica sempre, in quanto comprende tuƫ i possibili esiƟ connessi all’ esperimento: A certo = { }. Algebra degli evenƟ (di Boole) Con riferimento ad una prova si possono considerare tuƫ gli evenƟ elementari ωi ma è opportuno introdurre anche un insieme di evenƟ più estesi, che sarà indicato con ε e che è definito come un insieme contenente tuƫ gli evenƟ elementari e da tuƫ i possibili soƩoinsiemi di , con l’aggiunta degli elemenƟ { } e { }. Tale classe di evenƟ formano un’algebra di Boole. Esempio: risultaƟ di una parƟta di calcio = {1, X, 2} ε = {{1}, {X}, {2}, {1,X}, {X,1}, {1,2}, {2,1}, {X,2}, {2,X}, {1,2,3}, {1,3,2}, {2,1,3}, {2,3,1}, {3,1,2}, {3,2,1}, }. Relazione tra evenƟ L’algebra di Boole è una struƩura matemaƟca sui cui elemenƟ sono definite tuƩe le operazioni e le regole valide nella teoria degli insiemi: Eguaglianza: A = B (A uguale a B). Gli evenƟ A e B hanno gli stessi elemenƟ; Appartenenza: A B (A incluso in B). Gli elemenƟ di A sono anche elemenƟ di B (ma non necessariamente viceversa); Inclusione o contenimento: A B (A conƟene B). Gli elemenƟ di B sono anche elemenƟ di A, ma non necessariamente viceversa, ovvero ci sono elemenƟ di B che non sono elemenƟ di A; Disgiunzione: A B = { } (A non compaƟbile con B) A e B non hanno alcun elemento in comune. Operazioni elementari È possibile anche introdurre alcune operazioni elementari fra evenƟ che ricalcano gli evenƟ fra insiemi: Intersezione: A = A1 A2 i cui elemenƟ appartengono sia ad A1 che ad A2. Se A1 A2 = A1 e A sono disgiunƟ o incompaƟbili;
Senza ripetere il procedimento ogni volta, possiamo calcolare la probabilità per un generico evento A con la formula classica di Laplace. In questo caso devono valere però le condizioni di spazio finito, ovvero di numero finito di evenƟ elementari che cosƟtuiscono : Oltre all’approccio classico esistono altre modalità per assegnare la probabilità:
Per verificare l’indipendenza tra A e B: P(A B) = P(A); P(B) P(A|B) = P(A); P(B|A) = P(B). AƩenzione a non confondere evenƟ disgiunƟ ed evenƟ indipendenƟ. P(A B)= 0 A e B sono disgiunƟ P(A B)= P(A)P(B) A e B sono indipendenƟ Per estrarre due o più oggeƫ: Estrazione con reimmissione (con reinserimento): gli evenƟ sono indipendenƟ e ad ogni estrazione si ha la stessa situazione iniziale; Estrazione senza reimmissione (senza reinserimento): gli evenƟ dipendono ogni volta dalla estrazione precedente. Teoremi Nel seguito sono riportaƟ tre teoremi parƟcolarmente uƟli per l’oƩenimento di alcuni risultaƟ. Alcuni teoremi (2 e 3) si basano su una assunzione parƟcolare, cioè che esista una parƟzione dello spazio campionario cioè una suddivisione dello spazio campionario in soƩoinsiemi Ai tra loro disgiunƟ e la cui unione dà lo spazio campionario.