









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti del capitolo 3 del corso di Statistica: descrizione numerica dei dati.
Tipologia: Appunti
1 / 15
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Potrei descrivere e sintetizzare i dati ottenuti. Gli indici di sintesi ci indicano la forma di una distribuzione, la posizione, la variabilità (quanto è variabile) o la forma (asimmetria o simmetria). Questa sintesi, verrà attuata con degli indici di sintesi. Si parla di indici di sintesi di posizione, variabilità o forma.
Gli indici di posizione sono anche chiamati indici di tendenza centrale, sono: media aritmetica, media geometrica, mediana, moda. Ci interessa principalmente la posizione della distribuzione. Media aritmetica La media aritmetica somma i valori della modalità che ho osservato (solo per variabili numeriche) e divido per n. Il valore della media ci indica il valore che avremmo se avessimo la stessa modalità, quella che osserverei se redistribuissimo la modalità. Questa misura è molto comune. In una distribuzione a campana simmetrica, avremo la media al centro della distribuzione. La media ci dice dov'è il centro dei dati, che, nel caso di simmetria, è al centro della distribuzione. La media ha un difetto: abbastanza influenzabile dai valori anomali (outlier). Ci sono delle proprietà della media aritmetica:
modalità che ho osservato, la somma si riduce a 0. Si controbilanciano i guadagni e le perdite, ossia se sommo guadagni e perdite, risulta 0.
inerisco la media mi torna il valore minimo, se non inserisco la media, mi tornerebbe la somma di valori più grandi. Mediana (Me o Q2) La mediana è la modalità che si trova nel mezzo, tronca in due la distribuzione. Se la distribuzione è simmetrica, mediana e media coincidono. Non viene influenzata da valori estremi Se abbiamo tanti dati, essi vanno ordinati. Prima individuo la posizione della mediana, poi vedo qual’è il valore della mediana che avrà la posizione nel punto. Ottengo la posizione con la formula:
Se il numero di valori è dispari, la mediana è il valore centrale; se il numero di valori è pari, la mediana è la media dei due valori centrali. La mediana usa solo in parte l’informazione contenuta nei dati (l’ordine ma non i valori). La mediana è un’indice robusto, ossia che non è influenzato da valori estremi; l’aspetto negativo è che dati diversi possono avere la stessa mediana. Esempio Moda (Mo) La moda rappresenta il valore (modalità) più frequente nelle unità. Essa si può calcolare sia in una variabile categorica che in una numerica. Se tutte le modalità hanno lo stesso numero di frequenze, la moda non esiste; possono esserci anche due mode (se hanno lo stesso numero di unità). È il valore più frequente; non è influenzata da valori estremi, ma potrebbe non essere presente oppure ce ne possono essere più di una. Media pesata La media pesta , o media ponderata, si calcola come: wi è il peso assegnato alla i-esima osservazione. Il peso w può essere la frequenza (dati in forma di tabella di frequenza) oppure il peso w può indicare l’importanza del valore (es. media del voto degli esami pesata con i crediti). Esempio
In generale non sono equispaziali. Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso. Q2 coincide con la mediana (50% sono minori, 50% sono maggiori). Solo 25% delle osservazioni sono maggiori del terzo quartile. Per calcolarli devo ordinare i dati, trovare la posizione e individuo il valore che si trova nella posizione nella sequenza ordinata. Per il primo quartile la posizione sarà (n+1) x 1/4 oppure (n+1)/ Per il secondo quartile: (n+1) x 2/4 oppure (n+1)/ Per il terzo quartile: (n+1) x 3/ Dove n=numero di osservazioni. Volendo posso dividere la distribuzione per vari valori, estendendo la definizione e il funzionamento. Per esempio : decile, centile. In generale si parla di quantile ossia quando si divide la distribuzione per un numero n. Esempio Trova il primo quartile. Se 0.25x(n+1) viene frazionario si arrotonda all’intero più vicino: es. 2.25–> 2.75–>3, ma se viene 2.5 si prendono sia l’unità 2 che l’unità 3 e se ne fa la semisomma. Dati campionari ordinati: 11 12 13 16 16 16 17 18 21 22 (n = 9) Q1 = è nella nella posizione 0.25(9+1)= 2.5 nella sequenza ordinata dei dati, usiamo quindi la media fra il 2° e il 3° valore (12+13)/2 = 12.5. Per cui Q1 = 12.5. Differenza interquartile La differenza interquartile è la differenza tra il terzo quartile e il primo quartile. Farò Q3-Q1. Viene preferita rispetto al campo di variazione perché quest’ultimo risente molto dei valori estremi. Nella differenza interquartile, se vedo un’osservazione molto esterna non viene tenuta molto in considerazione, perché i quartili (soprattutto il Q3) non si spostano in caso di valori anomali in questo caso prende molta informazione dal centro della distribuzione. Tra il Q1 e Q3 prendo in considerazione il 50% dei dati; distanza tra primo quartile e terzo quartile. Diagramma a scatola e baffi (box-and-whisker plot o boxplot) ed i 5 numeri di sintesi (min, Q1, Q2, Q3, max) Un grafico per le distribuzioni quantitative è il Box Plot. Ci concentriamo su valori che caratterizzano la distribuzione. Prendiamo 5 misure di sintesi (o indici di sintesi): minimo, massimo, quartile 1, quartile 2, quartile 3 —> ci danno molta informazione di come sarà fatta una distribuzione. La mediana la etichetto come una spaccatura della scatola La scatola inizia con il primo quartile e finisce con il terso. La scatola ha come lunghezza la differenza interquartile. I baffi partono dalla scatola e raggiungono da un parte il minimo, dall’altra parte il massimo. Più spesso si disegna per verticale. Questo tipo di grafico mi da un’informazione maggiore rispetto a un’istogramma. Nell’esempio : la vicinanza tra il 2-3 quartile, significa che molti dati si trovano in questo intervallo. Varianza La varianza è il quadrato della deviazione standard. La varianza misura la variabilità in modo differente: misura la variabilità della distribuzione rispetto al centro. Da importanza al centro della distribuzione (che per noi sarà la media). La varianza misura la somma degli scarti (che sarebbe =0) aggiungendo un quadrato ad essa. Si fa la somma degli scarti tra quello che posso osservate e il centro della distribuzione al quadrato (tutto). Questo fa
si che tengo conto delle distanze sia in negativo che in positivo —> vista come una media degli scarti al quadrato; capiamo in media quanto abbiamo guadagnato/perso, anche se bisogna tener presente che perdo il segno. Ci indica quanto ci siamo discostanti dalla media, mettendo in evidenza quanto si perde/guadagna. Quando faccio il quadrato tengo conto dei valori positivi e negativi Deviazione Standard (Dev.Std.) o Scarto Quadratico Medio (SQM) La deviazione standard misura di variabilità comunemente usata; Mostra la variabilità rispetto alla media. Ha la stessa unità di misura dei dati originali. Esempio 1 La varianza e la deviazione standard sono nulli se e solo se la distribuzione è degenere, cioè i valori osservati sono identici (es. 7.2 7. 7.2 7.2 ...). Esempio 2
deviazione standard.
La forma della distribuzione ci descrive come i dati sono distribuiti. Le principali forme sono: Disuguaglianza di chebyshev Da alcuni dati calcolo la media campionaria e la deviazione standard (oppure li conosco sulla popolazione), la disuguaglianza di chebyshev mi dice che, quale che sia la distribuzione, io posso dire che il numero di osservazioni che sta nell’intervallo rispetto alla media (u). Ci dice che all’interno si trova almeno quella quantità di dati. K è un valore >= a 1 Ci indica che all’interno di quell’intervallo ci sta almeno questa proporzione di dati: (1-1/k^2)%. Questo è un limite inferiore. Indipendentemente da come i dati sono distribuiti, almeno (1 - 1/k2) dei valori cadranno entro k deviazioni standard dalla media (per k > 1). Regola empirica La regola empirica fa qualcosa di molto simile alla diseguaglianza di Chebyshev. Si considera sempre intervalli. Si può applicare solo a distribuzioni di forma simmetrica (o campanulare).
Questo ci indica la quantità in modo circostanziale. Ossia che per k=3 troveremo circa il 99.7% dei valori della popolazione o del campione. Questa misurazione ha più informazione, quindi è più precisa rispetto alla disuguaglianza di Chebyshev. Se la distribuzione dei dati ha una forma campanulare, allora l’intervallo:
Regola empirica vs Disuguaglianza di Chebyshev La regola empirica è più informativa in termini di circa invece che almeno, ma si applica solo a distribuzioni campanulare. Trasformazione dei dati: moltiplicazione per una costante c Ho n unità, ho rilevato i valori x1-xn e ho calcolato la media, la deviazione standard e la varianza. Se moltiplico per tutti i valori per un numero costante c. Moltiplicare significa cambiare la scala di valori. La varianza è più complessa, vi è moltiplicata al quadrato anche la costanza; per lo scatto quadratico medio moltiplico la costante in modulo.
Esempio X = variabili, calcolo la media di essi. Posso standardizzare i dati. Covarianza Nella covarianza lavoro con due variabili continue (quantitative). Lo scatter plot era una rappresentazione di due variabili quantitative rappresentate sulle stesse unità. Analisi della relazione tra due variabili quantitative. Esempio Rilevo rendimento e spese sulle stesse unità, quindi voglio capire se c’è una correlazione. Ogni punto è un’unità, ogni coordinata rappresenta un valore di spesa o rendimento per ogni unità. Cercherò di rappresentare il rendimento (y) come una funzione della spesa (x), solitamente in modo lineare. Una funzione si esprime come y=a+bx ; nella retta a è l’intercetta della retta (taglia l’asse y), b è la pendenza. Mi interessa sia rappresentare tramite una retta il grafico, che fare all’incirca una previsione. Esiste una associazione tra SPESE e RENDIMENTO? Ci interessa se esiste una relazione lineare tra le due. Ovvero: al crescere delle spese il rendimento tende a crescere, tende a calare o nessuna delle due? La covarianza mi dice cosa succede a una variabile al variare dell’altra variabile. Le relazioni che più ci interessano sono quelle lineari. Posso calcolare delle due variabili la media e la variazione standard. Nell’esempio individuo due assi cartesiani nuovi che corrispondono alla media di x e alla media di y: il punto di intersezione rappresenta il baricentro della distribuzione (centro per la x e centro per la y). Sulla
base dei nuovi assi possiamo individuare i punti che hanno valore inferiore o superiore per la media rispetto a x o y. Sia per le spese (X) che per il rendimento (Y) posso calcolare separatamente media e deviazione standard:
Ma questi indici non dicono nulla sulla associazione tra X e Y; per questo fine serve un indice calcolato congiuntamente, come la covarianza. In questo modo mi permette di dividere il piano in 4 quadranti, sono chiamati:
La somma il prodotto degli scarti. Il segno è importante, me lo indicherà l’appartenenza a un quadrante. Quando mi trovo una unità concordante, avremo un contributo alla covarianza positivo. Se la covarianza è positiva ho tendenzialmente sommati scarti che hanno avuto lo stesso segno (maggioranza concordanti), se invece ho il segno negativo vol dire che ho sommato, e quindi avrò più, valori discordati. Se positiva —> quando X cresce, Y tende a crescere, (notare l’uso della parola tende: infatti, se una unità sta sopra alla media per X è probabile che vi stia anche per Y, ma non è detto). Se negativa —> quando X cresce, Y tende a diminuire; se nulla —> non vi è nessuna tendenza. Se avrò una covarianza negativa significa che avrò una retta decrescente, se ho una covarianza positiva significa che avrò una retta crescente. Quando ho una covarianza =0, significa che non ho un legame tra x e y —> retta sdraiata quindi y= a+0. Vengono chiamati dati a palla, quelli che ci danno
crescenti (+). Quando r=0 troviamo una retta sdraiata e mi va ad esprimere che una delle due variabili cambia, quando una rimane ferma; di conseguenza capiamo che non esiste alcuna relazione lineare tra le variabili. Quindi l’equazione della retta è uguale all’intercetta più beta (inclinazione). La retta però è un’approssimazione dei punti che viene inserita nell’equazione con il termine “errore” perchè i punti che ho non si trovano perfettamente sulla retta. Se due variabili X e Y sono correlate significa che tendono a muoversi insieme (in modo concorde se r >0 o discorde se r <0). Ma il valore di r non dice niente su come e perché X e Y si muovono insieme: può essere che:
Es : X = “spesa in pubblicità” e Y = “fatturato” • X influenza Y, ma anche Y influenza X. In una certa regione geografica è stata rilevata una forte correlazione tra X = “numero di cicogne di passaggio” e Y = “numero di bambini nati” —> è un caso di correlazione spuria, perché tra X e Y non vi è alcuna relazione causa- effetto! In alcuni casi la correlazione tra X e Y è generata da una terza variabile Z nascosta. Es. X = “macchie gialle sulle dita” e Y = “tosse”: non vi è relazione causa-effetto, ma la variabile Z = “fumatore” è causa di entrambe e provoca la correlazione. Le serie temporali spesso danno luogo a forti correlazioni spurie perché vi sono andamenti simili nel tempo e nello spazio, ad es. in quasi tutti i paesi del mondo di anno in anno i prezzi crescono, così come gli studenti che frequentano la scuola superiore, il numero di donne nel mercato del lavoro. La relazione tra due variabili numeriche può essere sintetizzata con una funzione matematica (retta, parabola, logaritmo ...). La retta è la funzione più semplice da adattare ai dati e da interpretare. Esempio di relazione lineare crescente Vedremo come individuare la retta e che cosa ci indica il coefficiente di correlazione nella retta (crescenza, decrescenza). La retta deve passare dal baricentro ossia dal punto y medio e x medio. La pendenza della retta è il coefficiente angolare della retta. La sua equazione si trova come (vedi s65) L’equazione ci dice che al variare della x, la y viaria in quel modo. Ci interessa b (beta) ossia la pendenza della retta, che ci indica cosa succede a y quando x varia di 1; questo variare è costante su tutto l’asse x. Il passaggio è una costante ossia che quando x aumenta di 1, y aumenta di b (beta). La covarianza è una misura che serve per capire in che senso sono legate le variabili, è un pò influenzabile dalla quantità delle variabili. Ci interessa principalmente il segno e la sua vicinanza a 0. La correlazione ci piace maggiormente per rappresentare la variazione.
Regressione lineare semplice Se voglio descrivere un dato che ho osservato esso ha un valore per la y pari a quello che sta sulla retta, scostandomi per un’errore. Il valore osservato per quell’unità per la variabile y lo posso vedere come (vedi formula y). In genere è difficile che il punto sia proprio sulla retta, per questo inseriamo l’ errore che può essere più o meno grande, positivo o negativo. Per trovare la retta usiamo il metodo dei minimi quadrati : cercare la retta blu che deve passare per il baricentro (x e y medio) e gli da un’angolazione che fa si che stia nel mezzo ai punti il più possibile ossia che cerca di minimizzare la domma delle distanze tra il punto e la retta. Considera tutte le distanze tra la retta e i punti (scarti) - quello che sta sulla retta (y^). Le stime dei coefficienti β0 e β1 vengono calcolate minimizzando la somma dei quadrati dei residui La retta ha questa angolazione che viene scelta in modo che passi nel mezzo ai punti, in modo tale che la somma degli scarti al quadrato sia più piccola possibile (minimizzare). Beta sarà scelto in modo da rendere minima la quantità. L’acronimo del metodo è OLS. Arrivo alla retta; l’intercetta è b0. B1 è il coefficiente angolare, si ricava covarianzaXY/varianzaX. Il coefficiente di correlazione lineare può essere scritto come covarianza/il prodotto dei due scarti quadratici medi (di x e y). Quindi la settima di beta può essere scritta anche come: coefficiente di correlazione lineare x (rapporto dei due scarti ossia Sx/Sy). Esempio Il ritmo di crescita varia da bambino a bambino, possiamo capire meglio il m o d e l l o g e n e r a l e d i c r e s c i t a osservando come varia nel tempo l’altezza media di un gruppo di bambini. Altezza dei bambini media per mese di 161 bambini. I coefficienti della retta ottenuti can il metodo dei minimi quadrati sono: media di X: M(X)=23.5 mesi media di Y: M(Y)=79.85 cm varianza di X: Var(X)=11.