














































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Modelli statistici sbobinature ed esempi
Tipologia: Sbobinature
1 / 54
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















































STATISTICA DESCRITTIVA → descrive e sintetizza le principali caratteristiche di un insieme di dati (si hanno già i dati del fenomeno a disposizione e bisogna soltanto descriverlo) STATISTICA INFERENZIALE → estende le conclusioni tratte dall’osservazione di un campione all’intera popolazione, con un certo grado di incertezza. Per poter dunque utilizzare metodi di statistica inferenziale, bisogna conoscere la probabilità, ovvero la scienza che studia i fenomeni casuali o aleatori (fenomeni che si verificano con un certo grado di probabilità), attraverso la valutazione della possibilità che un dato evento possa accadere o meno, ovvero intuitivamente. Perché studiare la statistica? ➢ Per prendere decisioni ➢ Per analizzare un fenomeno ➢ Per fare previsioni su un evento futuro Cos’è la statistica? Tradizionalmente si ritiene che il vocabolo statistica tragga origine dal termine tedesco Staats (Stato), poiché nel 1660 il professore di diritto pubblico Ermanno Conring tenne un corso universitario denominato Staats-Kunde con il significato di descrizione sistematica degli aspetti più rilevanti di uno Stato. Nello stesso periodo, Charles Davenant la definiva come: l'arte di ragionare per numeri su argomenti relativi alla cosa pubblica La statistica è la scienza che si occupa di raccogliere dati e trarre da essi informazioni/conoscenza. La statistica si occupa, a partire da una domanda su un fenomeno, di stabilire quali dati possano essere usati per rispondere a quella domanda e, se i dati non sono già disponibili, come debbano essere raccolti. Segue poi la fase in cui si analizzano i dati per estrarre le informazioni cercate. Fasi di un'analisi statistica ✔ definire gli obiettivi, tradurre un'esigenza conoscitiva in modo che sia suscettibile di una risposta in termini statistici ✔ individuare la popolazione, ovvero l'insieme di tutte le unità di studio ✔ definire il piano di campionamento, ovvero una parte più piccola della popolazione (altrimenti troppo dispendioso e troppo vasto), che va sotto il nome di disegno sperimentale e campionamento ✔ raccogliere i dati (è importante che siano raccolti correttamente) ✔ organizzare e guardare i dati, ovvero dalla massa di dati bisogna estrarre le informazioni che servono, che si possono però sintetizzare opportunamente e/o rappresentarli graficamente, in funzione delle informazioni cercate ✔ elaborare i dati, formulare un modello per spiegare i dati osservati. Il modello potrà essere usato per confermare o smentire delle ipotesi fatte sul fenomeno e/o per previsioni su future istanze Terminologia: ● popolazione (o collettivo statistico) → insieme degli elementi che costituiscono l'oggetto di studio. Può essere: ⋅ finita, cioè costituita da un numero finito di unità (la popolazione italiana, il numero di aziende di servizi di Reggio Emilia) ⋅ infinita, cioè costituita da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente (tutte le persone elette da una patologia,
oggi o in futuro, i futuri acquirenti di un certo prodotto, i pezzi difettosi che può produrre un macchinario) ● unità statistica → unità elementare su cui vengono osservati i caratteri oggetto di studio (i cittadini italiani, le aziende tessili, i clienti di un negozio). Per esempio: uno studente di un liceo scientico può far parte di diverse popolazioni, secondo il contesto in cui è osservato: è un elemento della popolazione di alunni della sua stessa scuola, appartiene alla popolazione dei cittadini residenti a una certa data in un dato comune, fa parte della popolazione dei giovani della sua stessa fascia di età. Attenzione! Se lo studente viene osservato nel contesto delle scuole secondarie italiane, dove la sua presenza concorre a determinare il numero di alunni iscritti in un dato anno al liceo scientifico, non può più essere considerato un'unità statistica. In questo caso, infatti, le unità statistiche sono le singole scuole (popolazione di scuole), dove si rileva una caratteristica comune, cioè il numero di alunni iscritti in un certo anno. ● carattere statistico (o variabile) → la caratteristica rilevata in corrispondenza di ciascuna unità statistica che si ritiene rilevante ai ni dell'indagine Una volta raccolti, i dati vengono organizzati in una matrice (tabella come questa): se io leggo la matrice per colonne, trovo la distribuzione di un carattere statistico (come si comporta quel dato carattere sul mio collettivo – modalità); se io leggo la matrice per riga, prendo ciascuna unità statistica e vedo quali modalità assume per tutti i caratteri che ho considerato in fase di raccolta dei dati ● modalità → le diverse manifestazioni che un carattere presenta sulle diverse unità statistiche. Devono essere: ・ esaustive, per cui le modalità elencate devono comprendere tutte le possibili manifestazioni del carattere ・ non sovrapposte, ovvero ad ogni unità si deve poter associare una sola modalità CARATTERI STATISTICI ➔ QUALITATIVI, esprimibili tramite sostantivi, avverbi, aggettivi..
È molto facile ottenere distribuzioni di frequenza assoluta per caratteri qualitativi e quantitativi discreti (con un numero non elevato di modalità). Riprendendo l'esempio precedente, per i caratteri Sesso la distribuzione di frequenza semplice è → Il passaggio da distribuzione disaggregata a distribuzione di frequenze comporta una perdita di info, in particolare alcuni dettagli (es. non sappiamo chi è maschio/femmina) Es2: distribuzione di frequenza del reddito, ma in questo caso il passaggio dalla distribuzione unitaria a quella di frequenze non opera una buona sintesi del fenomeno in esame. In generale, in presenza di caratteri quantitativi continui (o anche discreti, con un numero elevato di modalità) abbiamo bisogno di qualche operazione preliminare, ovvero la suddivisione in classi delle modalità. La scelta delle classi è arbitraria, ma è necessario: ⋅ nessuna classe deve essere vuota ⋅ le classi devono essere contigue (occupano tutti i punti nell’intervallo), disgiunte (non sovrapposte) ed esaustive ⋅ devono avere possibilmente la stessa ampiezza ⋅ il numero di classi deve essere tale da consentire un'adeguata sintesi dei dati senza comportare una eccessiva perdita di informazioni Es2: suddivisione in classi del reddito *parentesi quadra = estremo incluso; parentesi tonda = estremo escluso Nello stabilire gli estremi della classe occorre tenere presente che ognuna delle determinazione osservate del carattere deve essere compresa in una sola classe. Nel caso di caratteri continui si rende quindi necessario includere nella stessa classe uno solo dei due estremi dell'intervallo. AMPIEZZA = ESTREMO SUPERIORE CLASSE – ESTREMO INFERIORE CLASSE Può capitare, o per scelta (si vuole fornire informazioni più dettagliate su parte della distribuzione), o per necessità (i dati sono già stati raggruppati in classi da qualcuno), di costruire delle classi utilizzando intervalli di lunghezza differente. In questo caso è conveniente definire anche la DENSITÀ DI FREQUENZA. La densità è il rapporto tra la frequenza assoluta della classe e la lunghezza dell’intervallo. La densità ci dice il numero atteso di unità statistiche per ogni unità di misura della variabile Ritornando alle distribuzione di frequenze FREQUENZE RELATIVE (fj) = FREQUENZA ASSOLUTA / NUMERO TOTALE DI UNITÀ STATISTICHE (n), ovvero il rapporto tra ogni frequenza assoluta e il numero totale di osservazioni (ovvero dimensione del collettivo = sommiamo tutte le frequenze assolute) Perché passare dalle frequenze assolute a relative? Hanno il vantaggio, rispetto alle frequenze assolute, di permettere di confrontare le distribuzioni di due o più collettivi (con numerosità diversa) Es1: Numero di esami in un a.a. in due collettivi stesso tipo di carattere con stesse modalità osservato sui due collettivi. confrontiamo i 2 collettivi: abbiamo notato che nel B più studenti (23) hanno sostenuto un esame rispetto ad A (16), ma i 2 collettivi hanno numerosità diverse (60 e 110).
→È corretto affermare che coloro che hanno sostenuto 1 esami sono più numerosi nel collettivo A? (per le frequenze assolute, la risposta è no) →È corretto affermare che coloro che hanno sostenuto 3 esami sono più numerosi nel collettivo B? (per le frequenze assolute, la risposta è si) Le frequenze assolute in entrambi i casi subiscono l’effetto della dimensione del collettivo e quindi bisogna eliminare questa influenza e cioè passare dalle frequenze assolute alle relative, ovvero confrontare. Applichiamo la formula per il collettivo A e B. Si nota che la frequenza è più alta in A *per vedere se abbiamo agito correttamente, la somma di tutte le frequenze deve essere 1. Nel caso in cui sia 0,999 o 1,001 sono solo problemi di approssimazione, ma se risulta 0,90 o 1,2 i calcoli sono sbagliati. Quando il carattere è qualitativo ordinale o quantitativo, è possibile calcolare le FREQUENZE CUMULATE (Fj) → La frequenza assoluta (relativa) cumulata per la modalità/classe xj è la somma delle frequenze assolute (relative) per le modalità/classi ≤ xj Nj = n1 +... + nj (Fj = f1 +... + fj) Il carattere deve essere almeno ordinale per calcolare le frequenze cumulate. Se l’esame chiede di calcolare la frequenza cumulata di un carattere qualitativo sconnesso, la risposta esatta è: il carattere è qualitativo sconnesso, quindi non ordinabile e quindi non ha senso calcolare le frequenze cumulate. Es1: Si costruisca la distribuzione di frequenze cumulate per il carattere. Numero di libri letti nell'ultimo anno e se ne interpreti quella relativa alla modalità 3 Prima modalità (0), la frequenza cumulata = frequenza assoluta (1) Seconda modalità (1), la frequenza cumulata = FREQUENZA ASSOLUTA CORRISPONDENTE
Collettivi diversi: ogni collettivo avrà una numerosità diversa, per cui le differenze nelle frequenze assolute possono essere date dall’ordine di grandezza diverso di ciascuna popolazione, poiché a collettivi numericamente più grandi, corrispondono frequenze assolute più grandi. Quindi passiamo dalle frequenze assolute alle relative e quindi vuol dire che abbiamo fatto fa/col (stiamo eliminando l’influenza della dimensione sulle frequenze). Otteniamo frequenze relative, cioè confrontabili. Costruiamo il grafico, basandoci sulle frequenze relative (nel caso di confronto tra collettivi diversi con numerosità diversa, un grafico su cui misurare le frequenze assolute non ha senso). Per ciascun paese le barre hanno tutte la stessa ampiezza; l’altezza è proporzionale alle frequenze relative. Noto che la Svezia ha un’incidenza maggiore rispetto alla scuola secondaria superiore. Se la domanda è “in quali paesi si studia di più”, le frequenze assolute non consentono un confronto agevole perché le popolazioni di riferimento sono molto diverse. Si passa allora alle frequenze relative per ciascun paese. Il confronto può essere fatto affiancando dei diagrammi a barre, il modo in cui le si affianca mette in evidenza cose diverse. Le barre possono anche essere sovrapposte per mettere in luce le diverse composizioni delle popolazioni: per ciascun paese avremmo un’unica barra, all’interno della quale si sovrappongono tutti i titoli di studio. La barra viene colorata a seconda di quanto è importante quella data titolarità. ISTOGRAMMA → è l’unico grafico per il carattere quantitativo continuo e che quindi deve dare idea di continuità. Si costruiscono, l'uno adiacente all'altro, tanti rettangoli quante sono le classi in cui è suddiviso il collettivo, ponendo ⋅ (base rettangoli) = (ampiezza della classe) ⋅ (area rettangoli) ∝ (frequenze assolute (relative)). Il simbolo ∝ significa “proporzionale a”. Distinguiamo i casi:
La moda è 77, ma la sintesi non è molto buona perché ci sono altri valori (75 e 72) che gli si avvicinano molto. Osservazioni:
⋅ se il n di modalità è pari, avremo due posizioni al centro e la mediana sarà rappresentata dalla semisomma di queste due modalità Es1: Consideriamo i valori: 10 -5 1 -2 3 2 5 → ordine crescente -5 -2 1 2 3 5 10 → Poichè n=7 (dispari), esiste un’unica posizione centrale: la posizione (7+1)/2 = 4 Pertanto Me = x(4) = 2 Es2: Consideriamo i valori: 10 -5 1 -2 3 2 5 6 → ordine crescente -5 -2 1 2 3 5 6 10 → Poichè n=8 (pari), non esiste una sola posizione centrale bensì due: le posizioni 8/2 = 4 e 8/2 + 1 = 5. Pertanto: Me = x(4) + x(5)/2 = (2 + 3)/2 = 2. Il valore mediano non coincide con nessun valore rilevato. Poiché le modalità di rango centrale sono diverse segue che esattamente il 50% dei valori è inferiore alla mediana, mentre il rimanente 50% è superiore alla mediana. Nel caso in cui si presenta la stessa situazione per caratteri qualitativi, la mediana risulta indeterminata. ● distribuzioni di frequenza → calcolo le frequenze relative e cumulate relative e cerchiamo la prima frequenza cumulata relativa, il cui valore o è esattamente uguale a 0.5 o è il primo valore più grande di 0.5. La modalità corrispondente sarà la mediana In altre parole, è la prima modalità per la quale la frequenza cumulata relativa è maggiore (o uguale) a 0.5. Es1: Distribuzione relativa al carattere Numero di Figli metto in ordine crescente e divido ciascuna frequenza assoluta per il totale delle osservazioni. Calcoliamo le frequenze cumulate: la prima è sempre uguale alla prima frequenza relativa, poi sommo la seconda con la prima (0.24+0.10) e così via. Vediamo se c’è ne una uguale a 0.5, ma non c’è e quindi prendiamo la prima frequenza cumulata che è più grande di 0.5, che è 0.72. Questa frequenza cumulata relativa individua la mediana, che è la modalità corrispondente, ovvero 2. ● distribuzioni in classi → calcolo le frequenze relative e le cumulate, individuo la prima frequenza cumulata > o = a 0.5. In questo modo determiniamo la classe che contiene la mediana e poi bisogna capire il valore all’interno di quella classe che corrisponde alla mediana, che in questo caso non è il valore centrale, ma lo si individua tramite una formula: Im → estremo inferiore della classe mediana Fm-1 → frequenza cumulativa relativa della classe che precede la classe mediana Fm → frequenza cumulata relativa alla classe mediana Questo procedimento mi consente di ottenere il valore della mediana all’interno della classe. Es1: Consideriamo la seguente distribuzione relativa al carattere Altezza Dopo aver calcolato le frequenze relative e cumulate, individuiamo la frequenza cumulata > o = a 0.5, ovvero 0.55. Si considera la classe corrispondente, ovvero (140;170] e si applica la formula della Me: 140 + [(0.5 – 0.225) / (0.55 – 0.225)] 30 = 165. Per affermare che i calcoli siano corretti, è verificare che il valore che otteniamo come mediana sia realmente contenuto all’interno della classe individuata come classe mediana. In questo caso, il valore deve essere compreso nella classe mediana tra 140 e 170, ma se ottengo un valore minore di
● distribuzioni in classi → calcolo le frequenze cumulate relative e individuo la classe che contiene il Q1 o il Q3 e applico una delle formule: (stesso procedimento della mediana) Q1 = 140 + [(0.25 – 0.225) / (0.55 – 0.225)] 30 = 142. Q3 = 180+ [(0.75 – 0.655) / (0.88 – 0.655)] 20= 180. Cerco dunque due modalità che, all’interno della distribuzione, occupino una determinata posizione (che lasci il 25% delle osservazioni o il 75%) MEDIE ANALITICHE : faccio operazioni algebriche sulle modalità del carattere e mi serve che il carattere sia quantitativo. L’unica media analitica che vedremo è la MEDIA ARITMETICA , ovvero la somma di tutti i valori diviso in n di osservazioni → Dato un insieme di n valori osservati x1,x2,...,xn si definisce media aritmetica del carattere quantitativo X la somma dei valori osservati divisa per il numero n di osservazioni Es1: Su un gruppo di 5 dipendenti di un’azienda è stato rilevato il carattere Retribuzione mensile,
Non è necessario mettere in ordine i valori Qual è la retribuzione mensile media? Sommiamo i valori e li dividiamo per 5.
spetterebbe a ciascuna unità qualora l’ammontare stesso fosse diviso in parti uguali. In altri termini, la media aritmetica coincide con quella modalità del carattere che dovrebbe possedere ogni unità statistica se l’ammontare complessivo del carattere fosse ripartito in eguale misura tra tutte le unità. Se invece ci chiedessimo: se l’azienda decidesse di dare a ciascun dipendente la stessa retribuzione mensile, quanto dovrebbe ricevere ogni dipendente? Sappiamo che la somma a disposizione
*Quando all’esame ci chiede il commento, dopo tutti i calcoli, esso deve essere sempre in riferimento alla variabile che stiamo considerando (non devo scrivere solo la definizione) La media aritmetica va bene nelle distribuzione unitarie, ma nelle distribuzioni di frequenza dobbiamo tenere conto delle frequenze per calcolare la MEDIA ARITMETICA PONDERATA, perché pesiamo ciascuna modalità per il n di volte che questa si presenta nel nostro collettivo. Il risultato che otteniamo è sempre lo stesso, il ragionamento, l’interpretazione e la media aritmetica sono sempre gli stessi, ma cambia il procedimento. Dobbiamo utilizzare le frequenze. Bisogna moltiplicare le modalità per le rispettive frequenze e dopo tutti i prodotti, li sommo tra di loro e ottengo il totale che divido per in n osservazioni. Quindi, dato il carattere quantitativo X, se conosciamo la relativa distribuzione di frequenze, definiamo media aritmetica ponderata, dove K è il numero di modalità assunte dal carattere X. Questo vale per le frequenze assolute. Es1: ( → modalità x frequenza) Facciamo la somma dei prodotti (ultima colonna) e dividiamo per il n osservazioni (0 + 12 + 38 + 27 + 16 + 5) / 50 = 98 / 50 = 1.96 → n figli medio del collettivo. Questa è l’applicazione della formula. Se tutte le famiglie avessero lo stesso n di figli, allora sarebbero 1.96.
Se ho le frequenze relative, moltiplico le modalità per le frequenze relative, ottengo tutti i prodotti, li sommo e il risultato è la media ponderata (non divido per il n osservazioni perché le frequenze relative le ottengo facendo f. ass / n, quindi la divisione è già avvenuta). Es ( → modalità x frequenze relative) 0 + 0,24 + 0,76 + 0,54 + 0,32 + 0,10 = 1. Cosa accade quando passiamo a una distribuzione di frequenze, ma le modalità sono espresse in classi? Significa che una modalità non assumerà solo un valore, ma può essere compresa in una classe di valori → media aritmetica per distribuzione in classi. Se voglio calcolare la media aritmetica, devo poter decidere all’interno di quella classe di valori, quale valore è quello rappresentativo di tutta la classe. L’ipotesi è che all’interno della classe, le osservazioni si distribuiscano in maniera uniforme e allora io posso scegliere come valore rappresentativo il suo valore centrale. Il calcolo è analogo a quello per le distribuzioni di frequenza e la differenza è che al posto della modalità avrò il centro della classe. Il centro = (estremo inferiore classe + estremo superiore classe) / 2. Una volta che avrò tutti i centri, li moltiplico per tutte le frequenze assolute, sommo i risultati e poi divido per il n osservazioni. Se ho le frequenze relative, stesso procedimento, ma senza divisione per osservazioni. Es1: Calcolare l’altezza media. Calcolo i centri delle classi (cj): 70+100/2=85; 100+120/2=110… Il primo controllo è che il centro della classe che ho trovato si trovi effettivamente all’interno della classe! Moltiplico ciascun centro per la corrispondente frequenza assoluta: 20x85; 7x110.. =cjnj. Sommo tutti i risultati e divido per il n osservazioni: (1700 + 770 + 2340 + 10075 + 3675 + 8550 + 5040) / 200 = 160.75. Interpretazione: se tutte le unità nel nostro collettivo avessero tutti la stessa altezza, sarebbe 160. Per la media aritmetica, l’ampiezza della classe non è un problema (conta solo per la moda) Es2: Altezza con frequenze relative. Calcolo i centri e li moltiplico per la corrispondente frequenza relativa, sommo i prodotti e il risultato è la media aritmetica (non divido per n osservazioni): = 8,5+3,85+11,7+50,375+18,375+42,75+25,2 = 160, Pregi della media aritmetica → presenta un ambito applicativo molto ampio poichè: ➢ è molto facile da calcolare ➢ è semplice da interpretare ➢ tende a correggere, annullandoli, gli errori di misurazione ➢ gode di apprezzabili proprietà:
Le misure di centralità non bastano: Può accadere che due o più popolazioni presentino lo stesso centro, ma che il livello di sintesi sia completamente differente. Occorrono altre misure che consentano di valutare il grado di dispersione delle modalità e la bontà della sintesi della distribuzione operata tramite gli indici di centralità, ovvero le MISURE DI VARIABILITÀ. Es1: Due gruppi di individui, la variabile è il peso (in kg) ● 1 gruppo: 66, 76, 79, 85, 94 M = 80 ● 2 gruppo: 44, 49, 65, 112, 130 M = 80 Notiamo che il primo gruppo è molto più omogeneo quanto al peso dei singoli (nel 2 gruppo c’è più variabilità al centro rispetto al 1) Ci interessa avere anche un’idea di quanto diversi siano i valori assunti dalla variabile, ossia ci interessa avere un'idea della variabilità del carattere. Per farlo, possiamo vedere come si muovono le osservazioni intorno al centro della distribuzione. Perché studiare la variabilità? Se non ci fosse variabilità nei dati, allora non avrebbe senso fare analisi statistica, perché vuol dire che il carattere assume sempre la stessa variabilità su tutte le unità del collettivo e vuol dire che se conosciamo un’unità, le conosciamo tutte → Valore Intrinseco. Inoltre, l’impiego delle medie non è sufficiente a sintetizzare le informazioni rilevate sulla popolazione oggetto di studio, specialmente quando occorre confrontare tra di loro popolazioni diverse (come nell’esempio, nel quale il centro è lo stesso in entrambi i gruppi, ma il comportamento dei gruppi è diverso) → Accuratezze della Sintesi dei Dati Servono degli indici di variabilità, i cui requisiti: ● Se almeno due osservazioni sono diverse tra di loro, allora dev’essere > 0 ● Se tutte le osservazioni sono uguali tra di loro ( carattere degenere ), allora deve assumere il suo valore minimo ● Se il carattere X è più variabile del carattere Y, allora l’indice di variabilità di X dev’essere maggiore dell’indice di variabilità di Y Indici di variabilità
4.9, che si colloca dopo 4.1 e tra tutte le osservazioni più piccole di 4.9 e tra quelle più piccole, prendiamo l’osservazione più grande, ovvero 4.1 (che ci indica dov’è il baffo superiore) ▸ prendiamo da 1.1 a 4.1 e l’osservazione che rimane fuori è 5.6, che rappresenta un outliers e quindi disegneremo un pallino affianco a 5. Es2 Costruzione box plot con distribuzione di frequenze Dopo aver calcolato le fi e le Fi, calcoliamo: · Q1 = 10 · Me = 20 · Q3 = 30 · DI = 20 · 1.5DI = 1.5×20 = 30 ▸ scatola: da 10 a 30 con la mediana indicata da una linea a 20 ▸ baffo inferiore: fino all’osservazione più piccola tra quelle maggiori di Q1 − 30 = −20, che si trova prima di 1 e tra tutte le osservazioni più grandi di -20, prendiamo la più piccola, ovvero 1 ▸ baffo superiore: fino all’osservazione più grande tra quelle minori di Q3 + 30 = 60, che si trova tra 50 e 70, prendiamo tutte le modalità più piccole di 60 e prendiamo la più grande, ovvero 50. ▸ restano fuori 70, 90, 100 → outliers (pallino) Es3 Costruzione box plot con distribuzione in classi ▸ scatola: da 6,54 a 12,8 con la mediana indicata da una linea a 9, ▸ baffo inferiore: fino all’osservazione più piccola tra quelle maggiori di Q1 − 9,81 = −3,55, ovvero fino a 0 ▸ baffo superiore: fino all’osservazione più grande tra quelle minori di Q3 + 9,81 = 22,61, ovvero fino a 20; 4 ▸ non ci sono outliers. Il box plot viene anche utilizzato per confronti tra distribuzioni diverse. Es4 Nella tabella sono riportate le distribuzioni di frequenze del carattere “Numero di figli” per due collettivi di famiglie
▸ baffo inferiore A e B coincidono ▸ no outlier in A e B ▸ Q1 in A = Q1 in B; Me in A = Me in B; Q3 sono diversi in A e B ▸ L’intervallo centrale in A è molto più concentrato attorno alla mediana (scatola non ampia), mentre in B i valori sono un sparsi (scatola ampia) VARIANZA → Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Proviamo a utilizzare la media per caratterizzare il centro della distribuzione. Possiamo costruire delle distanze tra le osservazioni e il centro della distribuzione rappresentata dalla media aritmetica. La distanza che possiamo prendere ci può essere data dallo scarto al quadrato , ovvero la differenza tra le osservazioni e la media aritmetica. Calcoliamo tutti gli scarti e poi li eleviamo al quadrato → (xi − M)^2. Perché prendiamo il quadrato? Perché ha la caratteristica di enfatizzare le distanze grandi e minimizzare le distanze piccole: se questa differenza è grande, elevandola al quadrato sarà ancora più grande; se al contrario sarà piccolo, al quadrato sarà ancora più piccolo ( 10^2 = 100 ; 0.1^2 = 0.01.). (distribuzioni unitarie) → Dobbiamo calcolare la media aritmetica di tutti gli scarti e l’indice che ne viene fuori è la VARIANZA , ovvero la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica. Calcoliamo lo scarto al quadrato e una volta fatti tutti li sommiamo e il risultato lo dividiamo per il numero di osservazioni. Es1 (distribuzioni unitarie) varianza per 5 osservazioni, la media aritmetica è M = 2.8: 𝜎^2 = 36.8 / 5 = 7.36 → VARIANZA Il fatto che la media si collochi al centro indica che, quando calcolo gli scarti, avrò degli scarti negativi e positivi. Quando calcolo lo scarto tra le osservazioni più piccole della media e la media stessa, otterrò un valore negativo e, al contrario con osservazioni più grandi, otterrò valori positivi. Per calcolare la varianza, ho bisogno degli scarti al quadrato e questo comporta che se ho gli scarti negativi, al quadrato li avrò in positivo e se positivi, rimangono positivi. Per definizione, la varianza è sempre non negativa, ovvero 0 o >0. *Se è negativa, ho sbagliato. (distribuzione di frequenza) → La varianza è la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica per la frequenza. Calcolo gli scarti al quadrato e moltiplico ogni scarto al quadrato per la frequenza assoluta, sommo i prodotti e il totale lo divido per il numero di osservazioni. Stesso procedimento, ma ho le frequenze e devo moltiplicarle. In primis devo sempre calcolare la media aritmetica Es2 ore di sonno per notte, le osservazioni sono n = 80, la media aritmetica è M = 7. 𝜎^2 = 57.2 / 80 = 0.715 → VARIANZA