






Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Definizione del concetto di statistica, unità e collettivi statistici, caratteri e modalità (variabili statistiche), distribuzioni di frequenze, calcolo della media, moda e mediana, calcolo della varianza e dello scarto quadratico medio
Tipologia: Dispense
1 / 11
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







La statistica studia i fenomeni collettivi da un punto di vista quantitativo. Un fenomeno collettivo riguarda più soggetti, che chiamiamo unità statistiche (è un termine generico, non riguarda per forza le persone. La statistica potrebbe studiare un fenomeno che riguarda animali o oggetti, come i beni culturali e i musei). Da questi studi che conduciamo, vogliamo tirare fuori una quantità, una valutazione numerica (perciò analisi quantitativa). La statistica è la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dati. Le analisi qualitative non fanno parte della statistica, ma della sociologia. Una qualità, però, posso analizzarla quantitativamente: analizzo, ad esempio, tutti i numeri delle persone che hanno una determinata caratteristica (come il colore dei capelli).
1. UNITA’ STATISTICHE E COLLETTIVI STATISTICI La generica unità statistica la indichiamo con “n” e la identifichiamo con “i” che assume il numero che specifica una data unità statistica: ni – i = 1 (u indica l’insieme generico, come la classe, mentre la “i” quella specifica, come lo specifico studente.) Le unità statistiche si differenziano in:
Giorgio u1; Camilla u Tutti insieme formano la popolazione e il collettivo di riferimento. Tutte le informazioni sono un carattere statistico. Le modalità sono le differenze dei caratteri tra le persone, come Giorgio pesa 79kg mentre Camilla 53kg e così via. Quando sto valutando dei dati, è fondamentale fare in modo che le manifestazioni del carattere statistico siano esaustive , ossia devono rappresentare tutti i possibili modi di essere del carattere. Inoltre, devono essere anche non sovrapposte , nel senso che ogni unità statistica deve potersi associare ad una sola manifestazione del carattere. In caso diverso, metto “altro”.
3. TIPI DI CARATTERI E MISURAZIONE DEI CARATTERI (le cosiddette VARIABILI STATISTICHE ) QUALITATIVI/E : hanno come modalità le espressioni verbali. Possono essere a loro volta:
n 9 LL n 10 LS Dalle frequenze assolute (6+4=10) che vengono indicate con “n1”, posso trarre le frequenze relative , andando a dividere le frequenze assolute per la numerosità del collettivo (6/10=0.6; 4/10=0.4). In questo caso, la somma N delle frequenze relative è
Possiamo raggruppare anche le intensità di frequenza. È data dalla frequenza della classe diviso l’ampiezza della classe. Apparentemente la classe 3 sembra che abbia la classe maggiore in termini di frequenze (se le guardo, 10, 10 e 15), ma se vado a calcolare il risultato sarà diverso in termini di densità, cioè l’intervallo quanto è La DENSITA’ DI FREQUENZA si indica con il simbolo “ hi ”. La FORMULA PER CALCOLARE L’INTENSITA’ DI FREQUENZA è: hi =
AD ESEMPIO. Se: X frequenz a Classe 1 15 |---|25 10 Classe 2
Classe 3 40 ---| 55 15
ampio, verifico che la classe 1 e la classe 3 hanno lol stesso risultato e in termini di densità hanno la stessa cosa nel momento in cui calcolo le frequenze assolute. Il prezzo di 1kg di pane in euro è una variabile quantitativa continua (teoricamente i prezzi cambiano). Il reddito familiare è quantitativo continuo. Se prendo il reddito e lo suddivido in classi, che tipo di variabile ottengo? Diventa qualitativa ordinale. Le ore di studio al giorno sono quantitative discrete (ore compiute) è diverso dal tempo di studio dedicato al giorno è quantitativa continua. L’attività lavorativa è qualitativa disconnessa. Il grado di soddisfazione del cliente è qualitativo ordinale (va da per niente a estremamente soddisfatto). Colore degli occhi qualitativa disconnessa.
6. SPIEGAZIONE E PROPRIETA’ DELLA MEDIA ARITMETICA (è un indice statistico di posizione – o di tendenza centrale, insieme alla MODA e alla MEDIANA) La media aritmetica è un indice di centralità, che sintetizza i dati efficacemente. Si calcola con la somma dei valori delle frequenze associate. La media è sempre compresa tra il minimo e il massimo dei valori. (proprietà della media aritmetica). Se vado a fare la somma degli scarti della media (l’età di ciascuno meno la media generale. lo scarto è la differenza tra la media e la mia età effettiva , la modalità della variabile della singola unità statistica. La somma degli scarti è sempre 0.). lo scarto può avere sia valore positivo che negativo. Se li vado a sommare, si compensano tra loro e fa 0. Si dice che la media è il baricentro , punto di bilanciamento dei valori. Se abbiamo la media di X, basta che sappiamo quanto valgono a e b (valore che abbiamo sommato). Si chiama trasformazione lineare, poiché rappresenta l’equazione di una retta. la media è il valore più vicino alla somma degli scarti al quadrato. Il vero DIFETTO della media aritmetica sono i dati anomali , valori estremamente bassi o estremamente alti. Nel momento in cui li troviamo nel calcolo della media, la influenzano. Quindi la media non resiste alla presenza di dati anomali. Questi dati anomali spesso sono frutto di errori di calcolo (valori errati); altre volte invece certi dati di loro natura presentano valori tra loro differenti. In presenza di dati anomali, la media aritmetica perde la sua caratteristica principale di essere un valore sintetico che rappresenta l’insieme dei dati e perde di efficacia rispetto al suo scopo per cui viene calcolata. RIMEDI ALLA SCARSA ROBUSTEZZA DELLA MEDIA: si può calcolare la media troncata , cioè nell’ordinare i dati dal più piccolo al più grande, successivamente elimino una percentuale dei valori più bassi e una percentuale dei valori più alti. Un’altra possibilità è calcolare la media secondo Winsor , in cui dice che, per avere lo stesso 40 osservazioni e non scendere a 36 nella media troncata (eliminando valori più bassi e più alti), sostituisco le prime due con la prima utile (invece di 120 e 200, metto 74). Con questo metodo, c’è una certa differenza rispetto a quella originale. Tuttavia, è irrilevante usare l’una o l’altra. La MODA è la tendenza più popolare, che si presenta più frequentemente. Identifica l’intera CLASSE (vedere foto). È la modalità della variabile X a cui corrisponde la massima frequenza, assoluta o relativa. Si calcola, quindi, a partire dalle frequenze.
Potremmo pensare di andare a sommare gli scarti e dividerli per il loro numero. Purtroppo, però, la somma degli scarti “semplici” dalla media aritmetica è 0. Questo dipende dal fatto che la media ha una natura di balance point. È quel valore, sostituito a tutti i valori, che lascia invariato il totale. Ad esempio, se io ho 100 euro e ne cedo 50 alla persona a me a fianco, mi restano 50. Se li vado a sommare, avrò sempre 100 euro. Quindi, in questo caso, la media è quel valore che sostituito a tutti i valori, il totale rimane invariato. Quando vado a fare questi scarti, succede che avrò sia valori positivi che negativi e facendo la media, questi valori tra loro si compensano e andranno a fare 0. LA VARIANZA (la media degli scarti al quadrato) Non possiamo considerare, per andare a effettuare questa sintesi, gli scarti semplici. Allora, per eliminare il fatto che la somma degli scarti faccia 0, si va ad elevarli al quadrato. Si fa la somma di ogni valore, meno la media aritmetica al quadrato e li divido per n. Nel momento in cui si elevano al quadrato, gli scarti negativi diventano tutti positivi ed elimino il
problema che la loro somma fa zero. Questo procedimento si chiama varianza e viene calcolata con la media aritmetica. Qual è il problema di questo indicatore? Cm al quadrato non misurano la caratteristica di una persona, bensì di una superficie, quindi dell’area. Il quadrato non ha niente a che vedere con la variabilità del fenomeno. Si fa la radice quadrata della varianza: il sigma si chiama scarto quadratico medio (mi dice quanto mi discosto in media dalla media). Questo è espresso nella stessa unità di misura della variabile x. Cosa succede quando abbiamo una distribuzione di frequenze? Cioè, abbiamo modalità distinte (k). Se devo calcolare la varianza, vado a considerare gli scarti al quadrato e devo moltiplicare per la frequenza. (esempio foto screenshot) ESEMPIO DI COME SI CALCOLA LA VARIANZA immaginiamo che: 1/5 (1+2+3+4+5) = 1/5 x 15 = 15/5 = 3 Calcolare gli scarti semplici 1/5 (1-3) ;(2-3) ;(3-3) ;(4-3) ;(5-3) = 0 Elevarli al quadrato 1/5 (1-3)2 + (2-3)2 + (3-3)2 + (4-3)2 + (5-3)2 = 4+1+0+1+ = 10/5 = 2 Lo scarto quadratico medio è la radice della varianza, quindi di 2 Calcolare la varianza nello scarto quadratico medio nella distribuzione unitaria in cui abbiamo singoli valori assunti dalle unità statistica è un’operazione abbastanza semplice. Non bisogna dimenticarsi delle frequenze nel calcolo della media e quando andiamo a considerare gli scarti quadratici. Più è grande la varianza, più è variabile il fenomeno. Il valore più piccolo che può assumere è zero, ma quello più grande non ha limite: non esiste l’estremo superiore. Non so quanto vale fino a quando non la calcolo. CONFRONTARE LA VARIABILITA’ DI DUE FENOMENI ESPRESSI IN DIVERSE UNITA’ DI MISURA Se prendo in considerazione due variabili, qual è la più grande? Quando devo fare un confronto, devo usare un coefficiente di variazione C.V. = è dato dallo scarto quadratico medio diviso il valore assoluto (due barrette laterali) della media aritmetica che rende qualunque unità positiva. Il coefficiente di variazione prende il nome di NUMERO PURO O ADIMENSIONALE (privo di unità di misura, cioè numero puro). Siccome rapporta la variabilità del fenomeno, alla fine diventa un numero puro privo di unità di misura e lo posso confrontare con un altro numero puro. Ad esempio, se volessi calcolare la variabilità dell’altezza con la variabilità del peso, dovrei andare a confrontare non le varianze o gli scarti quadratici medi, ma dovrei andare ad utilizzare il coefficiente di variazione.
Che vuol dire legame? Che al muoversi di una, si muove anche l’altra variabile. Quindi vanno congiuntamente. Per studiarle insieme, devo vedere come co- variano, cioè come si muovono insieme. COME SI CALCOLA IL COEFFICIENTE DI CORRELAZIONE? Anche in questo caso si tratta di un indice puro e adimensionale, cioè privo di unità di misura. Devo calcolare gli scarti della variabile x dalla sua media, la stessa cosa con y, poi Andiamola a scomporre: Numeratore della formula (prende il nome di COVARIANZA) è frutto del prodotto degli scarti della x dalla sua media moltiplicato per lo scarto della y dalla sua media, poi li vado a sommare. Ci dice come ogni variabile si comporta rispetto alla sua media. Ci fa capire anche se gli scarti sono negativi o positivi dal segno , perciò ci dice come co-variano. Il legame è positivo se il numeratore è positivo, viceversa è negativo. Se variano nella stessa direzione, il prodotto degli scostamenti è positivo. Il coefficiente di correlazione è: