













































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
DISPENSA MODULO 1 STATISTICA DI PAROLI
Tipologia: Dispense
1 / 53
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!














































STATISTICA
Ogni giorno vengono rilasciati tantissimi dati che sono fondamentali per risolvere i problemi: a tal proposito rivestono un ruolo importante soggetti che hanno una certa sensibilità all’approccio quantitativo. Per capire quanta e come questa mole di dati si trasforma veramente in informazione bisogna studiare la statistica-->comprendere la statistica aiuta a prendere decisioni in modo efficace.
Definizione: in origine, con statistica si intendeva la raccolta di dati economico- demografici di vitale interesse per lo stato. Da allora la statistica si è sviluppata come metodo scientifico d’analisi applicato a tutte le scienze sociali e naturali.
Data base = matrice dei dati: si tratta di una tabella formata dalle osservazioni di tutti i dati rilevati per ogni elemento oggetto dell’indagine e si compone di:
Caratteri o variabili descrivono le proprietà dell’unità sperimentale, ossia le caratteristiche che si intende rilevare su ciascuna unità statistica. I caratteri possono essere:
Frequenza cumulata : numero/frazione di unità statistiche che presentano una data modalità “minore o uguale” alla corrente (Ni o Fi). Ha senso calcolare le frequenze cumulate solo se il carattere è qualitativo ordinabile e quantitativo (discreti e continui), non per caratteri sconnessi!. Ni Frequenze assolute cumulate : somma di successive frequenze assolute
Se il carattere quantitativo (continuo o discreto) presenta molte modalità distinte, può essere conveniente accorpare le modalità in classi, ossia costruzione di intervalli di valori chiusi o aperti (si sintetizzano i dati). Noi consideriamo intervalli chiusi a destra, ovvero con estremo superiore incluso (es. 14-18 con 14 escluso e 18 incluso). Le classi devono essere
dell’intervallo
si chiama
Carattere quantitativo in classi con frequenze cumulate: grafico sempre crescente ma non più a gradini bensì continuo (ad S- detta anche funzione di ripartizione) asse x: classi asse y: frequenze cumulate può essere letto in 2 modi: data la posizione posso ricavare l’anno di nascita, e viceversa. TABELLA DI FREQUENZA A DOPPIA ENTRATA Serve ad analizzare 2 caratteri insieme: frequenze congiunte: quante volte si verifica la modalità i-esima del carattere x e j- esima del carattere y
Esempio 25 soggetti intervistati 2 variabili: X = studio; Y = reddito Prendo soggetti scuola elementare, e guardo chi ha le varie modalità di reddito 20-40, poi sommo e ottengo 3 (soggetti totali che hanno la scuola elementare e un reddito 20-40). Frequenza marginale X e Y : dalla tabella di sopra è possibile ricavare la tabella di frequenza dei due caratteri considerati separatamente Frequenze relative condizionate : mi interessa solo il reddito di quelli che hanno la scuola elementare (variabile X), quindi mi focalizzo su una colonna condizionata dalla riga. La versione condizionata è Y|X = E
Indici tipici
Osservazioni La moda è l’unico indice di posizione che può essere calcolato per tutti i tipi di carattere La moda è la modalità a cui è associata la massima frequenza e non il valore massimo. Dato (6,1,1,1,3,4) la moda non è il valore massimo fra le modalità (6) ma è la modalità cui è associata la massima frequenza. Avremo quindi che la moda è 1 in quando ha una max ni=3. La moda è una modalità non una frequenza La moda è indice di posizione in senso lato: non vale la monotonicità. Le osservazioni di Y sono maggiori o uguali rispetto a quelle di X, ma è maggiore la moda di X: per x la moda è 3; per Y la moda è 2. Viene meno la monotonicità. unico indice utilizzabile per caratteri qualitativi sconnessi si può calcolare anche con le frequenze relative (o assolute, è uguale) la moda può non essere unica (distribuzione plurimodale o senza moda: caratteri che presentano più di una modalità con massima frequenza). 3 gruppi di studenti Carattere qualitativo: colore dei capelli (biondo, castano, nero e altro). Moda G1: biondo; moda G3: nero Moda G2: nero, moro, biondo: quindi è plurimodale (o senza moda). MEDIANA E PERCENTILI MEDIANA, esempio di percentile: modalità o valore che occupa la posizione centrale in una sequenza ordinata di tutti i dati. La mediana è quindi la modalità che lascia il 50% delle unità a sinistra (aventi un valore inferiore o uguale alla mediana) e il resto del 50% delle osservazioni a destra (aventi un valore maggiore o uguali alla mediana). La mediana si può chiamare anche secondo quartile ed è indicata con Me o Q2. Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili. Calcolo : ordino le osservazioni in ordine crescente e individuo quella che sta nella posizione centrale. Si utilizzano le frequenze relative cumulate.
Se c’è la frequenza: moltiplico le modalità (x) per la propria frequenza, e divido per il numero totale delle frequenze. (Posso usare frequenze assolute o relative). Esempio 1: somma diviso il numero di osservazioni: Voti di uno studente U = 18 + 21 + 26 + 27 + 25 + 28 / 6 = 24, Esempio 2: carattere quantitativo discreto, con la presenza della frequenza Sommo (20 x 1) + (25 x 2) + (25 x 3 )..= 265 / 100 = 2,65. (Calcolo con le frequenze assolute) Sommo (0,2 x 1) + (0,25 x 2) + (0,25 x 3)..= 2,65/1 = 2, (Calcolo con le frequenze relative)
Soddisfa anche proprietà di Cauchy. Esempio 3: carattere quantitativo in classi Si calcolano i valori centrali della classe Xi = 7,5 + 9,5/2. Poi moltiplico Xi per ni; sommo tutti i valori e poi divido tutto per il numero delle frequenze totali. Anche in questo caso posso utilizzare le frequenze relative (sommatoria di xi fi). Proprietà della media aritmetica La media è l’indice di posizione più utilizzato Operatore media aritmetica : esplicito la variabile rispetto a cui sto calcolano la media. Se calcolo la media di x, non scrivo u, ma scrivo M(x). Dunque associa ad ogni variabile X la sua media. Nel mondo anglosassone è indicato con E(X). Proprietà dell’operatore di media aritmetica:
Per caratteri qualitativi ordinabili: si possono calcolare la moda e la mediana Per caratteri quantitativi discreti/continui si possono calcolare TUTTI gli indici (moda, mediana, media aritmetica) CAPITOLO 3
Quando si studia la distribuzione, spesso utilizzare un indice di posizione non è sufficiente, perché ci possono essere distribuzioni con lo stesso valore di indice di posizione ma un comportamento totalmente diverso. Esempio: Due caratteri x e y che rappresentano le votazioni di due studenti, relative a 25 esami sostenuti. Primo studente: 12 volte 18, 1 volta 24, 12 volte 30. Secondo studente: 25 volte 24. La media, per entrambi, è 24: la mediana è sempre 24. Ma il comportamento, l’impegno dei due studenti è completamente diverso, in quanto il secondo ha una prestazione costante a differenza del primo. Per poter cogliere questo aspetto, ci sono gli indicatori di variabilità. Il primo soggetto presenterà maggior variabilità del secondo che ha variabilità nulla in quanto ha preso sempre lo stesso voto. Variabilità : attitudine del carattere ad assumere modalità diverse. Si calcola in modo diverso a seconda della tipologia del carattere Indici di mutabilità/eterogeneità se si tratta di caratteri qualitativi Indici di variabilità/dispersione per caratteri quantitativi La distribuzione Z è più variabile di Y in quanto i dati di Z sono molto lontani tra loro, mentre per Y i dati sono concentrati tutti sulla media. Maggiore sarà la distanza delle osservazioni dalla propria media, maggiore sarà la variabilità. Proprietà generali
particolare è nullo, V(X)=0 se e solo se tutte le modalità della distribuzione sono uguali—>si parla in tal caso di distribuzione degenere, ossia tutte le unità statistiche presentano stessa modalità del carattere.
della distribuzione. Prendo due variabili, maggiori è la diversità, maggiore è il valore della variabilità.
sempre V(X). In altri termini non cambia se a ciascun termine della distribuzione si aggiunge una quantità costante, negativa o positiva. Indici di mutabilità / eterogeneità (caratteri qualitativi, sconnessi e ordinati) Si distinguono in Indice di Eterogeneità di Gini e Indice di Eterogeneità di Gini normalizzato
3 gruppi; la variabile è il colore dei capelli. Quale gruppo è più eterogeneo? Nel gruppo 3, il 70% ha colore nero, cioè ci sono molti soggetti con lo stesso colore, quindi avremo minore variabilità. Nel gruppo 2 invece il 30% neri, 30% castani.. si ha cioè la tendenza ad assumere modalità diverse, quindi c’è maggiore variabilità. NB: lo studio delle mutabilità si basa sulle frequenze relative. Indice di eterogeneità di Gini: Sommatoria del prodotto tra (frequenze relative) e (1-frequenze relative ); se raccolgo posso scriverla come: 1 - (somma delle frequenze relative al quadrato), al quadrato perché altimetri la somma farebbe 1) Facendo le formule: Eterogeneità del gruppo 2 (0,7) è maggiore del gruppo 3 e del gruppo 1.
Ho tutte frequenze relative uguali a 1/k; k=4 nell’esempio ed è il numero delle modalità. L’indice di Eterogeneità di Gini assume il suo valore massimo, ovvero 1-1/k (con k numero delle modalità, 4 in questo caso). Quindi 1- 1/4 = 0, 2.Indice di Eterogeneità di Gini normalizzato (EN) Indice normalizzato : Per il gruppo 1 Si calcola indice E, e poi si divide per il suo valore massimo. L’indice normalizzato assume valore di 0,753 ed essendo più vicino ad 1 siamo in una situazione di alta mutabilità. Se fosse più vicino allo 0, saremmo in una situazione di minima mutabilità. In questo caso è l’indice E diviso il suo valore massimo. Indici di variabilità/dispersione per carattere quantitativi Tali indici si basano sul concetto di distanza: Le distanze di ogni modalità da tutte le altre (ho misurato altezza X e si osserva quanto è distante da quella degli altri) Le distanze di ogni modalità ed un centro (es la media aritmetica, quanto l’altezza di X dista dalla media aritmetica). Più le modalità sono lontane dalla media aritmetica, più la variabilità aumenta. Gli indicatori per misurare la variabilità sono diversi:
Range: differenza tra due modalità (valore massimo - valore minimo, come altezza più alta e altezza più bassa). Maggiore è la differenza tra loro, maggiore è la variabilità. Differenza interquartile : (Q3-Q1), cioè la differenza tra il terzo e il primo quartile. Maggiore è la differenza tra loro, maggiore è la variabilità
oppure con sigma quadro. Valuta la distanza delle osservazioni dalla media. 2 formule
1. La varianza è la media delle distanze al quadrato tra le osservazioni e la media aritmetica. Faccio la media di x - u, al quadrato. Ovviamente visto che c’è un quadrato, la varianza assume valore o maggiore di zero. 2. Formula operativa della varianza : la varianza si calcola facendo la differenza tra la media delle x al quadrato, e il quadrato della media