










Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il documento contiene appunti sulla statistica univariata presi a lezione della professoressa Roberta Paroli.
Tipologia: Appunti
1 / 18
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!











La Statistica base è l’analisi dei dati. Si basa sulla matematica. Gli ambiti applicativi sono vari e molto diversificati. Lettura vs Interpretazione dei risultati: La Lettura deve essere Oggettiva, l’ Interpretazione può essere diversa, se ci sono punti di partenza da cui ci si muove. Statistica Univariata: studia determinate caratteristiche dei dati, ovvero gli indici di posizione, indici di forma e variabilità/mutabilità della statistica Statistica Bivariata: studia se esistono delle connessioni tra due serie di dati Branche della Statistica
Caratteri : proprietà dell’unità sperimentale (ciò che è sulle colonne nel DB) Modalità del Carattere : modo in cui esso si manifesta, Attributi (qualitative), Misure (quantitative) Tipi di Caratteri → Qualitativi/Categorici : possono essere Sconnessi (le loro modalità non hanno un ordinamento intrinseco, hanno una scala nominale (es Genere Maschio o Femmina)) oppure Ordinati (le loro modalità possono essere ordinati intrinsecamente, hanno una scala ordinale (es. titolo di studio, grado di vendibilità, risultato di un esame)). → Quantitativi/Metrici : possono essere Discreti (possono assumere un numero finito di modalità; i numeri sono interi) o Continui (possono assumere un numero infinito di modalità; i numeri sono reali).
Si occupa di tutti gli strumenti descrittivi per l’analisi di un solo carattere estratto dalla matrice dei dati (una sola colonna).
E’ costituita dall’unione di due caratteri, con lo scopo di trovare se esistono delle relazioni tra questi due caratteri. Prima colonna a sinistra: tutte le possibili modalità del carattere X Prima riga in alto: tutte le possibili modalità del carattere Y All’interno della tabella ci sono le frequenze congiunte (nij) : definiscono il numero unità statistiche che possiedono la modalità xi del carattere X e la modalità yj del carattere Y. Il totale di tutte le frequenze congiunte risulta n (totale elementi). L’ultima riga in basso rappresenta le somme di colonna, ovvero le frequenze Marginali di Y (n.j) L’ultima colonna a destra rappresenta le somme di riga, ovvero le frequenze Marginali di X (ni.) La somma dei marginali di X = n; analogamente la somma dei marginali di Y = n. All’interno della colonna troviamo le frequenze condizionate : definisce il numero di unità statistiche che possiedono le modalità di un carattere X fissata una modalità di Y (oppure le modalità di Y fissata una modalità di X). Graficamente sono le singole righe/colonne a seconda della modalità che si fissa. Si indica con X|y (per le modalità di X fissato Y) e con Y|x (per le modalità di Y fissato X).
Lo scopo dell’analisi descrittiva dei dati è quella di costruire la distribuzione di frequenza e studiarne successivamente gli aspetti. Questi aspetti sono: posizione, variabilità e forma. Gli Indici di Posizioni sono indici sintetici che evidenziano le caratteristiche essenziali della distribuzione del carattere. Tramite essi è possibile confrontare statistiche che rappresentano i livelli/valori tipici di due diverse distribuzioni. E’ una funzione di dati α(X) che gode di alcune proprietà: 1- Internalità (condizione di Cauchy): l’indice di posizione deve essere compreso tra il minimo e il massimo dei dati osservati 2- Monotonicità : se due variabili statistiche (caratteri x e y) hanno modalità minori o uguali una dell’altra allora la stessa relazione vale per i rispettivi indici di posizione. 3- Moltiplicatività (cambiamento di unità di misura ): se tutte le modalità di una variabile statistica sono moltiplicate per una costante, allora anche l’indice di posizione della nuova variabile viene moltiplicato per la stessa costante.
NB: la proprietà 1- è irrinunciabile. Le proprietà 2- e 3- potrebbero non essere verificate: in tal caso avremmo gli indici di posizione in senso lato. Se invece valgono tutte e tre le proprietà avremo gli indici di posizione in senso stretto. → Indici di posizione non analitici : Non hanno una formula matematica, hanno una definizione che è fondamentale per individuarli. (Moda, Percentili, Mediana) → Indici di posizione analitici : hanno una formula matematica che permette di individuarli. (Medie potenziate/analitiche).
E’ la modalità/valore che ha la massima frequenza → Mo (X) Ha delle modalità di calcolo differenti a seconda della tipologia di carattere.
Es.1 n→ dispari n° difetti xi ni Ni 0 2 2 1 2 4 2 1 5 → con n=9, dispari quindi Posizione centrale= n+1/2 = 5 3 3 8 0-0-1-1- 2 -3-3-3- 4 1 9 Me= n°difetti in corrispondenza di 5= 2 Osservando le Frequenze cumulate e confrontando il valore della posizione centrale, posso facilmente individuare la Mediana. Sulla colonna delle Frequenze cumulate si individua la prima frequenza cumulata maggiore o uguale alla posizione cercata. Es.2 n → pari n° difetti xi ni Ni 0 2 2 1 7 9 → PC1=16/2= 2 4 13 PC2= 8+1= 9 3 2 15 9 è la prima frequenza cumulata > di 8 → Me(8)= 4 1 16 9 è uguale alla PC → Me(9)= 1 Quindi Me(x) = (x8+x9)/2= 1 Es.3 n pari – carattere qualitativo giudizio xi ni Ni Grav. Insuff 2 2 Insuff. 6 8 → PC1= 16/2= 8 Suff. 5 13 PC2= 9 Buono 2 15 8 è uguale alla PC1→ Me(8)= Insuff Ottimo 1 16 13 è la prima frequenza cumulata > di 9→ Me(9)=Suff Quindi ME= Insuff e Suff.
Frequenze assolute Si individua un intervallo mediano per cui tutti i suoi fattori soddisfano la definizione; successivamente si calcola la mediana attraverso questa formula:
Dove: h (i-1)→ limite inferiore della classe mediana N (i-1)→ frequenza cumulata della classe precedente alla classe mediana P→ posizione mediana (se n dispari=(n+1)/2; se n pari=n/2 o n/2+1) ai→ ampiezza classe mediana ni→ frequenza assoluta classe mediana Es.1 X= voto verifica, carattere quantitativo continuo xi ni Ni 0-|4 4 4 n=19, dispari → (n+1)/2=10 → classe mediana= 4-| 4-|6 8 12 Me(x)= 4+ (10-4)x2/8= 5. 6-|7 5 17 7-|10 2 19 Es.2 X= altezza, carattere quantitativo continuo xi ni Ni 7.5-|9.5 40 40 n=330, pari → PC1= n/2=165, PC2= n/2+1= 9.5-|11.5 25 65 Classe med.1=Classe med.2= 11.5-|15. 11.5-|15.5 120 185 Me1= 11.5+ (165-65)x4/120= 14. 15.5-|21.5 145 330 Me2= 11.5+ (166-65)x4/120= 14. MEDIANA= (me1+Me2)/2= 14.
Caratteri qualitativi e quantitativi discreti: la mediana è la modalità cui corrisponde la prima frequenza relativa cumulata maggiore o uguale a 0. Caratteri quantitativi suddivisi in classi: individuato l’intervallo mediano (cioè la lasse cui corrisponde la prima frequenza relativa cumulata maggiore o uguale a 0,5) la mediana si calcola con la formula:
Es.1 X= altezza, carattere quantitativo continuo xi ni Ni fi Fi 7.5-|9.5 40 40 0.121 0.121 La classe la cui frequenza cumulata relativa ha 9.5-|11.5 25 65 0.076 0.197 un valore maggiore o uguale a 0.5 è 11.5-|15. 11.5-|15.5 120 185 0.345 0.561 |
k
i = 1
( 2 )
n k
i = 1
ni
2)fare l’inversa: Media Geometrica: 879.7865 /330= 2.666 → e2.666= 14.
Ogni funzione μ(r) delle medie potenziate:
(r=1) Proprietà di tipo matematico
K
i = 1
k
i = 1
es.1 : colore di capelli di 3 Gruppi Colore G1 G2 G nero 0.10 0.30 0. castano 0.25 0.30 0. biondo 0.60 0.30 0. altro 0.05 0.10 0. E (G1)= 1- (0.1^2 +0.25^2 +0.6^2 +0.05^2 )= 0. E (G2)= 1- (0.3^2 +0.3^2 +0.3^2 +0.2^2 )= 0. E (G3)= 1- (0.7^2 +0.2^2 +0.05^2 +0.05^2 )= 0. → Il G2 è il gruppo con mutabilità più alta, mentre il G3 è il gruppo con mutabilità più bassa. Indice Normalizzato: È un indice riferito ai suoi valori minimi e massimi compreso tra 0 e 1; Serve per fare confronti tra caratteri diversi o stessi ma misurati con unità di misura diversi; si calcola →IN= I /I max Indice di minima mutabilità: si ha quando ad una sola modalità corrisponde tutta la frequenza, tutte le altre modalità hanno frequenza nulla. E min= 0 Indice di massima mutabilità: si ha quando tutte le modalità hanno la stessa frequenza. E max= 1- 1/k (dove k è il numero delle modalità)
k
i = 1
2
Quindi Indice di Gini normalizzato Che sarà compreso tra 0 e 1: se è molto vicino a 1, il carattere avrà alta mutabilità; se è molto vicino a 0, il carattere avrà poca mutabilità.
Indici semplici (per caratteri quantitativi) Range: differenza tra il valore massimo e il valore minimo osservati ( xmax -xmin) Differenza interquartile: differenza tra terzo quartile e primo quartile (Q3-Q1) Esistono degli Indici più elaborati; Esistono due impostazioni basate sul differente modo del calcolo di tali distanze:
r=1 → da mediana r=2 → da media
1 K
k
i = 1
r
1 r
k
i = 1
k
i = 1
2
1 2
2
2
I dati elementari sono classificati in H sottogruppi. Per ciascuno di essi si conosce la numerosità, la media e la varianza.
50 5 40 3 200 1000 9 360 200 800 4360 700 → Media generale= 800 /200= → Varianza Between= varianza delle medie dei gruppi= 4360 /200- (4)^2 = 5. → Varianza Within= media delle varianze dei gruppi= 700 /200=3. → Varianza totale= Varianza B+ Varianza W= 5.8+3.5= 9.
2
2
h
j = 1 nj
i = 1
2
h
j = 1
2
Sono definiti tramite degli indici che possono inglobare tutti gli indici che abbiamo già visto, i Momenti , e si possono calcolare solo per i caratteri quantitativi. → Momenti Centrali : la media degli scostamenti delle differenze di x dalla propria media elevato ad s≥ 1 → Momenti dall’Origine : la media degli scarti di x da 0 (medie delle potenze di x), elevati alla s(≥1) Casi particolari: S=1 → il momento centrale è = il momento dall’origine è la Media aritmetica di x S=2→ il momento centrale è la varianza il momento dall’origine è la meda di X^2.
Una distribuzione statistica è simmetrica quando esiste un valore centrale (c) tale che esistono due valori a destra (xi=c-K) e a sinistra di c (xj= c+K), uno più grande e uno più piccolo, che hanno la stessa frequenza f(xi)=f(xj) es. xi ni xi ni 1 10 1 10 2 20 → è simmetrica 2 5 → non è simmetrica 3 10 3 8 Proprietà di una distribuzione simmetrica unimodale (se c’è una sola moda):
Significa che la distribuzione di frequenza ha molte più unità statistiche che hanno valori piccoli. Moda<Mediana<μ Asimmetria Negativa (a destra) Significa che la distribuzione di frequenza ha molte più unità statistiche che hanno valori grandi. μ<Mediana<Moda
s
s