Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


APPUNTI Statistica Univariata, Appunti di Statistica

Il documento contiene appunti sulla statistica univariata presi a lezione della professoressa Roberta Paroli.

Tipologia: Appunti

2019/2020

Caricato il 13/01/2022

Alessia_Bignotti
Alessia_Bignotti 🇮🇹

4.2

(6)

19 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
La Statistica
La Statistica base è l’analisi dei dati. Si basa sulla matematica.
Gli ambiti applicativi sono vari e molto diversificati.
Lettura vs Interpretazione dei risultati: La Lettura deve essere Oggettiva, l’Interpretazione può
essere diversa, se ci sono punti di partenza da cui ci si muove.
Statistica Univariata: studia determinate caratteristiche dei dati, ovvero gli indici di posizione, indici
di forma e variabilità/mutabilità della statistica
Statistica Bivariata: studia se esistono delle connessioni tra due serie di dati
Branche della Statistica
- Statistica Descrittiva: descrizione e sintesi dei fenomeni osservati su un insieme di unità
attraverso indici e grafici. E’ basata sul concetto secondo il quale i dati che abbiamo a disposizione
sono gli unici che possiamo avere, senza fare ulteriori ricerche.
- Statistica Probabilistica: studio del meccanismo generatore delle realizzazioni campionarie.
Si vuole capire quali siano i campioni partendo dal modello teorico.
- Statistica Inferenziale: permette, avvalendosi di metodi probabilistici, di trarre conclusioni
generali su un universo a partire dall’esame di un campione di osservazioni.
Si vuole capire quali siano i modelli teorici partendo da un campione.
I dati in Probabilistica e Inferenziale sono “campioni”.
E’ possibile passare dal particolare al generale è necessario che il Campione sia rappresentativo,
ovvero che ci sia un legame di rappresentatività. Il Campione inoltre deve essere casuale, ovvero
che tutte le unità abbiano la stessa probabilità di entrare a far parte del campione. Se non rispettano
questi due elementi, si tratta di dati di carattere puramente Descrittivo, non Inferenziale.
I sondaggi sono TUTTI campioni NON casuali.
Fasi della Ricerca Statistica:
1. Definizione degli Obiettivi
2. Astrazione (individuazione delle variabili)
3. Individuazione della popolazione (o definizione del piano di campionamento)
4. Rilevazione (sperimentazione, questionari ecc)
5. Registrazione dati
6. Elaborazione dei dati (sintesi, interpretazione e inferenza)
Qualsiasi analisi dei dati presuppone che essi siano organizzati in modo che i risultati non siano
influenzati dalla cattiva costruzione del database. Bisogna verificare le fonti, la qualità e la
creazione della matrice dei dati. I Dati non corretti sono: Missing (ovvero i dati mancanti); Outlier
(dati anomali, dati che non c’entrano con la nostra serie di dati).
Data Base (Matrice dei Dati): è una tabella formata da righe e colonne in cui nelle righe sono
contenuti i dati, nelle colonne sono contenute le osservazioni dei dati.
Unità Statistiche o Sperimentali: supporto fisico/materiale su cui si manifesta il fenomeno
(ovvero l’elemento su cui svolgo l’indagine) (ciò che è sulle righe nel DB).
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica APPUNTI Statistica Univariata e più Appunti in PDF di Statistica solo su Docsity!

La Statistica

La Statistica base è l’analisi dei dati. Si basa sulla matematica. Gli ambiti applicativi sono vari e molto diversificati. Lettura vs Interpretazione dei risultati: La Lettura deve essere Oggettiva, l’ Interpretazione può essere diversa, se ci sono punti di partenza da cui ci si muove. Statistica Univariata: studia determinate caratteristiche dei dati, ovvero gli indici di posizione, indici di forma e variabilità/mutabilità della statistica Statistica Bivariata: studia se esistono delle connessioni tra due serie di dati Branche della Statistica

  • Statistica Descrittiva : descrizione e sintesi dei fenomeni osservati su un insieme di unità attraverso indici e grafici. E’ basata sul concetto secondo il quale i dati che abbiamo a disposizione sono gli unici che possiamo avere, senza fare ulteriori ricerche.
  • Statistica Probabilistica : studio del meccanismo generatore delle realizzazioni campionarie. Si vuole capire quali siano i campioni partendo dal modello teorico.
  • Statistica Inferenziale : permette, avvalendosi di metodi probabilistici, di trarre conclusioni generali su un universo a partire dall’esame di un campione di osservazioni. Si vuole capire quali siano i modelli teorici partendo da un campione. I dati in Probabilistica e Inferenziale sono “campioni”. E’ possibile passare dal particolare al generale è necessario che il Campione sia rappresentativo , ovvero che ci sia un legame di rappresentatività. Il Campione inoltre deve essere casuale , ovvero che tutte le unità abbiano la stessa probabilità di entrare a far parte del campione. Se non rispettano questi due elementi, si tratta di dati di carattere puramente Descrittivo, non Inferenziale. → I sondaggi sono TUTTI campioni NON casuali. Fasi della Ricerca Statistica :
    1. Definizione degli Obiettivi
    2. Astrazione (individuazione delle variabili)
    3. Individuazione della popolazione (o definizione del piano di campionamento)
    4. Rilevazione (sperimentazione, questionari ecc)
    5. Registrazione dati
    6. Elaborazione dei dati (sintesi, interpretazione e inferenza) → Qualsiasi analisi dei dati presuppone che essi siano organizzati in modo che i risultati non siano influenzati dalla cattiva costruzione del database. Bisogna verificare le fonti, la qualità e la creazione della matrice dei dati. I Dati non corretti sono: Missing (ovvero i dati mancanti); Outlier (dati anomali, dati che non c’entrano con la nostra serie di dati). Data Base (Matrice dei Dati) : è una tabella formata da righe e colonne in cui nelle righe sono contenuti i dati, nelle colonne sono contenute le osservazioni dei dati. Unità Statistiche o Sperimentali : supporto fisico/materiale su cui si manifesta il fenomeno (ovvero l’elemento su cui svolgo l’indagine) (ciò che è sulle righe nel DB).

Caratteri : proprietà dell’unità sperimentale (ciò che è sulle colonne nel DB) Modalità del Carattere : modo in cui esso si manifesta, Attributi (qualitative), Misure (quantitative) Tipi di CaratteriQualitativi/Categorici : possono essere Sconnessi (le loro modalità non hanno un ordinamento intrinseco, hanno una scala nominale (es Genere Maschio o Femmina)) oppure Ordinati (le loro modalità possono essere ordinati intrinsecamente, hanno una scala ordinale (es. titolo di studio, grado di vendibilità, risultato di un esame)). → Quantitativi/Metrici : possono essere Discreti (possono assumere un numero finito di modalità; i numeri sono interi) o Continui (possono assumere un numero infinito di modalità; i numeri sono reali).

Statistica Descrittiva Univariata

Si occupa di tutti gli strumenti descrittivi per l’analisi di un solo carattere estratto dalla matrice dei dati (una sola colonna).

  1. Distribuzioni di frequenza Sono dei prospetti sintetici delle nostre osservazioni. La tabella di frequenza si costruisce formando due colonne, la prima contiene tutte le modalità differenti osservate, in ordine crescente; la seconda contiene le frequenze. In fondo alle frequenze si inserisce n. Simbologia: Lettera maiuscola= carattere Lettera minuscola con pedice= le modalità del carattere (xi) | n con pedice= frequenze assolute (ni) | Il pedice va da 1 a K n= numero totale di unità statistiche (K è diverso da N) Le Frequenze possono essere di diverse tipologie:
  • Frequenza Assoluta → numero di unità statistiche che presentano una data modalità (ni). Sono dei numeri interi (compreso lo 0) La somma di tutte le frequenze assolute è = n
  • Frequenza Relativa →numero di unità statistiche sul totale che presentano una data modalità (fi) fi= ni/n ; Si crea una nuova colonna vicino alla colonna delle frequenze assolute. In fono ai dati si scrive il numero 1. Sono dei numeri compresi tra 0 e 1 La somma di tutte le frequenze relative è = 1 NB: si scrivono i numeri fino al terzo decimale
  • Frequenze Percentuali → si ottiene moltiplicando per 100 la frequenza relativa. Sono numeri compresi tra 0 e 100 con il simbolo %
  • Grafico delle Frequenze cumulate Grafico a gradini. Parte da zero fino a quando si giunge ad xiFi (oppure xiNi). I gradini saliranno fino a 1 (se fi) o fino ad n (se Ni), poi ci sarà una retta orizzontale all’infinito in corrispondenza di tale numero. asse x: xi (modalità); asse y: Ni o Fi

Tabella a doppia entrata

E’ costituita dall’unione di due caratteri, con lo scopo di trovare se esistono delle relazioni tra questi due caratteri. Prima colonna a sinistra: tutte le possibili modalità del carattere X Prima riga in alto: tutte le possibili modalità del carattere Y All’interno della tabella ci sono le frequenze congiunte (nij) : definiscono il numero unità statistiche che possiedono la modalità xi del carattere X e la modalità yj del carattere Y. Il totale di tutte le frequenze congiunte risulta n (totale elementi). L’ultima riga in basso rappresenta le somme di colonna, ovvero le frequenze Marginali di Y (n.j) L’ultima colonna a destra rappresenta le somme di riga, ovvero le frequenze Marginali di X (ni.) La somma dei marginali di X = n; analogamente la somma dei marginali di Y = n. All’interno della colonna troviamo le frequenze condizionate : definisce il numero di unità statistiche che possiedono le modalità di un carattere X fissata una modalità di Y (oppure le modalità di Y fissata una modalità di X). Graficamente sono le singole righe/colonne a seconda della modalità che si fissa. Si indica con X|y (per le modalità di X fissato Y) e con Y|x (per le modalità di Y fissato X).

Indici di Posizione

Lo scopo dell’analisi descrittiva dei dati è quella di costruire la distribuzione di frequenza e studiarne successivamente gli aspetti. Questi aspetti sono: posizione, variabilità e forma. Gli Indici di Posizioni sono indici sintetici che evidenziano le caratteristiche essenziali della distribuzione del carattere. Tramite essi è possibile confrontare statistiche che rappresentano i livelli/valori tipici di due diverse distribuzioni. E’ una funzione di dati α(X) che gode di alcune proprietà: 1- Internalità (condizione di Cauchy): l’indice di posizione deve essere compreso tra il minimo e il massimo dei dati osservati 2- Monotonicità : se due variabili statistiche (caratteri x e y) hanno modalità minori o uguali una dell’altra allora la stessa relazione vale per i rispettivi indici di posizione. 3- Moltiplicatività (cambiamento di unità di misura ): se tutte le modalità di una variabile statistica sono moltiplicate per una costante, allora anche l’indice di posizione della nuova variabile viene moltiplicato per la stessa costante.

NB: la proprietà 1- è irrinunciabile. Le proprietà 2- e 3- potrebbero non essere verificate: in tal caso avremmo gli indici di posizione in senso lato. Se invece valgono tutte e tre le proprietà avremo gli indici di posizione in senso stretto. → Indici di posizione non analitici : Non hanno una formula matematica, hanno una definizione che è fondamentale per individuarli. (Moda, Percentili, Mediana) → Indici di posizione analitici : hanno una formula matematica che permette di individuarli. (Medie potenziate/analitiche).

1. Moda

E’ la modalità/valore che ha la massima frequenza → Mo (X) Ha delle modalità di calcolo differenti a seconda della tipologia di carattere.

  • Per caratteri qualitativi e quantitativi discreti : valore che ha la massima frequenza Non servono calcoli, il Mo(x) è la modalità a cui corrisponde la massima frequenza (nella colonna delle frequenze ni la modalità che presenta il numero più alto). NB: la moda è il carattere (es. idoneo/difettoso ecc) non il numero a lui corrispondente.
  • Per caratteri quantitativi continui o quantitativi discreti ma suddivisi in classi (stessa ampiezza) : individuare la classe modale (ovvero la classe a cui corrisponde la massima frequenza); la moda è il valore centrale della classe modale. Es. xi ni 7-|9 4 9-|11 5 11-|13 15 → Max ni → Classe modale= 11-|13 → Mo(X)= (11+13)/2= 13-|15 14
  • Per caratteri quantitativi continui definiti da classi di differente ampiezza : individuare la classe modale (ovvero la classe a cui corrisponde la massima densità); la moda è il valore centrale della classe modale. Es. xi ni ai di 7.5-|9.5 40 2 20. 9.5-|11.5 25 2 12. 11.5-|15.5 120 4 30.00 → classe con densità maggiore=Classe modale 15.5-|21.5 145 6 24.17 Mo(X)= (11.5+15.5)/2= 13. Osservazione 1: la moda è un indice di posizione in senso lato→ non vale la monotonicità. Osservazione 2: la moda può non essere unica

Es.1 n→ dispari n° difetti xi ni Ni 0 2 2 1 2 4 2 1 5 → con n=9, dispari quindi Posizione centrale= n+1/2 = 5 3 3 8 0-0-1-1- 2 -3-3-3- 4 1 9 Me= n°difetti in corrispondenza di 5= 2 Osservando le Frequenze cumulate e confrontando il valore della posizione centrale, posso facilmente individuare la Mediana. Sulla colonna delle Frequenze cumulate si individua la prima frequenza cumulata maggiore o uguale alla posizione cercata. Es.2 n → pari n° difetti xi ni Ni 0 2 2 1 7 9 → PC1=16/2= 2 4 13 PC2= 8+1= 9 3 2 15 9 è la prima frequenza cumulata > di 8 → Me(8)= 4 1 16 9 è uguale alla PC → Me(9)= 1 Quindi Me(x) = (x8+x9)/2= 1 Es.3 n pari – carattere qualitativo giudizio xi ni Ni Grav. Insuff 2 2 Insuff. 6 8 → PC1= 16/2= 8 Suff. 5 13 PC2= 9 Buono 2 15 8 è uguale alla PC1→ Me(8)= Insuff Ottimo 1 16 13 è la prima frequenza cumulata > di 9→ Me(9)=Suff Quindi ME= Insuff e Suff.

Calcolo della Mediana con carattere quantitativo continuo suddiviso in classi

Frequenze assolute Si individua un intervallo mediano per cui tutti i suoi fattori soddisfano la definizione; successivamente si calcola la mediana attraverso questa formula:

Me(x)= h (i-1)+ (P-N (i-1)) ai/ni

Dove: h (i-1)→ limite inferiore della classe mediana N (i-1)→ frequenza cumulata della classe precedente alla classe mediana P→ posizione mediana (se n dispari=(n+1)/2; se n pari=n/2 o n/2+1) ai→ ampiezza classe mediana ni→ frequenza assoluta classe mediana Es.1 X= voto verifica, carattere quantitativo continuo xi ni Ni 0-|4 4 4 n=19, dispari → (n+1)/2=10 → classe mediana= 4-| 4-|6 8 12 Me(x)= 4+ (10-4)x2/8= 5. 6-|7 5 17 7-|10 2 19 Es.2 X= altezza, carattere quantitativo continuo xi ni Ni 7.5-|9.5 40 40 n=330, pari → PC1= n/2=165, PC2= n/2+1= 9.5-|11.5 25 65 Classe med.1=Classe med.2= 11.5-|15. 11.5-|15.5 120 185 Me1= 11.5+ (165-65)x4/120= 14. 15.5-|21.5 145 330 Me2= 11.5+ (166-65)x4/120= 14. MEDIANA= (me1+Me2)/2= 14.

  • (^) La Classe mediana non è influenzata dai valori estremi della distribuzione
  • (^) Se la classe mediana è la prima classe, nella formula dove devo mettere la frequenza cumulata della classe precedente metto 0
  • (^) Con la mediana, anche se le classi sono di ampiezza diversa, non dobbiamo confrontare la densità
  • (^) Le posizioni non possono avere la virgola, le mediane si. Frequenze Relative

Caratteri qualitativi e quantitativi discreti: la mediana è la modalità cui corrisponde la prima frequenza relativa cumulata maggiore o uguale a 0. Caratteri quantitativi suddivisi in classi: individuato l’intervallo mediano (cioè la lasse cui corrisponde la prima frequenza relativa cumulata maggiore o uguale a 0,5) la mediana si calcola con la formula:

Me(x) = h (i-1) + (0,5-Fi-1) ai/fi

Es.1 X= altezza, carattere quantitativo continuo xi ni Ni fi Fi 7.5-|9.5 40 40 0.121 0.121 La classe la cui frequenza cumulata relativa ha 9.5-|11.5 25 65 0.076 0.197 un valore maggiore o uguale a 0.5 è 11.5-|15. 11.5-|15.5 120 185 0.345 0.561 |

  • con r→ 0 → Media geometrica Contiene una produttoria, quindi faccio X1xX2xX3ecc; le frequenze sono alla potenza e non moltiplicate alle modalità. Es.1 x=voti in 6 esami di uno studente xi ni Media aritmetica: (18+21+25+26+27+28)/6= 24. 18 1 21 1 Media armonica: 6/(1/18+1/21+1/25+1/26+1/27+1/28)=23. 25 1 → 26 1 Media quadratica: Radice di ((18^2 +21^2 +25^2 +26^2 +27^2 +28^2 )/6)= 24. 27 1 28 1 Media geometrica: Radice di ordine 6 di (18x21x25x26x27x28)= 23. Es.2 carattere quantitativo suddiviso in classe, x=altezze xi ni xi= ss classe xini xi^2 ni (1/xi)ni xini^ log(xi)ni 7.5-|9.5 40 8.5 340.0 2890.00 4.7058 - 85. 9.5-|11.5 25 10.5 262.5 2756.25 2.3809 - 58. 11.5-|15.5 120 13.5 1620.0 21870.00 8.8889 - 312. 15.5-|21.5 145 18.5 2682.5 49626.25 7.8378 - 423. | | | | somme→ 4905 77142.5 23.8135 879. Media aritmetica: 4905 /330=14. Media quadratica:radice di ( 77142.5 /330)= 15. Media armonica: 330/ 23.8137 = 13. Media geometrica: in questo caso è impossibile da calcolare, quindi utilizziamo un’altra formula che ci permette di calcolarla: 1)la media aritmetica dei logaritmi naturali di xi:

μ ( r ) =

n

k

i = 1

xi

( 2 )

ni

n k

i = 1

xi

ni

2)fare l’inversa: Media Geometrica: 879.7865 /330= 2.666 → e2.666= 14.

Teorema fondamentale delle medie potenziate

Ogni funzione μ(r) delle medie potenziate:

  • è monotona non decrescente
  • è compresa tra x minimo e x massimo
  • tutte le medie potenziate sono medie in senso stretto (hanno le tre proprietà degli indici di posizione) armonica ≤geometrica ≤aritmetica≤ quadratica (E’ possibile che siano tutte uguali se abbiamo una costante, ovvero se xi è uguale) (distribuzione degenere)

Proprietà della media aritmetica

(r=1) Proprietà di tipo matematico

  1. Operatore media aritmetica M(X) → assegna ad ogni x la sua media aritmetica. → Proprietà dell’operatore media:
    • (^) M(c)= M(costante)= c
    • (^) M(cX)= c M(X)
    • (^) M(X+-Y)= M(X)+- M(Y)
    • (^) M è un operatore lineare, quindi M(Y)= aM(X)+b Proprietà di tipo statistico
  2. 1° Proprietà : la media aritmetica rende nulla la somma degli scarti di ogni valore da un indice di posizione. → Se α=μ , allora M(X-μ)=0 , ovvero

log ( μ ) =

n

K

i = 1

log ( xi ) ⋅ ni

μ = elog ( μ )

k

i = 1

( xi − α ) ⋅ ni = 0

Proprietà

  • (^) NON NEGATIVITA’ v(x)≥ 0 In particolare, è nullo se e solo se tutte le modalità della distribuzione sono uguali (distribuzione degenere).
  • (^) MONOTONICITA’ un indice di variabilità assume valori tanto più grandi quanto maggiore è la diversità tra le modalità della distribuzione.
  • (^) INVARIANZA PER TRASLAZIONE v(x+b)= v(x) la variabilità di un carattere non varia se esso viene traslato (ovvero se a ciascun carattere viene aggiunta o sottratta una quantità costante).

1- Indice di eterogeneità di Gini.

es.1 : colore di capelli di 3 Gruppi Colore G1 G2 G nero 0.10 0.30 0. castano 0.25 0.30 0. biondo 0.60 0.30 0. altro 0.05 0.10 0. E (G1)= 1- (0.1^2 +0.25^2 +0.6^2 +0.05^2 )= 0. E (G2)= 1- (0.3^2 +0.3^2 +0.3^2 +0.2^2 )= 0. E (G3)= 1- (0.7^2 +0.2^2 +0.05^2 +0.05^2 )= 0. → Il G2 è il gruppo con mutabilità più alta, mentre il G3 è il gruppo con mutabilità più bassa. Indice Normalizzato: È un indice riferito ai suoi valori minimi e massimi compreso tra 0 e 1; Serve per fare confronti tra caratteri diversi o stessi ma misurati con unità di misura diversi; si calcola →IN= I /I max Indice di minima mutabilità: si ha quando ad una sola modalità corrisponde tutta la frequenza, tutte le altre modalità hanno frequenza nulla. E min= 0 Indice di massima mutabilità: si ha quando tutte le modalità hanno la stessa frequenza. E max= 1- 1/k (dove k è il numero delle modalità)

E = 1 −

k

i = 1

f i

2

Quindi Indice di Gini normalizzato Che sarà compreso tra 0 e 1: se è molto vicino a 1, il carattere avrà alta mutabilità; se è molto vicino a 0, il carattere avrà poca mutabilità.

Indice di Variabilità

Indici semplici (per caratteri quantitativi) Range: differenza tra il valore massimo e il valore minimo osservati ( xmax -xmin) Differenza interquartile: differenza tra terzo quartile e primo quartile (Q3-Q1) Esistono degli Indici più elaborati; Esistono due impostazioni basate sul differente modo del calcolo di tali distanze:

  • le distanze di ogni modalità da tutte le altre → Indicatori Globali
  • le distanze di ogni modalità da una particolare, scelta ad hoc → Indicatori di dispersione

2- Indici di Dispersione

r=1 → da mediana r=2 → da media

→ Chiamato anche Scarto Quadratico Medio (σ).

La Varianza (Var(x)) è il quadrato dello scarto quadratico medio

  • La Varianza deve sempre essere ≥0.
  • Le varianze non sono confrontabili
  • E’ la media degli scarti dalla media al quadrato

EN =

E

1 K

Dr ( c ) =

[

n

k

i = 1

xi − c

r

⋅ ni

]

1 r

D 1 ( me ) =

n

k

i = 1

xi − Me ⋅ ni

D 2 ( μ ) =

[

n

k

i = 1

( xi^ −^ μ )

2

⋅ ni

]

1 2

D 2 ( μ )

2

= σ^2 = M

[(

X − μ x )

2

]

Proprietà della Varianza

→ Operatore varianza

  1. Var(a)=0 varianza di una costante
  2. Var(aX)= a^2 Var(X)
  3. Var(aX+b)= a^2 Var(X) → la varianza non è un operatore lineare
  4. Var(X+b)= Var(X)
  5. Var(X+Y)= Var(X)+ Var(Y)+ termine (diverso da 0) → La varianza della somma non è la somma delle varianze

→ Teorema della scomposizione della varianza (analogo proprietà Associativa media aritm.)

I dati elementari sono classificati in H sottogruppi. Per ciascuno di essi si conosce la numerosità, la media e la varianza.

  • Media totale μj= xij/nj
  • Varianza totale σ^2 = σ^2 W + σ^2 B → σ^2 W= Varianza Within = varianza entro i gruppi E’ la media delle varianze dei gruppi → σ^2 B= Varianza Between = varianza tra i gruppi E’ la varianza delle medie dei gruppi Es. X= libri letti in un mese da 4 tipologie di individui classificati rispetto alla loro età μj ni σj μj.nj μj^2 .nj σj^2 σj^2 .nj <20 7 60 2 420 2940 4 240 20-|40 1 60 1 60 60 1 60 40-|50 3 40 1 120 360 1 40

50 5 40 3 200 1000 9 360 200 800 4360 700 → Media generale= 800 /200= → Varianza Between= varianza delle medie dei gruppi= 4360 /200- (4)^2 = 5. → Varianza Within= media delle varianze dei gruppi= 700 /200=3. → Varianza totale= Varianza B+ Varianza W= 5.8+3.5= 9.

2

W = M ( σ

2

j ) =

n

h

j = 1 nj

i = 1

( xij^ −^ μj )

2

nj

⋅ nj

σ^2 B =

n

h

j = 1

( μj^ −^ μ )

2

⋅ nj

Indici di Forma

Sono definiti tramite degli indici che possono inglobare tutti gli indici che abbiamo già visto, i Momenti , e si possono calcolare solo per i caratteri quantitativi. → Momenti Centrali : la media degli scostamenti delle differenze di x dalla propria media elevato ad s≥ 1 → Momenti dall’Origine : la media degli scarti di x da 0 (medie delle potenze di x), elevati alla s(≥1) Casi particolari: S=1 → il momento centrale è = il momento dall’origine è la Media aritmetica di x S=2→ il momento centrale è la varianza il momento dall’origine è la meda di X^2.

1- Indici di Simmetria

Una distribuzione statistica è simmetrica quando esiste un valore centrale (c) tale che esistono due valori a destra (xi=c-K) e a sinistra di c (xj= c+K), uno più grande e uno più piccolo, che hanno la stessa frequenza f(xi)=f(xj) es. xi ni xi ni 1 10 1 10 2 20 → è simmetrica 2 5 → non è simmetrica 3 10 3 8 Proprietà di una distribuzione simmetrica unimodale (se c’è una sola moda):

  • (^) Moda=Mediana=Media=c
  • (^) I momenti centrali di ordine dispari sono nulli (μ3=μ5=...=0)

Asimmetria Positiva (a sinistra)

Significa che la distribuzione di frequenza ha molte più unità statistiche che hanno valori piccoli. Moda<Mediana<μ Asimmetria Negativa (a destra) Significa che la distribuzione di frequenza ha molte più unità statistiche che hanno valori grandi. μ<Mediana<Moda

μ ¯ s =

xi − μ x )

s

⋅ f i

μs =

xi

s

⋅ f i